Számítógépek

A robots.txt használata a keresőmotorok tiltásához a fájlok indexeléséhez

Szerző: Peter Berry
A Teremtés Dátuma: 12 Július 2021
Frissítés Dátuma: 10 Lehet 2024
Anonim
A robots.txt használata a keresőmotorok tiltásához a fájlok indexeléséhez - Számítógépek
A robots.txt használata a keresőmotorok tiltásához a fájlok indexeléséhez - Számítógépek

Tartalom

Ron nyugdíjas mérnök és menedzser az IBM-nél és más csúcstechnológiai vállalatoknál. A hardver és a szoftver tervezésére egyaránt szakosodott.

Mint író, aki cikkeket közöl az internet különböző webhelyein, online archívumot akartam létrehozni a munkámhoz. Ez egy olyan adattár lenne, amelyhez szükség szerint hozzáférést adhatnék másoknak. Ilyen például a szerzői jog megsértésének megállapítása a szerzői jogok megsértése (DMCA) eseteiben. Ugyanakkor, annak elkerülése érdekében, hogy azonos tartalmú duplikált fájlok jelenjenek meg a keresési eredmények között, meg kellett akadályoznom, hogy az archívumban lévő fájlokat indexeljék a keresőmotorok, például a Google vagy a Bing.

Egy kis kutatás kimutatta, hogy a robots.txt fájlt, tájékoztathatnám a keresőmotorokat arról, hogy ne indexeljenek bizonyos elemeket a webhelyemen. Ez egy egyszerű és egyszerű megoldás, amely pontosan azt teszi, amire szükségem van. De a robots.txt fájlom beállításakor olyan problémákba ütköztem, amelyekkel az elolvasott dokumentáció nem foglalkozott, és amelyekhez némi idő és fejkarmolás szükséges, hogy kipróbálhassuk.


Ezért gondoltam hasznosnak egy egyszerű útmutatót, amely megmenthet valakit attól, hogy megküzdjön az általam megfogalmazott problémákkal.

Mi a robots.txt?

A keresőmotorok a „robotoknak” nevezett alkalmazásokat használják az egész internet „feltérképezésére”, online fájlok felkutatására és adatbázisba történő felvételre. Amikor egy felhasználó például beír egy keresési kifejezést a Google-ba, akkor a lekérdezés illeszkedik a Google által feltérképezett webhelyek adatbázisához. Ebből a belső adatbázisból készül a keresési eredmények listája a felhasználó számára.

A robot.txt fájlt arra használják, hogy lényegében KEEP OUT jelet tegyen fel a webhelyén található fájlokhoz, amelyeket nem szeretné, hogy a keresőmotor robotjai lássák. Mivel ezeket a fájlokat a robot kihagyja, nem indexelik őket a keresőmotor adatbázisában, és nem jelennek meg a keresési eredmények között.

A jó hírű keresőmotorok úgy programozzák be robotjaikat, hogy minden megtalált webhelyen keressék a robot.txt fájlt. Ha ez a fájl létezik, a robot követni fogja az utasításokat a fájlok vagy mappák tekintetében, amelyeket a robotnak át kell hagynia.


(Vegye figyelembe, hogy ez a keresőmotor részéről teljesen önkéntes. A gonosz keresőmotorok figyelmen kívül hagyhatják a robot.txt utasításait, és figyelmen kívül hagyják azokat. Valójában néhány rosszfiút vonzhatnak a robot.txt webhelyének egyes részei. kerülje azt az elméletet, hogy ha el akarja rejteni, akkor lehet, hogy van valami, amit kiaknázhatnak).

A robots.txt fájl beállítása

Leírom, hogyan állítottam be a robots.txt fájlt a sajátos igényeim kielégítésére. A robots.txt különböző módjainak általánosabb leírását itt olvashatja el. Ne feledje, hogy ennek a módszernek a használatához saját webhelynek kell lennie, saját domain névvel.

A fájlokhoz való hozzáférés korlátozásához a robots.txt fájl csak akkor működik, ha saját webhelye van saját domainnévvel. Ez azért van, mert a robots.txt fájl csak a webhely legfelső szintű könyvtárában található meg, és csak abban az esetben módosíthatja ezt a könyvtárat, ha Ön a webhely tulajdonosa.

Például, ha a webhelye az


http://www.myownwebsite.com

akkor a robots.txt fájlnak meg kell adnia a nevét

http://www.myownwebsite.com/robots.txt

Ha a robots.txt fájlt bárhová felteszi a webhelyre, azt nem ismerjük fel. Például, ha a robots.txt fájlt a mygoodstuff nevű mappába helyezi,

http://www.myownwebsite.com/mygoodstuff/robots.txt

vagy egy aldomainbe, mint pl

http: //www.mygoodstuff/myownwebsite.com/robots.txt

az internetes bejáró robotok nem ismerik fel, és nem veszik figyelembe az utasításokat.

E korlátozás miatt ezt nem lehet megtenni egy ingyenes Wordpress-webhelyen, például a https://myfreewebsite.wordpress.com címen. A robots.txt fájlt láthatja a wordpress.com webhelyen (https://wordpress.com/robots.txt), de nem módosíthatja.

Ha meg szeretné tekinteni a wordpress.com robots.txt fájlt, egyszerűen írja be a https://wordpress.com/robots.txt fájlt a böngésző URL mezőjébe, és nyomja meg az Enter billentyűt. Láthatja a fájl tartalmát, de nem tudja módosítani.

Vegye figyelembe azt is, hogy a nagybetűk számítanak! A fájlnévnek robots.txt kell lennie, és semmi másnak. A ROBOTS.TXT vagy a Robots.Txt nem fog működni.

A robots.txt fájl tartalma

Így nézhet ki egy tipikus robots.txt fájl tartalma:

Felhasználó-ügynök: *

Disallow: / mappa-figyelmen kívül hagyandó /

A Felhasználó-ügynök kifejezés meghatározza azokat a keresőmotorokat, amelyekre az irányelv vonatkozik. A fenti példában szereplő * azt jelenti, hogy minden keresőmotorra vonatkozik. Ha csak azt szeretné, ha az utasításai például a Google-ra vonatkoznának, akkor a következőket használná:

Felhasználó-ügynök: Google

Disallow: / mappa-figyelmen kívül hagyandó /

Ez csak a Google-t korlátozná, és semmilyen más keresőmotort nem férhet hozzá az Ön által felsorolt ​​mappákhoz vagy fájlokhoz.

A Tiltsa le kifejezés határozza meg, hogy mely mappákat vagy fájlokat ne keresse meg vagy ismerje fel a robot. A fenti példában nem akarom az úgynevezett mappa tartalmát figyelmen kívül hagyandó mappa hogy a keresőmotorok indexeljék. Tehát a Disallow utasításom utasítja a webrobotokat, hogy hagyják figyelmen kívül a következő URL-t:

http://www.myownwebsite.com/folder-to-ignore/

Több mappa vagy fájl adható meg:

Felhasználó-ügynök: *

Disallow: / mappa-figyelmen kívül hagyandó /

Disallow: / másik mappa /

Disallow: / harmadik mappa / almappa /

Letiltás: /some-folder/myfile.html

Robots.txt fájl létrehozása

Bármilyen szövegszerkesztő, például a Windows NotePad, használható robot.txt fájlok létrehozására. Vegye figyelembe, hogy ha dokumentumszerkesztőt, például Microsoft Word-t használ, a kimenetet .txt fájlként kell menteni. Ellenkező esetben a fájl rejtett kódokat tartalmazhat, amelyek érvénytelenítik a tartalmát.

Miután elmentette szövegként, a fájlt fel kell tölteni a webhely legfelső szintű könyvtárába. A legtöbb szerveren ez lesz a public_html mappa.

A robots.txt fájlt pontosan ugyanúgy töltse fel, mint a fájlokat a webhelyre. A legtöbb esetben egy FTP alkalmazás, például az ingyenes, nyílt forráskódú FileZilla kliens használata szükséges. Ellenőrizze, hogy a fájl a megfelelő mappába került-e.

VIDEO: Hogyan hozhatunk létre robots.txt fájlt

A robots.txt fájl tesztelése

Nagyon fontos tesztelni a robots.txt fájlt, hogy megbizonyosodjon arról, hogy a kívánt módon működik-e. Ellenkező esetben azt tapasztalhatja, hogy a letiltani kívánt mappák továbbra is elérhetők a robotok számára, és megjelennek a keresési eredmények között. Ha ez megtörténik, hetekig vagy akár hónapokig is eltarthat, amíg eltávolítják őket a keresőmotor adatbázisából.

Számos ingyenes robots.txt tesztelő elérhető az interneten. Itt vannak azok, amelyeket használtam:

A Google Webmestereszközök robots.txt tesztelője (Google-fiók szükséges)

http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php

A GOTCHA-k, akik engem kaptak!

A Google nem látta a robots.txt fájlt

A robots.txt fájlomat úgy állítottam be, hogy blokkoljon egy nevű mappát / YCN Archívum /. Létrehoztam a mappát a webhelyemen, és ellenőriztem, hogy a várakozásoknak megfelelően elérhető-e.

Ezután létrehoztam egy robots.txt fájlt a következő tartalommal:

Felhasználó-ügynök: *

Letiltás: / YCN Archívum /

Miután feltöltöttem ezt a fájlt a legfelső szintű könyvtáramba, a Google Webmestereszközök robots.txt tesztelőjével teszteltem. Bár gondosan követtem a fenti Webmestereszközök linken megadott utasításokat, azonnal problémába ütköztem. Íme a teljesen váratlan hibaüzenet:

De a robot.txt ott volt! Láttam a webhelyem fájllistáján, pontosan ott, ahol lennie kellett volna. Miért nem láthatta a Google? Végül láttam valamit a tesztelő oldalon, amire korábban nem figyeltem fel.

A kulcs abban a sorban volt, amely azt mondja: „A legfrissebb verzió 2014. 07. 26-án látható…” (a tesztet néhány nappal 7/26 után végeztem). Amikor elindítottam a tesztet, úgy tűnik, hogy a Google nem ment ki, és nem nézte meg a webhely állapotát abban a pillanatban, hanem nyilvánvalóan a belső képére támaszkodott, hogy milyen volt a webhely, amikor utoljára feltérképezte.

Szükségem volt a Google-ra, hogy aktuális képet kapjon arról, hogy mi található a webhelyemen. A Lekérés Google néven funkció használatával okoztam ezt.

A Megtekintés Google-ként funkció végrehajtása után a Google megtalálta a robots.txt fájlt.

Itt van egy másik szempont, amelyre vigyázni kell. A robots.txt tesztelőben a Google két különböző módon sorolta fel a webhelyemet:

myownwebsite.org

http://myownwebsite.org

Természetesen mindkét bejegyzés pontosan ugyanarra az URL-re hivatkozik. De mindegyikhez külön Google-letöltést kellett végrehajtanom, hogy felismerjem a robots.txt fájlt. Külön teszteket is elvégeztem mindegyiken annak érdekében, hogy a blokkolási utasításokat végre lehessen hajtani, függetlenül attól, hogy melyik URL-t használták a webhely eléréséhez.

A robots.txt fájlom nem működött!

Most, hogy a Google látta a robots.txt fájlt, a sikerben bízva futtattam a tesztet. Még mindig nem működött. Ezúttal a teszt arról számolt be, hogy bár a robots.txt fájlomat felismerték, ez nem blokkolja az / YCN Archive / mappa elérését. A webrobot hozzáférése ahhoz a mappához továbbra is "ENGEDÉLYES" volt.

A tiltott mappában vagy a fájl nevében nincs szóköz

Tudtam, hogy a robots.txt fájlomat helyesen állították be, így értetlenül vett, miért nem blokkolja a hozzáférést a megadott mappához. Beletelt egy kis időbe, mire rájöttem, mi történik. A mappámnak volt hely a névben! Amikor átneveztem a mappát a hely eltávolításához, a Google robots.txt tesztelő blokkoltnak mutatta a mappát.

A robots.txt elvégzi a feladatát

Mivel a robot.txt fájlt a helyére tettem, ez csendesen és hatékonyan végzi a dolgát. A fájljaimat biztonságosan archiválják az interneten, és bárki hozzáférhet hozzájuk, akinek megadom az URL-t. De egyikük sem jelenik meg a keresőmotorokban.

Ez a cikk pontos és a szerző legjobb tudása szerint hű. A tartalom csak tájékoztató vagy szórakoztató célokat szolgál, és nem helyettesíti a személyes vagy üzleti tanácsokat üzleti, pénzügyi, jogi vagy technikai kérdésekben.

Szovjet

Ajánljuk

Dinamikus diagramok készítése az OFFSET függvény és az elnevezett tartományok használatával az Excel 2007 és 2010 programokban
Számítógépek

Dinamikus diagramok készítése az OFFSET függvény és az elnevezett tartományok használatával az Excel 2007 és 2010 programokban

Robbie többnyire a kyrimről ír, de alkalmanként rávilágít a Micro oft alkalmazá ok, például az Excel é az Outlook furc a ágaira i .Üdvö...
Yochos vezeték nélküli fülhallgató áttekintés: Galaxy Buds + Alternatív megoldás egy hűvös tokkal
Számítógépek

Yochos vezeték nélküli fülhallgató áttekintés: Galaxy Buds + Alternatív megoldás egy hűvös tokkal

A Krzy ztof egy egé z életen át tartó jövőbeli technológiai drogo , aki olyan vállalatok legújabb történeteit viz gálja, mint az Apple, a am ung,...