dbo:abstract
|
- A keresőrobot (angolul: web crawler) egy informatikai kifejezés. Olyan speciális programok gyűjtőneve, amelyek képesek az interneten fellelhető publikus, illetve a robots.txt és a robots metatag által engedélyezett tartalmak letöltésére, és ezek valamilyen formában való elemzésére, az adatok eltárolására. A keresőrobotokat legtöbbször keresőoldalak használják arra a célra, hogy a felkutatott és indexelt weboldalak linkjeit a saját oldalukon kereshetővé tegyék. Ilyen a talán legismertebb Googlebot, ami a Google számára tölt le weboldalakat, de nagyon sok hasonló robot létezik. A tipikus felhasználáson kívül léteznek speciális alkalmazások is, karbantartásra, vagy más adatok összegyűjtésére használt robotok is. A keresőrobotok felépítésüktől függően képesek egy már létező böngésző motorját felhasználva a megcélzott weboldal HTML-kódjának a teljes feldolgozására, és azon a JavaScript-függvények lefuttatására is, de általában nem ez a helyzet. A keresőrobotok rendszerint egy böngészőnél sokkal egyszerűbb módon, a HTML-struktúra objektumokká felépítése nélkül próbálják a szöveget értelmezni. Ez azt jelenti, hogy az emberi felhasználó által látott, és a keresőrobot által látott „kép” néha jelentősen eltér. A keresőrobotok többsége nem képes képeket értelmezni, illetve a HTML-kód megjelenítését szabályozó CSS-t sem dolgozza fel, így lényegében csak a szöveges tartalom az amit lát. Ahhoz, hogy egy a keresőrobotéhoz hasonló képet kapjunk, nekünk is egy szöveges böngészőt kell használni, ilyen például a Lynx. A weboldalak tulajdonosai háromféle módon tudják a saját oldalaikon a keresőrobotok tevékenységét szabályozni. Ezek közül a leggyakrabban használt a robots.txt. Ez egy egyszerű szöveges fájl, amely instrukciókat tartalmaz a robotok számára, hogy az azt tartalmazó weboldal mely oldalait érhetik el a robotok. Például: User-agent: *Disallow: /test/*Allow: /help.htmlAllow: /index.html Itt a „test” alkönyvtár tartalma tilos a robotok számára, az oldalon található help.html és az index.html viszont feldolgozható. Alapértelmezetten minden tartalmat feldolgozhatnak. A User-agent: után következik annak robotnak a megnevezése, amelyre ez a bejegyzés vonatkozik, a csillag jelentése az, hogy minden robotra vonatkozik, lehet egy konkrét robotot is letiltani, például: User-agent: GooglebotDisallow: / Ez a Google keresőrobotjának jelzi, hogy semmit nem indexelhet (a webhely gyökérkönyvtárát tiltja le). A következő eszköz a HTML-oldalak fejlécében elhelyezett robots metaelem: <meta name="robots" content="index,follow" /> A tartalom (content) lehetséges értékei:
* noindex – ilyenkor az adott oldalt a robotok nem indexelhetik
* index – indexelés engedélyezett
* nofollow – az adott oldalt indexeli, de onnan nem gyűjthet további linkeket
* follow – linkek gyűjtése megengedett
* all – azonos az index,follow kombinációval, ez az alapértelmezés
* none – azonos a noindex,nofollow kombinációval És ezek értelemszerű kombinációi, az index,follow eset az alapértelmezés, ezért ezt felesleges megadni. A harmadik lehetőség az egyes linkek követését korlátozza, ez az linkelem <span class="p"><</span><span class="nt">a</span> <span class="na">href</span><span class="o">=</span><span class="s">"…"</span> <span class="na">rel</span><span class="o">=</span><span class="s">"nofollow"</span><span class="p">></span>linkszöveg<span class="p"></</span><span class="nt">a</span><span class="p">></span> paraméterezésével állítható be. Az így megjelölt linkeket a keresőrobot korábban csak követte, de nem számított bele az oldalak kapcsolódási tőkéjét meghatározó linkek közé. 2019. szeptemberében a Google bejelentette, hogy a nofollow attribútummal ellátott linkeket is felhasználhatja az oldalak rangsorolásakor, 2020. március 1 után pedig az indexelés és feltérképezést is elvégezheti a nofollow ellenére. A bejelentéssel bevezetett két új attribútumot, a rel="ugc" a felhasználó által generált tartalomra mutató linkekre, míg a rel="sponsored" a szponzorált linkekre alkalmazható. Fontos megjegyezni, hogy a keresőrobotok számára a fenti szabályok betartása önkéntes kooperáció, ha egy robotot nem ilyen módon programoztak, akkor nem kényszeríthető a betartására, a weboldal tulajdonosa legfeljebb tűzfal segítségével zárhatja ki a már ismert kártékony robot IP-címét, vagy olyan dinamikus kódot szerkeszt, amely a robot oldal lekérésének a szövegéből kitalálja hogy az egy bizonyos fajta robot, és neki egy másik oldalt generál. A kártékony keresőrobotok csoportját alkotják az olyan keresőrobotok, amelyek e-mail-címeket vagy más elérhetőségeket keresnek. Ezek nem weboldalakat gyűjtenek indexelés céljából, hanem csak a gyanútlan felhasználók elérhetőségét, amit a későbbiekben spam céljára fognak használni. (hu)
- A keresőrobot (angolul: web crawler) egy informatikai kifejezés. Olyan speciális programok gyűjtőneve, amelyek képesek az interneten fellelhető publikus, illetve a robots.txt és a robots metatag által engedélyezett tartalmak letöltésére, és ezek valamilyen formában való elemzésére, az adatok eltárolására. A keresőrobotokat legtöbbször keresőoldalak használják arra a célra, hogy a felkutatott és indexelt weboldalak linkjeit a saját oldalukon kereshetővé tegyék. Ilyen a talán legismertebb Googlebot, ami a Google számára tölt le weboldalakat, de nagyon sok hasonló robot létezik. A tipikus felhasználáson kívül léteznek speciális alkalmazások is, karbantartásra, vagy más adatok összegyűjtésére használt robotok is. A keresőrobotok felépítésüktől függően képesek egy már létező böngésző motorját felhasználva a megcélzott weboldal HTML-kódjának a teljes feldolgozására, és azon a JavaScript-függvények lefuttatására is, de általában nem ez a helyzet. A keresőrobotok rendszerint egy böngészőnél sokkal egyszerűbb módon, a HTML-struktúra objektumokká felépítése nélkül próbálják a szöveget értelmezni. Ez azt jelenti, hogy az emberi felhasználó által látott, és a keresőrobot által látott „kép” néha jelentősen eltér. A keresőrobotok többsége nem képes képeket értelmezni, illetve a HTML-kód megjelenítését szabályozó CSS-t sem dolgozza fel, így lényegében csak a szöveges tartalom az amit lát. Ahhoz, hogy egy a keresőrobotéhoz hasonló képet kapjunk, nekünk is egy szöveges böngészőt kell használni, ilyen például a Lynx. A weboldalak tulajdonosai háromféle módon tudják a saját oldalaikon a keresőrobotok tevékenységét szabályozni. Ezek közül a leggyakrabban használt a robots.txt. Ez egy egyszerű szöveges fájl, amely instrukciókat tartalmaz a robotok számára, hogy az azt tartalmazó weboldal mely oldalait érhetik el a robotok. Például: User-agent: *Disallow: /test/*Allow: /help.htmlAllow: /index.html Itt a „test” alkönyvtár tartalma tilos a robotok számára, az oldalon található help.html és az index.html viszont feldolgozható. Alapértelmezetten minden tartalmat feldolgozhatnak. A User-agent: után következik annak robotnak a megnevezése, amelyre ez a bejegyzés vonatkozik, a csillag jelentése az, hogy minden robotra vonatkozik, lehet egy konkrét robotot is letiltani, például: User-agent: GooglebotDisallow: / Ez a Google keresőrobotjának jelzi, hogy semmit nem indexelhet (a webhely gyökérkönyvtárát tiltja le). A következő eszköz a HTML-oldalak fejlécében elhelyezett robots metaelem: <meta name="robots" content="index,follow" /> A tartalom (content) lehetséges értékei:
* noindex – ilyenkor az adott oldalt a robotok nem indexelhetik
* index – indexelés engedélyezett
* nofollow – az adott oldalt indexeli, de onnan nem gyűjthet további linkeket
* follow – linkek gyűjtése megengedett
* all – azonos az index,follow kombinációval, ez az alapértelmezés
* none – azonos a noindex,nofollow kombinációval És ezek értelemszerű kombinációi, az index,follow eset az alapértelmezés, ezért ezt felesleges megadni. A harmadik lehetőség az egyes linkek követését korlátozza, ez az linkelem <span class="p"><</span><span class="nt">a</span> <span class="na">href</span><span class="o">=</span><span class="s">"…"</span> <span class="na">rel</span><span class="o">=</span><span class="s">"nofollow"</span><span class="p">></span>linkszöveg<span class="p"></</span><span class="nt">a</span><span class="p">></span> paraméterezésével állítható be. Az így megjelölt linkeket a keresőrobot korábban csak követte, de nem számított bele az oldalak kapcsolódási tőkéjét meghatározó linkek közé. 2019. szeptemberében a Google bejelentette, hogy a nofollow attribútummal ellátott linkeket is felhasználhatja az oldalak rangsorolásakor, 2020. március 1 után pedig az indexelés és feltérképezést is elvégezheti a nofollow ellenére. A bejelentéssel bevezetett két új attribútumot, a rel="ugc" a felhasználó által generált tartalomra mutató linkekre, míg a rel="sponsored" a szponzorált linkekre alkalmazható. Fontos megjegyezni, hogy a keresőrobotok számára a fenti szabályok betartása önkéntes kooperáció, ha egy robotot nem ilyen módon programoztak, akkor nem kényszeríthető a betartására, a weboldal tulajdonosa legfeljebb tűzfal segítségével zárhatja ki a már ismert kártékony robot IP-címét, vagy olyan dinamikus kódot szerkeszt, amely a robot oldal lekérésének a szövegéből kitalálja hogy az egy bizonyos fajta robot, és neki egy másik oldalt generál. A kártékony keresőrobotok csoportját alkotják az olyan keresőrobotok, amelyek e-mail-címeket vagy más elérhetőségeket keresnek. Ezek nem weboldalakat gyűjtenek indexelés céljából, hanem csak a gyanútlan felhasználók elérhetőségét, amit a későbbiekben spam céljára fognak használni. (hu)
|