Robot internetowy

Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie^[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:

badają zawartość witryny,
sprawdzają kod strony,
zbierają dodatkowe informacje o stronie,
monitorują aktualizacje,
tworzą mirrory stron.

W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu^[2].

Nazwy używane wymiennie

bot indeksujący
pająk, spider
pełzacz, web crawler
web wanderer — od pierwszego robota indeksującego hipertekst: www wanderera

Blokada dostępu dla robota internetowego

Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt^[3].

Przypisy

↑ Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags [online], Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).
↑ Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).
↑ Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

Linki zewnętrzne

The Web Robots FAQ (ang.)
Robots Exclusion Opis zasad sterowania robotem na własnej stronie (ang.)
The Web Robots Database Lista aktywnych działających robotów sieciowych (ang.)

[1] Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags [online], Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).

[2] Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

[3] Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

[1]

[2]

[3]