Пошуковий робот

Пошуковий робот – це найважливіший елемент пошукової системи, в завдання якого входить збір нових даних про сайти та їх оновлення. Пошуковий робот являє собою програму, яка діє приблизно так, як і браузерна програма – зчитує інформацію з веб-сторінок. Пошуковий робот, бот, краулер, пошуковий павук, web crawler, ant, automatic indexer, bot, web spider, web robots, web scutter – це все назви одного й того ж явища, які можуть зустрічатися в англомовному і україномовному інтернеті.

Пошукова система може мати не один, а кілька пошукових роботів. Кожен бот являє собою автоматичний скрипт, що має свій алгоритм роботи, своє конкретне завдання для певного сайту.

Бот як корабель-дослідник

Щоб уявити собі механізм роботи робота, скористаємося художнім образом. Уявіть океан, в якому існують архіпелаги островів. Частина цих островів відкрита, вивчена, нанесена на карту. Частина ще не відкрита. Частина щойно з’явилася, наприклад, в результаті вулканічної діяльності. Корабель-дослідник (або декілька кораблів) заходять на острови, а потім інформація заноситься на карту. Ось на карті з’явився новий острів. Ось старий острів, на на ньому збудований місто. А цей острів зник, пішов під воду.

Так само як корабель-дослідник, бот методично досліджує інтернет у пошуках нових сайтів, нових сторінок, нових файлів, зчитує, заносить їх до реєстру пошукової машини, тобто індексує. Для чого це потрібно пошуковій системі? Для того, щоб вона могла видати на запит найточнішу відповідь, що відповідає картині даних на самий останній момент. Для чого це потрібно сайту? Для того, щоб потрапити у видачу, тобто для того, щоб на пошуковий запит, пов’язаний з ним, система у своїй відповіді зазначила б саме цей сайт. Для чого це потрібно користувачеві? Для отримання правильної адекватної відповіді на своє питання.

Павукова діяльність

Отже, в морі інтернету з’явився новий острів – новий сайт. Як довго він буде залишатися в безвісті, навіть якщо містить необхідну інформацію? Як багато часу потрібно веб-павуку, щоб дістатися до нього і занести в свій список? Як часто краулер буде помічати зміни, які відбуваються на сайті? Чи вся інформація доступна павуку? Що робити, щоб в пошук не потрапляли певні сторінки та файли?

Павукова діяльність так влаштована, що рано чи пізно сайт буде помічений і проіндексований. Однак, це може зайняти кілька місяців. Щоб пошуковий робот швидше помітив його, потрібно внести сайт в спеціальні списки-каталоги, що існують при пошукових системах. Мова в першу чергу йде про такі пошукові Гіганти, як Google і Яндекс. Раз проіндексувавши сайт, бот буде регулярно туди заходити. Однак частота його відвідувань безпосередньо пов’язана з частотою оновлення сайтів. Помітивши, що сайт оновлюється приблизно раз на тиждень, бот заходить туди приблизно стільки ж, відповідно, нова веб-сторінка сайту може залишатися непоміченою кілька днів. І навпаки: існують рухливі блоги, які додають записи по кілька разів на день. Відповідно, робот контролює їх дуже часто й нові сторінки індексуються вже через кілька хвилин. Діяльність робота визначається заданим пошуковим алгоритмом, система алгоритмів гнучка і змінюється.

Завдання та обмеження

Як вже було сказано, система володіє великою кількістю різних роботів, які виконують різні завдання: одні шукають нові сторінки, інші відповідають за знаходження “мертвих” сайтів і чистку пошукових даних, треті індексують картинки, четверті – знаходять відео. Є робот, який відповідає за перевірку коректності посилань і робот, який читає виключно коментарі.

Для робота одне з найважливіших значень має файл robots.txt, розташований на підконтрольному сервері. Зайшовши на будь-який сайт, робот звертається в першу чергу до нього. Цей файл – інструкція для робота. По-перше, robots.txt може взагалі не допустити бота на сайт і сайт залишиться не проіндексованим. По-друге, robots.txt може закрити боту доступ до певних сторінок і файлів.