Robots.txt (Файл)

Robots.txt – стовідсотково відповідає своїй назві, будучи інструкцією для пошукових роботів. Файл robots.txt записується в корневу папку сайту і керує поведінкою пошукових роботів, головним чином, забороняючи індексацію тієї чи іншої частини сайту.

Історія виникнення robots.txt

В середині 90-х років з розвитком пошукових сервісів у всесвітній павутині з’ясувалося, що дії пошукових машин істотно ускладнюють користувачам роботу з сайтами. Відбувалося це, в основному, через те, що пошуковики, індексуючи сайти, зверталися до всього його вмісту, включаючи малозначні для індексації сторінки. Виникла необхідність створення ефективного інструменту, котрий прямо вказує пошуковій машині, на які сторінки слід звертати увагу, а які ігнорувати. У червні 1994 року більшість виробників та адміністраторів пошукових систем і деякі зацікавлені структури уклали угоду про розробку єдиного програмного засобу, керуючого діями пошуковика на сайті. У результаті угоди на світ з’явився стандарт написання робочих файлів robots.txt. Правда, це не програма, а всього лише текстовий файл, але, тим не менш, інструмент працездатний.

Пошукова машина і robots.txt

Входячи на сайт, пошуковий робот, перш за все, аналізує структуру і звертається до файлу robots.txt. Файл robots.txt виглядає наступним чином:

  • User – agent : *
  • Disallow : /tmp/
  • Disallow : /cgi – bin/

Цей приклад файлу robots.txt демонструє заборону індексації двох папок. Зірочка, розташована після фрази User – agent, говорить про те, що вказівки, котрі містяться в robots.txt, призначаються для всіх пошукових роботів. На місці зірочки може бути зазначено і назва якогось одного робота. У цьому випадку проведення індексації заборонено тільки даному пошуковику. Слово “Disallow” в robots.txt якраз і позначає заборону індексації. Дуже велике значення має коса риска після слова “disallow” – слеш. Пояснимо на прикладі. Запис види:

  • User – agent : *
  • Disallow : /

означає заборону індексації сайту цілком всіма роботами. Однак якщо після слова “disallow” косої риски не буде, то ситуація прямо протилежна – весь сайт дозволений для індексації всіма роботами. При створенні файлу robots.txt на наявність або відсутність слеша необхідно звертати увагу.

Слід зазначити, що існують і інші способи заборони індексації – атрибут nofollow і тег noindex, але пошуковики (такі як Яндекс або Google) більш лояльні саме до вмісту robots.txt.