Что такое robot.txt?

Во время работы над техническим SEO первое, что нужно проверить и оптимизировать – это файл robots.txt. Данный текстовый файл является неотъемлемой частью практически любого сайта и, как можно догадаться уже из его названия, предназначен он именно для роботов. Прежде всего, для ботов поисковых систем.

Где находится файл robots.txt

Открыть файл robots.txt для изучения очень просто. Для этого нужно ввести в адресную строку браузера домен сайта и через косую черту название файла. Получается такой путь: «mysite.ua/robots.txt». Это говорит о том, что данный файл должен располагаться в корневой директории сайта, что является общепринятым стандартом.

Кстати, физически этого файла на сервере может и не быть. Популярные CMS зачастую генерируют его налету динамически, что бывает очень удобно. Поэтому если вы не обнаружили файл в корневой директории сайта, это еще ни о чем не говорит. Самое главное, чтобы он открывался по ссылке.

Для чего нужен robots.txt

Файл robots.txt известен как стандарт исключений для роботов. Когда поисковая система заходит на сайт, это фактически первый файл, который она будет просматривать на предмет инструкций. Здесь владелец сайта может указать, какие страницы или даже целые разделы проекта следует сканировать, а какие – нет. Таким образом, это одна из возможностей управления поисковыми системами, что интересно уже само по себе.
На первый взгляд может показаться странным, что возникает необходимость запрещать роботам что-то индексировать на сайте. Ведь одна из целей SEO-продвижения как раз и заключается в том, чтобы наоборот – обеспечить эффективное сканирование и индексацию сайта. Но не все так просто. Запрет на сканирование части страниц помогает в четырех случаях.

1. Закрыть технические страницы от индексации

На любом сайте довольно много страниц. Причем не всех из них содержат ценный контент – часть страниц всегда сугубо техническая и не представляет никакого интереса для посетителей. Скорее, если технические страницы попадут в индекс и по каким-то причинам начнут появляться в поиске, это может оттолкнуть.

Это может быть страница входа и регистрации или страница благодарности за совершенную покупку. Было бы странно, если бы такие страницы участвовали в поисковой выдаче. Именно это одно из предназначений файла robots.txt. Здесь можно перечислить все технические страницы, к которым доступ из поисковой системы не желателен.

2. Улучшить индексацию сайта за счет оптимального использования лимита

Вторая возможность связана с лимитами на индексацию. В связи с тем, поисковым системам приходится обрабатывать гигантские объемы информации, возникает необходимость в экономии вычислительных ресурсов. И чтобы оптимизировать процесс, в алгоритмы закладываются ограничения. У некоторых поисковых систем эти лимиты больше, у других меньше, но они есть.

Основная суть лимитов на индексацию в том, что поисковый бот за один раз просматривает ограниченное число страниц. Если сайт при этом большой, то до части контента он может добраться очень нескоро. Не говоря уже о своевременных обновлениях и переиндексации.
Бороться с лимитами помогает тот же файл robots.txt. Если запретить роботам индексировать все лишнее, то весь лимит будет тратиться с максимальной пользой. В итоге улучшится сканирование и индексация сайта. Иногда это бывает очень важно.

3. Запретить к индексации дублирующийся контент

Дублирование контента на сайте – это почти всегда ошибка. Возможно, ошибка была допущена в проектировании архитектуры сайта, или это существенный недостаток структуры URL. Иногда дублированный контент появляется в результате других недоработок.
Исключение составляют ситуации, когда дублированный контент зачем-то действительно нужен. Например, на сайте идет масштабное тестирование вариантов страниц с одинаковым содержанием, но разным оформлением, и по-другому сделать было нельзя. В любом случае следует явно указать поисковой системе на наличие дублей и запретить их индексацию.

Несмотря на то, что подобную ситуацию следует решать в корне и кардинально, иногда не помешает добавить дублирующийся контент в исключения для ботов поисковых систем. Все зависит от ситуации, а именно от того, где, как и на каком этапе появляются дубли на сайте. Если возможно составить короткие инструкции для поисковых систем в robots.txt, то это следует сделать.

4. В некоторых случаях можно заметно снизить нагрузку на сервер

Поисковых ботов существует гораздо больше, чем кажется. Причем помимо собственно десятков различных поисковых систем встречаются самые разные системы с разными целями. Как вариант, некоторые из ботов могут просто собирать какую-то информацию, чтобы затем ее продавать крупным корпорациям.

Интересно, что многие из этих ботов также следуют инструкциям, записанным в файле robots.txt. Тем самым появляется возможность запретить данным ботам сканирование сайта, а это может означать освобождение некоторых ресурсов на сервере.
Кстати, иногда стоит «отключить» и ботов некоторых поисковых систем, которые не находятся в приоритете, не дают трафик и не рассматриваются как перспективные.

Стоит этим заниматься или нет – зависит от ситуации. Системы аналитики позволяют проверить статистику посещения сайта ботами. И если выясняется, что сайт непрерывно бомбардируют боты, которые вам совершенно не нужны, их можно попытаться обезвредить с помощью robots.txt.

Как работает robots.txt

Содержимое файла строго стандартизировано, и ошибка может привести к существенным проблемам. К счастью, инструкции имеют простой и понятный синтаксис в формате «ключ: значение». Например, в robots.txt можно записать следующее:

User-agent: *
Disallow: /

Здесь содержатся две инструкции. Каждая инструкция начинается с новой строки. В первой строке ключ «User-agent» означает имя бота, к которому должны применяться инструкции ниже. Так, бот поискового гиганта Google имеет название «Googlebot», а Facebook – «Facebot». В данном случае стоит символ звездочки, который символизирует всех роботов без исключения.

Во второй строке ключ «Disallow» означает запрет на сканирование. Косая черта символизирует все директории сайта. Соответственно, здесь сказано, что всем ботам без исключения запрещено открывать и индексировать что-либо на сайте вообще.

Что нужно помнить

Инструкции в файле robots.txt сегодня носят больше рекомендательный характер для поисковиков. Это не строгие инструкции, которые обязательны к выполнению. Поэтому полагаться только на robots.txt не следует. Его можно использовать, и при этом практически все поисковые системы, так или иначе, учитывают инструкции в этом файле. Но вместе с тем, при возникновении любых проблем с индексацией, стоит найти более серьезный подход к решению задачи.