Почему это важно

robots.txt — первый файл, который поисковый робот часто запрашивает для домена. Ошибка в одной строке может запретить сканирование всего каталога с товарами или блога. В отличие от страничного noindex, который управляет индексацией конкретного ответа, директивы в robots.txt управляют доступом краулера к URL (с ограничениями, о которых ниже).

Если вы уже знаете, как проверять страницы в индексе, материал «Как проверить индексацию сайта в Google» дополняет это руководство практическими рекомендациями по работе в Search Console — целесообразно объединить оба этапа в одном чек-листе.

Что такое robots.txt и что он не «решает» сам по себе

Что это: обычный текстовый файл в корневой папке сайта по адресу /robots.txt (для поддоменов — отдельный файл на каждом хосте).

Что он делает: подсказывает поисковым роботам (Googlebot и т. п.), какие пути не стоит запрашивать, а какие можно запрашивать, с помощью директив типа Disallow / Allow в пределах заявленного User-agent.

Чего он не гарантирует:

Не заменяет авторизацию и конфиденциальность: URL-адреса, которые ранее попали в индекс или доступны по ссылкам, не стоит «скрывать» только из-за Disallow.
Не равно noindex: запрет в robots.txt не всегда удаляет страницу из индекса — иногда Google показывает «URL заблокирован robots.txt» без полного текста страницы.
Не обязательно для «разрешения» индексации: отсутствие файла или пустой файл обычно означает «нет ограничений в файле»; остальные сигналы (noindex, канонический URL, качество) остаются в силе.

Синтаксис: User-agent, Disallow, Allow, Sitemap

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml

Краткое содержание по строкам:

User-agent: — для которого действуют следующие правила (* — все, если робот поддерживает такую семантику).
Disallow: — префикс пути, который нежелательно сканировать; пустое значение часто интерпретируется как «ничего не запрещено» в пределах блока.
Allow: — исключение из более широкого Disallow (актуально для Googlebot; подробности — в документации Google).
Sitemap: — полный URL карты сайта; можно указать несколько строк для нескольких файлов sitemap.

Важно: одна ошибка в префиксе (лишний /, * не там, где нужно) может расширить запрет на лишние URL.

Типичные ошибки, которые блокируют сканирование или сбивают с толку поисковые системы

Disallow: / для User-agent: * на производственной среде без крайней необходимости — фактически просите не сканировать весь сайт.
Копирование staging-файла с полным приостановлением индексации — типичная ситуация после миграции.
Забытый Sitemap: — не беда, если карта сайта отправляется в Search Console, но четкая строка помогает избежать путаницы.
Дублирующиеся или противоречивые блоки для одного User-agent — лучше один четкий блок для * плюс отдельные узкие блоки только при необходимости.
Путаница с «скрытием из индекса» из-за Disallow — для страниц, которые должны исчезнуть из выдачи, обычно требуется ответ 404/410 или noindex, а не просто запрет в robots.txt.
Разные файлы для HTTP и HTTPS после перехода на SSL — убедитесь, что на каноническом хосте установлена актуальная версия.

Как проверить файл на наличие ошибок

Откройте в браузере https://ваш-домен/robots.txt — должен отображаться статус 200, а контент должен представлять собой текст без HTML-разметки страницы «ошибка».
В Google Search Console воспользуйтесь инструментом проверки robots.txt (название в интерфейсе может меняться — ищите в справке GSC).
Сравните запрещенные префиксы со структурой URL важных разделов: каталог, фильтры, блог, лендинги.
После внесения изменений — проверка критических URL в «Обзоре URL» (руководство по индексации).

robots.txt, XML-карта сайта и индексация

Строка Sitemap: в robots.txt помогает поисковой системе найти URL-адрес страницы; она не заменяет качество страниц и внутренних ссылок.
Если важные URL запрещены в robots.txt, они могут не попасть в очередь сканирования так, как вы ожидаете — даже при наличии sitemap.
Для крупных сайтов часто используют индексную карту сайта и несколько дочерних файлов — в robots.txt достаточно ссылки на индекс.

Краткий чек-лист

Файл доступен по ссылке /robots.txt, ответ 200, без лишнего HTML
Нет случайного Disallow: / в продаже
Директивы согласованы с фактической структурой URL
Добавлено Sitemap: в текущий XML
Изменения из staging не попали в production без проверки
Критические пути проверены в GSC после обновления

Заключение

robots.txt — простой файл с большой ответственностью: он управляет приоритетами сканирования, а не качеством контента. Типичные ошибки — слишком широкий Disallow, копирование из теста и путаница с noindex. Держите один понятный файл на каноническом хосте, явно укажите Sitemap: и после каждого изменения проверяйте ключевые URL в Search Console.

Если вам нужен аудит сканирования и индексации вместе с техническими исправлениями — это направление системного SEO; вы можете заказать сопровождение или разовый аудит в SEO-Studio.

Файл robots.txt: типичные ошибки и как их избежать