Блог · SEO

Файл robots.txt: типичные ошибки и как их избежать

Что регулирует файл robots.txt, типичные ошибки Disallow/Allow, связь с sitemap и GSC. Как не заблокировать важные страницы для краулера.

~4 мин чтения SEO

Файл robots.txt: типичные ошибки и как их избежать

Почему это важно

Почему стоит проверять файл robots.txt перед внесением изменений

robots.txt — первый файл, который поисковый робот часто запрашивает для домена. Ошибка в одной строке может запретить сканирование всего каталога с товарами или блога. В отличие от страничного noindex, который управляет индексацией конкретного ответа, директивы в robots.txt управляют доступом краулера к URL (с ограничениями, о которых ниже).

Если вы уже знаете, как проверять страницы в индексе, материал «Как проверить индексацию сайта в Google» дополняет это руководство практическими рекомендациями по работе в Search Console — целесообразно объединить оба этапа в одном чек-листе.

Что такое robots.txt и что он не «решает» сам по себе

Текстовый файл robots.txt в корневой папке сайта

Что это: обычный текстовый файл в корневой папке сайта по адресу /robots.txt (для поддоменов — отдельный файл на каждом хосте).

Что он делает: подсказывает поисковым роботам (Googlebot и т. п.), какие пути не стоит запрашивать, а какие можно запрашивать, с помощью директив типа Disallow / Allow в пределах заявленного User-agent.

Чего он не гарантирует:

  • Не заменяет авторизацию и конфиденциальность: URL-адреса, которые ранее попали в индекс или доступны по ссылкам, не стоит «скрывать» только из-за Disallow.
  • Не равно noindex: запрет в robots.txt не всегда удаляет страницу из индекса — иногда Google показывает «URL заблокирован robots.txt» без полного текста страницы.
  • Не обязательно для «разрешения» индексации: отсутствие файла или пустой файл обычно означает «нет ограничений в файле»; остальные сигналы (noindex, канонический URL, качество) остаются в силе.

Синтаксис: User-agent, Disallow, Allow, Sitemap

Структура файла robots.txt
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml

Краткое содержание по строкам:

  • User-agent: — для которого действуют следующие правила (* — все, если робот поддерживает такую семантику).
  • Disallow: — префикс пути, который нежелательно сканировать; пустое значение часто интерпретируется как «ничего не запрещено» в пределах блока.
  • Allow: — исключение из более широкого Disallow (актуально для Googlebot; подробности — в документации Google).
  • Sitemap: — полный URL карты сайта; можно указать несколько строк для нескольких файлов sitemap.

Важно: одна ошибка в префиксе (лишний /, * не там, где нужно) может расширить запрет на лишние URL.

Типичные ошибки, которые блокируют сканирование или сбивают с толку поисковые системы

Предупреждение о типичных ошибках в файле robots.txt
  1. Disallow: / для User-agent: * на производственной среде без крайней необходимости — фактически просите не сканировать весь сайт.
  2. Копирование staging-файла с полным приостановлением индексации — типичная ситуация после миграции.
  3. Забытый Sitemap: — не беда, если карта сайта отправляется в Search Console, но четкая строка помогает избежать путаницы.
  4. Дублирующиеся или противоречивые блоки для одного User-agent — лучше один четкий блок для * плюс отдельные узкие блоки только при необходимости.
  5. Путаница с «скрытием из индекса» из-за Disallow — для страниц, которые должны исчезнуть из выдачи, обычно требуется ответ 404/410 или noindex, а не просто запрет в robots.txt.
  6. Разные файлы для HTTP и HTTPS после перехода на SSL — убедитесь, что на каноническом хосте установлена актуальная версия.

Как проверить файл на наличие ошибок

Проверка файла robots.txt в браузере и с помощью инструментов
  1. Откройте в браузере https://ваш-домен/robots.txt — должен отображаться статус 200, а контент должен представлять собой текст без HTML-разметки страницы «ошибка».
  2. В Google Search Console воспользуйтесь инструментом проверки robots.txt (название в интерфейсе может меняться — ищите в справке GSC).
  3. Сравните запрещенные префиксы со структурой URL важных разделов: каталог, фильтры, блог, лендинги.
  4. После внесения изменений — проверка критических URL в «Обзоре URL» (руководство по индексации).

robots.txt, XML-карта сайта и индексация

Связь между файлом robots.txt и XML-картой сайта
  • Строка Sitemap: в robots.txt помогает поисковой системе найти URL-адрес страницы; она не заменяет качество страниц и внутренних ссылок.
  • Если важные URL запрещены в robots.txt, они могут не попасть в очередь сканирования так, как вы ожидаете — даже при наличии sitemap.
  • Для крупных сайтов часто используют индексную карту сайта и несколько дочерних файлов — в robots.txt достаточно ссылки на индекс.

Краткий чек-лист

Контрольный список для проверки файла robots.txt
  • Файл доступен по ссылке /robots.txt, ответ 200, без лишнего HTML
  • Нет случайного Disallow: / в продаже
  • Директивы согласованы с фактической структурой URL
  • Добавлено Sitemap: в текущий XML
  • Изменения из staging не попали в production без проверки
  • Критические пути проверены в GSC после обновления

Заключение

robots.txt — простой файл с большой ответственностью: он управляет приоритетами сканирования, а не качеством контента. Типичные ошибки — слишком широкий Disallow, копирование из теста и путаница с noindex. Держите один понятный файл на каноническом хосте, явно укажите Sitemap: и после каждого изменения проверяйте ключевые URL в Search Console.

Если вам нужен аудит сканирования и индексации вместе с техническими исправлениями — это направление системного SEO; вы можете заказать сопровождение или разовый аудит в SEO-Studio.