Почему это важно
robots.txt — первый файл, который поисковый робот часто запрашивает для домена. Ошибка в одной строке может запретить сканирование всего каталога с товарами или блога. В отличие от страничного noindex, который управляет индексацией конкретного ответа, директивы в robots.txt управляют доступом краулера к URL (с ограничениями, о которых ниже).
Если вы уже знаете, как проверять страницы в индексе, материал «Как проверить индексацию сайта в Google» дополняет это руководство практическими рекомендациями по работе в Search Console — целесообразно объединить оба этапа в одном чек-листе.
Что такое robots.txt и что он не «решает» сам по себе
Что это: обычный текстовый файл в корневой папке сайта по адресу /robots.txt (для поддоменов — отдельный файл на каждом хосте).
Что он делает: подсказывает поисковым роботам (Googlebot и т. п.), какие пути не стоит запрашивать, а какие можно запрашивать, с помощью директив типа Disallow / Allow в пределах заявленного User-agent.
Чего он не гарантирует:
- Не заменяет авторизацию и конфиденциальность: URL-адреса, которые ранее попали в индекс или доступны по ссылкам, не стоит «скрывать» только из-за
Disallow. - Не равно
noindex: запрет вrobots.txtне всегда удаляет страницу из индекса — иногда Google показывает «URL заблокирован robots.txt» без полного текста страницы. - Не обязательно для «разрешения» индексации: отсутствие файла или пустой файл обычно означает «нет ограничений в файле»; остальные сигналы (
noindex, канонический URL, качество) остаются в силе.
Синтаксис: User-agent, Disallow, Allow, Sitemap
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml
Краткое содержание по строкам:
User-agent:— для которого действуют следующие правила (*— все, если робот поддерживает такую семантику).Disallow:— префикс пути, который нежелательно сканировать; пустое значение часто интерпретируется как «ничего не запрещено» в пределах блока.Allow:— исключение из более широкогоDisallow(актуально для Googlebot; подробности — в документации Google).Sitemap:— полный URL карты сайта; можно указать несколько строк для нескольких файлов sitemap.
Важно: одна ошибка в префиксе (лишний /, * не там, где нужно) может расширить запрет на лишние URL.
Типичные ошибки, которые блокируют сканирование или сбивают с толку поисковые системы
Disallow: /дляUser-agent: *на производственной среде без крайней необходимости — фактически просите не сканировать весь сайт.- Копирование staging-файла с полным приостановлением индексации — типичная ситуация после миграции.
- Забытый
Sitemap:— не беда, если карта сайта отправляется в Search Console, но четкая строка помогает избежать путаницы. - Дублирующиеся или противоречивые блоки для одного
User-agent— лучше один четкий блок для*плюс отдельные узкие блоки только при необходимости. - Путаница с «скрытием из индекса» из-за
Disallow— для страниц, которые должны исчезнуть из выдачи, обычно требуется ответ 404/410 илиnoindex, а не просто запрет вrobots.txt. - Разные файлы для HTTP и HTTPS после перехода на SSL — убедитесь, что на каноническом хосте установлена актуальная версия.
Как проверить файл на наличие ошибок
- Откройте в браузере
https://ваш-домен/robots.txt— должен отображаться статус 200, а контент должен представлять собой текст без HTML-разметки страницы «ошибка». - В Google Search Console воспользуйтесь инструментом проверки
robots.txt(название в интерфейсе может меняться — ищите в справке GSC). - Сравните запрещенные префиксы со структурой URL важных разделов: каталог, фильтры, блог, лендинги.
- После внесения изменений — проверка критических URL в «Обзоре URL» (руководство по индексации).
robots.txt, XML-карта сайта и индексация
- Строка
Sitemap:вrobots.txtпомогает поисковой системе найти URL-адрес страницы; она не заменяет качество страниц и внутренних ссылок. - Если важные URL запрещены в
robots.txt, они могут не попасть в очередь сканирования так, как вы ожидаете — даже при наличии sitemap. - Для крупных сайтов часто используют индексную карту сайта и несколько дочерних файлов — в
robots.txtдостаточно ссылки на индекс.
Краткий чек-лист
- Файл доступен по ссылке
/robots.txt, ответ 200, без лишнего HTML - Нет случайного
Disallow: /в продаже - Директивы согласованы с фактической структурой URL
- Добавлено
Sitemap:в текущий XML - Изменения из staging не попали в production без проверки
- Критические пути проверены в GSC после обновления
Заключение
robots.txt — простой файл с большой ответственностью: он управляет приоритетами сканирования, а не качеством контента. Типичные ошибки — слишком широкий Disallow, копирование из теста и путаница с noindex. Держите один понятный файл на каноническом хосте, явно укажите Sitemap: и после каждого изменения проверяйте ключевые URL в Search Console.
Если вам нужен аудит сканирования и индексации вместе с техническими исправлениями — это направление системного SEO; вы можете заказать сопровождение или разовый аудит в SEO-Studio.