Блог · SEO

Файл robots.txt: типові помилки та як їх уникнути

Що контролює robots.txt, типові Disallow/Allow помилки, зв’язок із sitemap і GSC. Як не заблокувати важливі сторінки від краулера.

~4 хв читання SEO

Файл robots.txt: типові помилки та як їх уникнути

Чому це важливо

Чому варто перевіряти robots.txt перед змінами

robots.txt — перший файл, який пошуковий робот часто запитує для домену. Помилка в одному рядку може заборонити сканування всього каталогу з товарами або блогом. На відміну від сторінкового noindex, який керує індексацією конкретної відповіді, директиви в robots.txt керують доступом краулера до URL (з обмеженнями, про які нижче).

Якщо ви вже розумієте, як перевіряти сторінки в індексі, матеріал «Як перевірити індексацію сайту в Google» доповнює цей гайд практикою в Search Console — раціонально тримати обидва кроки в одному чеклісті.

Що таке robots.txt і що він не «вирішує» сам по собі

Текстовий файл robots.txt у корені сайту

Що це: звичайний текстовий файл у корені сайту за адресою /robots.txt (для піддоменів — окремий файл у кожного хоста).

Що він робить: підказує ласкавим роботам (Googlebot тощо), які шляхи не варто запитувати або які можна запитувати, через директиви на кшталт Disallow / Allow у межах заявленого User-agent.

Чого він не гарантує:

  • Не замінює авторизацію та приватність: URL, що потрапили в індекс раніше або доступні за посиланнями, не варто «ховати» лише через Disallow.
  • Не дорівнює noindex: заборона в robots.txt не завжди прибирає сторінку з індексу — інколи Google показує «URL заблоковано robots.txt» без повного тексту сторінки.
  • Не обов’язковий для «дозволу» індексації: відсутність файлу або порожній файл зазвичай означає «немає обмежень у файлі»; інші сигнали (noindex, канонікал, якість) лишаються в силі.

Синтаксис: User-agent, Disallow, Allow, Sitemap

Структура запису robots.txt
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml

Коротко по рядках:

  • User-agent: — для якого робота діють наступні правила (* — усі, якщо робот підтримує таку семантику).
  • Disallow: — префікс шляху, який небажано сканувати; порожнє значення часто трактується як «нічого не заборонено» в межах блоку.
  • Allow: — виняток із ширшого Disallow (актуально для Googlebot; деталі — у документації Google).
  • Sitemap: — повний URL карти сайту; можна кілька рядків для кількох sitemap.

Важливо: одна помилка в префіксі (зайвий /, * не там, де треба) може розширити заборону на зайві URL.

Типові помилки, що блокують краулінг або плутають пошуковики

Попередження про типові помилки в robots.txt
  1. Disallow: / для User-agent: * на продакшні без крайньої необхідності — фактично просите не сканувати весь сайт.
  2. Копіювання staging-файлу з повним закриттям індексації — типова історія після міграції.
  3. Забутий Sitemap: — не катастрофа, якщо sitemap віддається в Search Console, але явний рядок зменшує плутанину.
  4. Дубльовані або суперечливі блоки для одного User-agent — краще один чіткий блок для * плюс окремі вузькі блоки лише за потреби.
  5. Плутанина «закрити від індексу» через Disallow — для сторінок, які мають зникнути з видачі, зазвичай потрібна відповідь 404/410 або noindex, а не лише заборона в robots.txt.
  6. Різні файли для HTTP і HTTPS після переходу на SSL — переконайтесь, що актуальна версія на канонічному хості.

Як перевірити файл без помилок

Перевірка robots.txt у браузері та інструментах
  1. Відкрийте в браузері https://ваш-домен/robots.txt — має бути статус 200, контент текстом, без HTML-обгортки сторінки «помилка».
  2. У Google Search Console скористайтеся інструментом перевірки robots.txt (назва в інтерфейсі може змінюватись — шукайте в довідці GSC).
  3. Порівняйте заборонені префікси зі структурою URL важливих розділів: каталог, фільтри, блог, лендінги.
  4. Після змін — перевірка критичних URL в «Огляд URL» (гайд з індексації).

robots.txt, XML sitemap та індексація

Зв’язок robots.txt та XML sitemap
  • Рядок Sitemap: у robots.txt допомагає роботу знайти карту URL; він не замінює якість сторінок і внутрішніх посилань.
  • Якщо важливі URL заборонені в robots.txt, вони можуть не потрапити в чергу сканування так, як ви очікуєте — навіть за наявності sitemap.
  • Для великих сайтів часто використовують індексний sitemap і кілька дочірніх файлів — у robots.txt достатньо посилання на індекс.

Короткий чекліст

Чекліст перевірки robots.txt
  • Файл доступний за /robots.txt, відповідь 200, без зайвого HTML
  • Немає випадкового Disallow: / на проді
  • Директиви узгоджені з реальною структурою URL
  • Додано Sitemap: на актуальний XML
  • Зміни зі staging не потрапили на production без рев’ю
  • Критичні шляхи перевірені в GSC після оновлення

Висновок

robots.txt — простий файл з великою відповідальністю: він керує пріоритетами сканування, а не якістю контенту. Типові збої — занадто широкий Disallow, копіювання з тесту та плутанина з noindex. Тримайте один зрозумілий файл на канонічному хості, явно вкажіть Sitemap: і після кожної зміни перевіряйте ключові URL у Search Console.

Якщо потрібен аудит краулінгу та індексації разом із технічними правками — це напрям системного SEO; можна замовити супровід або разовий аудит у SEO-Studio.