Чому це важливо

robots.txt — перший файл, який пошуковий робот часто запитує для домену. Помилка в одному рядку може заборонити сканування всього каталогу з товарами або блогом. На відміну від сторінкового noindex, який керує індексацією конкретної відповіді, директиви в robots.txt керують доступом краулера до URL (з обмеженнями, про які нижче).

Якщо ви вже розумієте, як перевіряти сторінки в індексі, матеріал «Як перевірити індексацію сайту в Google» доповнює цей гайд практикою в Search Console — раціонально тримати обидва кроки в одному чеклісті.

Що таке robots.txt і що він не «вирішує» сам по собі

Що це: звичайний текстовий файл у корені сайту за адресою /robots.txt (для піддоменів — окремий файл у кожного хоста).

Що він робить: підказує ласкавим роботам (Googlebot тощо), які шляхи не варто запитувати або які можна запитувати, через директиви на кшталт Disallow / Allow у межах заявленого User-agent.

Чого він не гарантує:

Не замінює авторизацію та приватність: URL, що потрапили в індекс раніше або доступні за посиланнями, не варто «ховати» лише через Disallow.
Не дорівнює noindex: заборона в robots.txt не завжди прибирає сторінку з індексу — інколи Google показує «URL заблоковано robots.txt» без повного тексту сторінки.
Не обов’язковий для «дозволу» індексації: відсутність файлу або порожній файл зазвичай означає «немає обмежень у файлі»; інші сигнали (noindex, канонікал, якість) лишаються в силі.

Синтаксис: User-agent, Disallow, Allow, Sitemap

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml

Коротко по рядках:

User-agent: — для якого робота діють наступні правила (* — усі, якщо робот підтримує таку семантику).
Disallow: — префікс шляху, який небажано сканувати; порожнє значення часто трактується як «нічого не заборонено» в межах блоку.
Allow: — виняток із ширшого Disallow (актуально для Googlebot; деталі — у документації Google).
Sitemap: — повний URL карти сайту; можна кілька рядків для кількох sitemap.

Важливо: одна помилка в префіксі (зайвий /, * не там, де треба) може розширити заборону на зайві URL.

Типові помилки, що блокують краулінг або плутають пошуковики

Disallow: / для User-agent: * на продакшні без крайньої необхідності — фактично просите не сканувати весь сайт.
Копіювання staging-файлу з повним закриттям індексації — типова історія після міграції.
Забутий Sitemap: — не катастрофа, якщо sitemap віддається в Search Console, але явний рядок зменшує плутанину.
Дубльовані або суперечливі блоки для одного User-agent — краще один чіткий блок для * плюс окремі вузькі блоки лише за потреби.
Плутанина «закрити від індексу» через Disallow — для сторінок, які мають зникнути з видачі, зазвичай потрібна відповідь 404/410 або noindex, а не лише заборона в robots.txt.
Різні файли для HTTP і HTTPS після переходу на SSL — переконайтесь, що актуальна версія на канонічному хості.

Як перевірити файл без помилок

Відкрийте в браузері https://ваш-домен/robots.txt — має бути статус 200, контент текстом, без HTML-обгортки сторінки «помилка».
У Google Search Console скористайтеся інструментом перевірки robots.txt (назва в інтерфейсі може змінюватись — шукайте в довідці GSC).
Порівняйте заборонені префікси зі структурою URL важливих розділів: каталог, фільтри, блог, лендінги.
Після змін — перевірка критичних URL в «Огляд URL» (гайд з індексації).

robots.txt, XML sitemap та індексація

Рядок Sitemap: у robots.txt допомагає роботу знайти карту URL; він не замінює якість сторінок і внутрішніх посилань.
Якщо важливі URL заборонені в robots.txt, вони можуть не потрапити в чергу сканування так, як ви очікуєте — навіть за наявності sitemap.
Для великих сайтів часто використовують індексний sitemap і кілька дочірніх файлів — у robots.txt достатньо посилання на індекс.

Короткий чекліст

Файл доступний за /robots.txt, відповідь 200, без зайвого HTML
Немає випадкового Disallow: / на проді
Директиви узгоджені з реальною структурою URL
Додано Sitemap: на актуальний XML
Зміни зі staging не потрапили на production без рев’ю
Критичні шляхи перевірені в GSC після оновлення

Висновок

robots.txt — простий файл з великою відповідальністю: він керує пріоритетами сканування, а не якістю контенту. Типові збої — занадто широкий Disallow, копіювання з тесту та плутанина з noindex. Тримайте один зрозумілий файл на канонічному хості, явно вкажіть Sitemap: і після кожної зміни перевіряйте ключові URL у Search Console.

Якщо потрібен аудит краулінгу та індексації разом із технічними правками — це напрям системного SEO; можна замовити супровід або разовий аудит у SEO-Studio.

Файл robots.txt: типові помилки та як їх уникнути