Чому це важливо
robots.txt — перший файл, який пошуковий робот часто запитує для домену. Помилка в одному рядку може заборонити сканування всього каталогу з товарами або блогом. На відміну від сторінкового noindex, який керує індексацією конкретної відповіді, директиви в robots.txt керують доступом краулера до URL (з обмеженнями, про які нижче).
Якщо ви вже розумієте, як перевіряти сторінки в індексі, матеріал «Як перевірити індексацію сайту в Google» доповнює цей гайд практикою в Search Console — раціонально тримати обидва кроки в одному чеклісті.
Що таке robots.txt і що він не «вирішує» сам по собі
Що це: звичайний текстовий файл у корені сайту за адресою /robots.txt (для піддоменів — окремий файл у кожного хоста).
Що він робить: підказує ласкавим роботам (Googlebot тощо), які шляхи не варто запитувати або які можна запитувати, через директиви на кшталт Disallow / Allow у межах заявленого User-agent.
Чого він не гарантує:
- Не замінює авторизацію та приватність: URL, що потрапили в індекс раніше або доступні за посиланнями, не варто «ховати» лише через
Disallow. - Не дорівнює
noindex: заборона вrobots.txtне завжди прибирає сторінку з індексу — інколи Google показує «URL заблоковано robots.txt» без повного тексту сторінки. - Не обов’язковий для «дозволу» індексації: відсутність файлу або порожній файл зазвичай означає «немає обмежень у файлі»; інші сигнали (
noindex, канонікал, якість) лишаються в силі.
Синтаксис: User-agent, Disallow, Allow, Sitemap
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml
Коротко по рядках:
User-agent:— для якого робота діють наступні правила (*— усі, якщо робот підтримує таку семантику).Disallow:— префікс шляху, який небажано сканувати; порожнє значення часто трактується як «нічого не заборонено» в межах блоку.Allow:— виняток із ширшогоDisallow(актуально для Googlebot; деталі — у документації Google).Sitemap:— повний URL карти сайту; можна кілька рядків для кількох sitemap.
Важливо: одна помилка в префіксі (зайвий /, * не там, де треба) може розширити заборону на зайві URL.
Типові помилки, що блокують краулінг або плутають пошуковики
Disallow: /дляUser-agent: *на продакшні без крайньої необхідності — фактично просите не сканувати весь сайт.- Копіювання staging-файлу з повним закриттям індексації — типова історія після міграції.
- Забутий
Sitemap:— не катастрофа, якщо sitemap віддається в Search Console, але явний рядок зменшує плутанину. - Дубльовані або суперечливі блоки для одного
User-agent— краще один чіткий блок для*плюс окремі вузькі блоки лише за потреби. - Плутанина «закрити від індексу» через
Disallow— для сторінок, які мають зникнути з видачі, зазвичай потрібна відповідь 404/410 абоnoindex, а не лише заборона вrobots.txt. - Різні файли для HTTP і HTTPS після переходу на SSL — переконайтесь, що актуальна версія на канонічному хості.
Як перевірити файл без помилок
- Відкрийте в браузері
https://ваш-домен/robots.txt— має бути статус 200, контент текстом, без HTML-обгортки сторінки «помилка». - У Google Search Console скористайтеся інструментом перевірки
robots.txt(назва в інтерфейсі може змінюватись — шукайте в довідці GSC). - Порівняйте заборонені префікси зі структурою URL важливих розділів: каталог, фільтри, блог, лендінги.
- Після змін — перевірка критичних URL в «Огляд URL» (гайд з індексації).
robots.txt, XML sitemap та індексація
- Рядок
Sitemap:уrobots.txtдопомагає роботу знайти карту URL; він не замінює якість сторінок і внутрішніх посилань. - Якщо важливі URL заборонені в
robots.txt, вони можуть не потрапити в чергу сканування так, як ви очікуєте — навіть за наявності sitemap. - Для великих сайтів часто використовують індексний sitemap і кілька дочірніх файлів — у
robots.txtдостатньо посилання на індекс.
Короткий чекліст
- Файл доступний за
/robots.txt, відповідь 200, без зайвого HTML - Немає випадкового
Disallow: /на проді - Директиви узгоджені з реальною структурою URL
- Додано
Sitemap:на актуальний XML - Зміни зі staging не потрапили на production без рев’ю
- Критичні шляхи перевірені в GSC після оновлення
Висновок
robots.txt — простий файл з великою відповідальністю: він керує пріоритетами сканування, а не якістю контенту. Типові збої — занадто широкий Disallow, копіювання з тесту та плутанина з noindex. Тримайте один зрозумілий файл на канонічному хості, явно вкажіть Sitemap: і після кожної зміни перевіряйте ключові URL у Search Console.
Якщо потрібен аудит краулінгу та індексації разом із технічними правками — це напрям системного SEO; можна замовити супровід або разовий аудит у SEO-Studio.