Технический аудит сайта под AI-поисковики

Прежде чем оптимизировать контент под нейросети, нужно ответить на базовый вопрос: может ли AI-краулер вообще добраться до вашего сайта? Без этого любая работа над структурой текстов и семантикой бессмысленна. GEO-аудит начинается именно с проверки технической доступности, и только потом переходит к содержанию.

Зачем AI-поисковикам нужен отдельный технический аудит?

У каждого AI-сервиса свой краулер

Для попадания в AI-ответы достаточно выполнить общие требования поисковой доступности: страница отдаёт HTTP 200, Googlebot не заблокирован в robots.txt, контент проиндексирован.¹ Однако у каждого крупного AI-сервиса есть собственные краулеры с отдельными User-agent-токенами — и блокировка одного из них закрывает вам доступ к конкретной платформе.

Типы ботов по назначению

Для понимания картины важно разграничить типы ботов по назначению.

Бот	Владелец	Назначение	Управление
Googlebot	Google	Индексация для поиска и AI Overviews	robots.txt: `User-agent: Googlebot`
Google-Extended	Google	Контент в AI-продуктах Google (Bard, Vertex)	robots.txt token (не HTTP UA)²
OAI-SearchBot	OpenAI	Показ в ChatGPT Search, ссылки на источники	robots.txt: `User-agent: OAI-SearchBot`³
GPTBot	OpenAI	Обучение моделей OpenAI	robots.txt: `User-agent: GPTBot`³
ChatGPT-User	OpenAI	User-triggered запросы	robots.txt: `User-agent: ChatGPT-User`³
ClaudeBot	Anthropic	Краулинг для Anthropic	robots.txt: `User-agent: ClaudeBot`⁴
PerplexityBot	Perplexity	Показ в результатах Perplexity Search	robots.txt: `User-agent: PerplexityBot`⁵
Bingbot	Microsoft	Индексация Bing (в т.ч. для ChatGPT Search)	robots.txt: `User-agent: Bingbot`

Google-Extended — это токен, а не User-agent

Важный нюанс: Google-Extended — это не HTTP User-agent, а отдельный токен в robots.txt для управления использованием контента в AI-продуктах Google.² Путать его с Googlebot — распространённая ошибка, которая приводит к непредсказуемым последствиям.

Как проверить robots.txt на блокировку AI-ботов?

Проверьте robots.txt вручную или через Bing Webmaster Tools — начните с самого уязвимого места. Частая причина невидимости в AI-поиске — устаревшие шаблоны с Disallow: / для всех пользователей или WAF-правила, блокирующие незнакомые User-agent.

Минимально корректная конфигурация для AI-видимости:

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Политика по GPTBot и Google-Extended

Политику по GPTBot и Google-Extended нужно принять осознанно: разрешение этих ботов означает согласие на использование контента для обучения моделей. Если цель — только поисковая видимость, а не обучение, их можно заблокировать отдельно, не затрагивая поисковые краулеры.

Не забудьте про Bingbot и OAI-SearchBot

Один из частых сценариев: владелец сайта разрешил Googlebot, но забыл про Bingbot.⁶ Для видимости в ChatGPT Search дополнительно убедитесь, что разрешён OAI-SearchBot — он отвечает именно за показ сайта в ответах ChatGPT.³

Проверка подлинности робота Яндекса

Для Яндекса важна дополнительная проверка: подлинность робота подтверждается через reverse DNS, поскольку User-agent можно подделать.⁷

Что делать с CDN и WAF, которые блокируют AI-ботов?

Ваш robots.txt может быть настроен правильно, но Cloudflare или другой WAF режет запросы по User-agent раньше, чем краулер доберётся до содержимого. Проверьте лог доступа и убедитесь, что AI-боты получают 200, а не 403, 429 или страницу с CAPTCHA.

Инструменты Cloudflare: AI Crawl Control и Block AI Bots

Cloudflare предоставляет два инструмента: AI Crawl Control для гранулярного управления доступом конкретных AI-сервисов⁸ и опцию Block AI Bots, которая блокирует верифицированных AI-краулеров и часть неверифицированных.⁹ Если вы хотите попадать в AI-ответы, убедитесь, что Block AI Bots отключена для нужных ботов или настроена точечно.

Быстрая проверка доступности через curl

Быстрая проверка доступности через curl:

curl -A "OAI-SearchBot" -I https://example.com/article

Ответ должен быть 200 OK. Если видите 403 Forbidden или редирект на страницу проверки — CDN блокирует бота на уровне WAF, и robots.txt тут ни при чём.

Как убедиться, что AI-краулер видит контент, а не пустую страницу?

Контент должен быть в initial HTML

Контент должен присутствовать в initial HTML — том, что сервер возвращает без выполнения JavaScript. Если у вас SPA или фреймворк с клиентским рендерингом, краулер получит пустой <div id="root"></div> вместо текста статьи.

Диагностика через curl и grep

Диагностика выполняется той же командой:

curl -A "OAI-SearchBot" https://example.com/article | grep -c "Ключевое слово из текста"

Если вывод 0 — контент в HTML отсутствует. Для попадания в AI-поиск страница должна отдавать в initial HTML как минимум: <title>, <meta name="description">, <link rel="canonical">, <h1>, ключевой абзац и JSON-LD разметку.

Подробнее о проблеме рендеринга в SPA — в статье Почему сайт на JavaScript (SPA) не попадает в AI-ответы.

Нужен ли файл llms.txt?

llms.txt — предложенный стандарт карты сайта, ориентированной на LLM, опубликованный в сентябре 2024 года.¹⁰ Это инициатива, а не принятый стандарт крупных поисковиков. Ни Google, ни OpenAI, ни Яндекс официально не заявляли о его поддержке в качестве сигнала ранжирования.

Практическое значение: если решаете внедрить — не вредит, но и не заменяет базовую доступность через robots.txt и корректную индексацию. Приоритет — в правильной настройке краулеров, а не в экспериментальных форматах.

Как отслеживать трафик от AI-поисковиков после аудита?

После того как вы убедились, что OAI-SearchBot допущен и не блокируется WAF, настройте отслеживание реферального трафика. OpenAI позволяет идентифицировать визиты из ChatGPT через параметр utm_source=chatgpt.com.¹¹

Это даёт возможность сравнивать видимость до и после технических правок — точно так же, как вы отслеживаете органику в Google Search Console. Мониторинг AI-видимости в разрезе платформ и интентов — то, чем занимается платформа GeoWatch: фиксирует динамику упоминаний, цитирований и рекомендаций.

Чек-лист технического GEO-аудита

Ниже — минимальный набор проверок, которые стоит пройти перед тем, как переходить к контентной оптимизации.

robots.txt:

Googlebot и Bingbot не заблокированы
OAI-SearchBot разрешён (для видимости в ChatGPT Search)³
ChatGPT-User разрешён³
PerplexityBot разрешён⁵
GPTBot и Google-Extended — осознанное решение по политике обучения

Инфраструктура:

WAF и CDN не блокируют AI User-agent (проверить curl с каждым UA)
Страницы отвечают 200, не 403/429/CAPTCHA для AI-ботов
robots.txt присутствует на основном домене и поддомене (если применимо)
Sitemap подключён в robots.txt

Рендеринг и контент:

Основной текст присутствует в initial HTML (не только после JS)
<title>, <meta description>, <canonical>, <h1> — в initial HTML
JSON-LD разметка (Article, Organization) — в initial HTML, не на клиенте
Google URL Inspection и Bing URL Inspection — страница проиндексирована

Мониторинг:

Настроено отслеживание utm_source=chatgpt.com
Ключевые страницы проверены через Google Search Console

О том, что именно проверяет каждый из инструментов диагностики, читайте в статье Как проверить, что ChatGPT «видит» на вашем сайте. Семантическую вёрстку страниц под AI-извлечение разбираем в Семантическая вёрстка HTML5 для нейросетей.

Типичные ошибки, которые обнаруживает аудит

Disallow: / для всех — устаревший шаблон robots.txt, скопированный с чужого сайта.
WAF режет AI-UA — CDN-правила блокируют ботов до чтения robots.txt.
Разрешили GPTBot без намерения — случайно согласились на обучение моделей.
Заблокировали OAI-SearchBot — сайт исключён из ChatGPT Search.³
Контент только в JS — краулер получает пустой HTML.
robots.txt только на www — основной домен без правил.
403/429 для AI-ботов — rate limiting применяется без исключений.
Нет sitemap — краулеры не знают о новых страницах.

Что дальше после технического аудита?

Технический аудит — фундамент. Когда доступность подтверждена, имеет смысл переходить к структуре контента: как AI-поисковики выбирают конкретные фрагменты и почему попадание в источники не ограничено топ-10 органики — об этом в статье Как AI-поисковики выбирают источники: ранжирование фрагментов.

Если хотите получить системную картину — команда GeoWatch проводит GEO-аудит: проверяет техническую доступность, анализирует, как нейросети воспринимают контент, и показывает, где именно бренд появляется (или не появляется) в AI-ответах.

Источники

Google Search Central — Succeeding in AI Search — developers.google.com ↗ (дата доступа: 21 мая 2025) ↩
Google Common Crawlers — Google-Extended token — developers.google.com ↗ (дата доступа: 23 апр 2026) ↩ ↩²
OpenAI — Bots documentation (GPTBot, OAI-SearchBot, ChatGPT-User) — developers.openai.com ↗ (дата доступа: 2026-06-03) ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
Anthropic — ClaudeBot — support.claude.com ↗ (дата доступа: 7 апр 2026) ↩
Perplexity — Perplexity Crawlers — docs.perplexity.ai ↗ (дата доступа: 2026-06-03) ↩ ↩²
Google Search Central — Robots.txt introduction — developers.google.com ↗ (дата доступа: 2026-06-03) ↩
Yandex Webmaster — Checking Yandex Robots — yandex.com ↗ (дата доступа: 2026-06-03) ↩
Cloudflare — AI Crawl Control — developers.cloudflare.com ↗ (дата доступа: 23 апр 2026) ↩
Cloudflare — Block AI Bots — developers.cloudflare.com ↗ (дата доступа: 5 мая 2026) ↩
llmstxt.org — llms.txt proposal — llmstxt.org ↗ (дата доступа: 3 сен 2024) ↩
OpenAI — Publishers and Developers FAQ — help.openai.com ↗ (дата доступа: 2026-06-03) ↩