Три схемы, llms.txt и «техно-читкод» для AI-поиска: что подтверждают первоисточники, а что

Короткий ответ: единого «технического читкода» для попадания в AI-ответы не существует. Тройная разметка FAQPage+Article+HowTo, speakable-схема и файл llms.txt подаются в гайдах как магические кнопки, но первоисточники этого не подтверждают. Google прямо пишет, что специальная schema.org-разметка и AI-файлы для AI Overviews и AI Mode не нужны, а llms.txt он не использует вовсе¹ ². Техничка не вредит и нужна как гигиена. Но продавать её как «секрет цитирования в нейросетях» нечестно. Ниже разбираем каждый приём по официальным докам вендоров.

Откуда взялся миф про «техно-читкод»?

Логика «дайте ИИ максимум разметки»

Логика гайдов простая: раз нейросети любят структуру, дайте им максимум разметки — FAQPage для вопросов-ответов, HowTo для инструкций, Article для статьи, speakable для «голосовых» цитат, плюс llms.txt как «robots.txt для ИИ». Звучит убедительно, и набор действительно выглядит как чек-лист.

Где чек-лист расходится с первоисточниками

Проблема в том, что почти каждый пункт этого чек-листа либо устарел, либо никогда не был подтверждён первоисточником как фактор AI-видимости. Мы сверили популярные приёмы с официальной документацией, и разрыв оказался большим.

Приём из гайдов	Что говорит первоисточник	Вердикт
FAQPage повышает шанс цитирования	FAQ rich result больше не показывается в Google Search с 7 мая 2026, документация удалена³	Устарело
HowTo как «структура для ИИ»	How-to rich results deprecated, не показываются с 13 сентября 2023⁴	Устарело
Article schema = пропуск в AI Overview	Article поддерживается для rich results, но это eligibility, не гарантия AI-цитирования⁵	Полезно, но не «читкод»
speakable для голосовых/AI-ответов везде	beta, только Google Assistant, news, English, US, Google Home⁶	Узкий beta-кейс
BreadcrumbList помогает попасть в AI	Поддерживаемый rich result, но как фактор AI-ответов не подтверждён⁷	Норм-гигиена
llms.txt читают все ИИ-движки	Google Search его игнорирует для видимости и ранжирования¹ ²	Не подтверждено
Открыл GPTBot — попал в ChatGPT Search	Для появления в ChatGPT нужен OAI-SearchBot, а не GPTBot⁸ ⁹	Путаница ботов

Нужна ли «тройная схема» FAQPage+Article+HowTo для AI Overviews?

Что говорит Google о технических требованиях

Нет. Это, пожалуй, самый живучий миф, и Google опровергает его прямо. В руководстве по AI-функциям сказано: чтобы попадать в AI Overviews и AI Mode, страница должна быть проиндексирована и подходить для показа в Google Search со сниппетом — никаких дополнительных технических требований нет¹⁰. Более того, Google отдельно уточняет: не нужно создавать новые machine-readable-файлы, AI-текстовые файлы или специальную schema.org-разметку под генеративные функции¹⁰.

Разбор «тройки» по типам

Теперь по каждому типу из «тройки»:

HowTo — Google объявил deprecated: с 13 сентября 2023 How-to rich results больше не показываются⁴. Размечать инструкции этим типом ради AI-видимости смысла нет.
FAQPage — FAQ rich result перестал показываться в Google Search с 7 мая 2026, а документацию по нему удалили³. Тип в schema.org существует, но его «магия» в выдаче обнулилась.
Article — остаётся в Search Gallery как поддерживаемая разметка для новостных, спортивных и блоговых статей⁵. Но это право на rich result, а не доказательство, что Article schema повышает шанс попасть в AI Overview⁵.

Почему разметка — это гигиена, а не «читкод»

С точки зрения Google вся «GEO/AEO»-оптимизация под его поиск — это по-прежнему SEO: AI Overviews и AI Mode стоят на тех же core-системах ранжирования, RAG-граундинге и query fan-out¹¹. Отдельной двери для разметки нет.

Ещё одно правило для любой структурированной разметки: Google требует, чтобы данные относились к видимому пользователю контенту, и запрещает размечать то, чего на странице нет¹². Это не «читкод», а гигиена. Разметите то, чего на странице нет, и получите обратный эффект.

Как на самом деле устроена разметка под смысл, а не под фокусы, мы разбирали в материале «Семантическая вёрстка HTML5 под AI-поиск».

А speakable и BreadcrumbList — это рабочие GEO-сигналы?

speakable: узкий beta-кейс

И снова осторожно. speakable у Google всё ещё в статусе beta. Её задача — выделить части news-контента, которые Google Assistant может прочитать вслух через TTS⁶. Ограничения жёсткие: работает для пользователей в США с устройствами Google Home, настроенными на английский, и Google лишь «надеется» запустить её в других странах и языках при достаточном числе издателей⁶. Подавать speakable как универсальный сигнал для ChatGPT, Perplexity, Яндекс Нейро, Алисы, GigaChat или даже Google AI Mode — нельзя: такого подтверждения нет⁶.

BreadcrumbList: навигационная гигиена

BreadcrumbList — нормальная техническая разметка. Она остаётся поддерживаемым Google rich result и показывает позицию страницы в иерархии сайта⁷. Делать её стоит — но как навигационную гигиену, а не как рычаг попадания в AI-ответы: отдельным фактором AI-цитирования она не подтверждена⁷.

Вывод по разметке простой: ставьте то, что реально поддержано поиском, и не ждите от этого «прыжка» в нейросети.

llms.txt — кто из ИИ его официально читает?

Вокруг этого файла больше всего шума, поэтому пройдём по каждому вендору отдельно.

Что говорят вендоры по llms.txt

Google — позиция прямая и отрицательная. В руководстве по AI-оптимизации сказано: llms.txt и «специальная разметка» для Google Search не нужны, Google Search не использует их особым образом и они не помогают и не вредят видимости или ранжированию². 12 июня 2026 Google добавил в changelog отдельную заметку, чтобы снять путаницу: файл не нужен и на видимость не влияет ни положительно, ни отрицательно¹.
Perplexity — нюанс, который часто перевирают. У Perplexity действительно есть llms.txt как индекс собственной документации для AI-агентов, но это не равно официальному заявлению, что Perplexity Search или Answer Engine использует llms.txt чужих сайтов для ранжирования или цитирования². Публикация своего файла ≠ обещание читать ваш.
OpenAI и Anthropic — в их официальных доках описаны боты и правила robots.txt, но не найдено заявлений, что ChatGPT Search или Claude Search читают llms.txt сайтов как сигнал индексации, ранжирования или цитирования⁸ ¹³.

Что это значит на практике

Итого: ни один из крупных движков официально не подтверждает, что использует ваш llms.txt как фактор AI-видимости. Поставить файл можно как дешёвый задел, особенно для документации и API, но это не «обязательный GEO-фактор». Подробный разбор данных по логам и тому, заходят ли боты на эти файлы вообще, — в материале «llms.txt в 2026: Lighthouse советует, а боты почти не заходят».

Что реально решает доступ — это разблокировка ботов

Вот здесь техничка перестаёт быть мифом и становится критичной. Если ваш контент должен попадать в AI-ответы, нужные краулеры не должны быть заблокированы в robots.txt. И тут важно не перепутать ботов.

Какие боты за что отвечают

OpenAI официально разделяет два бота: GPTBot — для контента, который может использоваться для обучения foundation-моделей, и OAI-SearchBot — для поиска и показа в результатах⁸. Настройки независимы. Чтобы контент попадал в summaries и сниппеты ChatGPT, не блокируйте именно OAI-SearchBot⁹. Открыть один GPTBot и ждать появления в ChatGPT Search — типичная ошибка⁸.
Perplexity рекомендует разрешить PerplexityBot в robots.txt и допустить опубликованные IP-диапазоны, чтобы сайт появлялся в результатах Perplexity¹⁴. Отдельно: Perplexity-User обслуживает запросы, инициированные пользователем, и, по докам Perplexity, в целом игнорирует правила robots.txt, потому что fetch запустил человек¹⁴.
Anthropic официально описывает три робота: ClaudeBot (возможные обучающие данные), Claude-User (запросы по инициативе пользователя) и Claude-SearchBot (улучшение качества поиска). Блокировка Claude-SearchBot может снизить видимость и точность в пользовательском поиске¹³.
Google-Extended — не отдельный HTTP-краулер, а robots.txt-токен. Он управляет использованием уже собранного контента для обучения будущих моделей Gemini и граундинга в Gemini Apps и Vertex AI, но это не способ управлять обычным crawl Google Search¹⁵.

Главное ограничение robots.txt

И главное ограничение про сам robots.txt: Google прямо пишет, что это не enforce-механизм. Файл управляет crawl-трафиком, но не удаляет страницу из индекса — заблокированный URL всё равно может появиться без описания, если на него ссылаются¹⁶. Краулер обязан подчиняться добровольно, и разные боты трактуют синтаксис по-разному.

Проверить, что именно видят боты на вашей стороне, помогают практические гайды «Как проверить, что ChatGPT видит сайт» и «Bing и ChatGPT: как устроен поиск под капотом».

А что с рунетом — Яндекс и GigaChat?

Здесь придётся быть честными: подтверждений «русского читкода» в первоисточниках нет.

Яндекс: Schema.org и robots.txt

По Яндексу официально подтверждается общая поддержка Schema.org в Яндекс.Вебмастере — там Schema.org описан как стандарт, объявленный Google, Bing и Yahoo, и есть раздел о том, как Яндекс использует данные разметки¹⁷. Подтверждена и отдельная логика robots.txt: индексирующий бот ищет подстроку Yandex или *, и если есть блок User-agent: Yandex, то User-agent: * игнорируется¹⁸. Но в найденных официальных источниках Яндекса нет подтверждения, что FAQPage+Article+HowTo, speakable или llms.txt дают преимущество именно в Яндекс Нейро или Алисе.

GigaChat и Сбер: подтверждений нет

По GigaChat и Сберу в официальных источниках не нашлось документации про публичный crawler, robots.txt-токен, llms.txt или schema.org-сигналы для попадания сайтов в ответы GigaChat. То есть «оптимизировать под GigaChat разметкой» сейчас не на чем основать.

Вывод для русскоязычного сайта

Осторожный вывод для русскоязычного сайта: техническая база — это обычная индексируемость, доступность для поисковых краулеров, корректный robots.txt, видимый текстовый контент и валидная разметка там, где её реально поддерживает поиск. Первоисточников, подтверждающих «GEO-читкод» через тройную схему, speakable или llms.txt для рунета, нет.

Так делать техничку или нет?

Делать — но называть вещи своими именами. Техническая база не вредит и нужна как гигиена: индексируемый HTML, корректный robots.txt с открытыми нужными ботами, валидная разметка под поддерживаемые типы, понятные страницы с фактами и датами. Чек-лист технической готовности под AI-краулеры мы собрали в материале «Технический аудит сайта под AI-поисковики».

Но ни тройная схема, ни speakable, ни llms.txt не являются «секретным фактором цитирования». Первоисточники этого не подтверждают, а часть приёмов попросту устарела. Разница между «гигиена» и «читкод» — это разница между честной работой и продажей магии.

Платформа GeoWatch смотрит не на наличие модной разметки или отдельного файла, а на то, находят ли, понимают ли и цитируют ли нейросети ваш сайт по релевантным интентам — и где вместо вас называют конкурентов. Если хотите проверить реальную AI-видимость, а не галочку в техно-чек-листе, начните с GEO-аудита.

Источники

Google Search Central — «Search updates: llms.txt note» — https://developers.google.com/search/updates (2026-06-12 / доступ 2026-06-28) ↩ ↩² ↩³
Google Developers — «AI optimization guide» — https://developers.google.com/search/docs/fundamentals/ai-optimization-guide (доступ 2026-06-28) ↩ ↩² ↩³ ↩⁴
Google Search Central — «Search updates: FAQ rich result» — https://developers.google.com/search/updates (2026-05-08 и 2026-06-12 / доступ 2026-06-28) ↩ ↩²
Google Search Central — «Changes to HowTo and FAQ rich results» — https://developers.google.com/search/blog/2023/08/howto-faq-changes (2023-08-08, обновление 2023-09-14 / доступ 2026-06-28) ↩ ↩²
Google Developers — «Search Gallery (Article structured data)» — https://developers.google.com/search/docs/appearance/structured-data/search-gallery (доступ 2026-06-28) ↩ ↩² ↩³
Google Developers — «Speakable structured data» — https://developers.google.com/search/docs/appearance/structured-data/speakable (last updated 2025-12-10 / доступ 2026-06-28) ↩ ↩² ↩³ ↩⁴
Google Developers — «Breadcrumb structured data» — https://developers.google.com/search/docs/appearance/structured-data/breadcrumb (доступ 2026-06-28) ↩ ↩² ↩³
OpenAI — «Bots (GPTBot / OAI-SearchBot)» — https://developers.openai.com/api/docs/bots (доступ 2026-06-28) ↩ ↩² ↩³ ↩⁴
OpenAI Help — «Publishers and developers FAQ» — https://help.openai.com/en/articles/12627856-publishers-and-developers-faq (доступ 2026-06-28) ↩ ↩²
Google Developers — «AI features and your site» — https://developers.google.com/search/docs/appearance/ai-features (last updated 2025-12-10 / доступ 2026-06-28) ↩ ↩²
Google Developers — «AI optimization guide (core ranking, RAG, query fan-out)» — https://developers.google.com/search/docs/fundamentals/ai-optimization-guide (доступ 2026-06-28) ↩
Google Developers — «Intro to structured data» — https://developers.google.com/search/docs/appearance/structured-data/intro-structured-data (доступ 2026-06-28) ↩
Anthropic — «Does Anthropic crawl data from the web?» — https://support.claude.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler (2026-04-07 / доступ 2026-06-28) ↩ ↩²
Perplexity — «Perplexity crawlers» — https://docs.perplexity.ai/docs/resources/perplexity-crawlers (доступ 2026-06-28) ↩ ↩²
Google Developers — «Google common crawlers and fetchers (Google-Extended)» — https://developers.google.com/crawling/docs/crawlers-fetchers/google-common-crawlers (2026-04-23 / доступ 2026-06-28) ↩
Google Developers — «Introduction to robots.txt» — https://developers.google.com/search/docs/crawling-indexing/robots/intro (доступ 2026-06-28) ↩
Яндекс.Вебмастер — «What is Schema.org» — https://yandex.com/support/webmaster/en/schema-org/what-is-schema-org (доступ 2026-06-28) ↩
Яндекс.Вебмастер — «User-agent in robots.txt» — https://yandex.com/support/webmaster/en/robot-workings/user-agent (доступ 2026-06-28) ↩