Голосовой и мультимодальный AI-поиск: что подтверждено, а что хайп

Голосовой и мультимодальный (текст + картинка + видео) AI-поиск — это реальный продуктовый сценарий, подтверждённый первоисточниками: Google развивает Lens, AI Mode и Search Live; OpenAI — голос, изображения и экран в ChatGPT; Яндекс — Алису AI с картинками, видео и каскадом запросов в Поиск и Карты. Но вокруг темы много преувеличений. Универсального «voice SEO ranking factor» нет, speakable у Google — beta для узкого сценария, а «вопросы-заголовки гарантируют попадание в AI-ответ» — это практика, а не доказанное правило. Ниже — что именно подтверждено, а что нет.

Насколько вообще распространён голосовой и мультимодальный поиск?

Визуальный поиск Google: подтверждённые цифры

Масштаб подтверждён частично: официальные цифры есть далеко не для всех каналов. Лучше всего задокументирован визуальный поиск Google. По данным Google, Lens используется почти для 20 млрд визуальных поисков в месяц, и 20% всех Lens-запросов связаны с покупками¹ ².

Запросы становятся длиннее и разговорнее

Меняется и сам характер запросов. Google сообщает, что средний запрос в AI Mode в США примерно в 3 раза длиннее традиционного поискового запроса, а planning-запросы росли на 80% быстрее общего роста AI Mode за полгода³. Это говорит о сдвиге к более длинным, разговорным формулировкам — но это про длину и тип запроса, а не про долю голоса.

Официальной доли голоса и мультимодальности нет

А вот общей официальной доли голосовых или мультимодальных запросов от всех поисковых запросов за 2025–2026 ни Google, ни OpenAI, ни Яндекс в найденных первоисточниках не раскрывают. OpenAI подтверждает только возможности продукта — ChatGPT Search, голосовой режим, работу с изображениями, — но не публикует долю voice/image/video-запросов⁴. Поэтому фразы вроде «половина поиска уже голосовая» — это не факт из первоисточника.

Что реально умеют ассистенты: голос, картинки, экран

Подтверждённые возможности платформ

Сами возможности, в отличие от долей использования, задокументированы хорошо. Что подтверждают первоисточники:

Платформа	Что подтверждено первоисточником
Google AI Mode	Можно сделать фото или загрузить изображение, задать вопрос и получить развёрнутый ответ со ссылками⁵
Google Search Live	Интерактивный мультимодальный разговор в AI Mode через Lens⁶
OpenAI ChatGPT	GPT-4o принимает любую комбинацию текста, аудио, изображения и видео; в голосовом режиме можно сделать фото, загрузить фото или поделиться экраном⁷ ⁸
Яндекс Алиса AI	Развёрнутые ответы с картинками, видео, ссылками и организациями; сама задаёт каскад запросов в Поиск и Карты⁹
GigaChat (Сбер)	API распознаёт изображения; GigaChat 2 Pro принимает на вход текст, изображение и аудио¹⁰ ¹¹

Что это значит для GEO

Главный вывод для GEO: источником ответа всё чаще становится не только веб-страница. Это могут быть изображения, видео, карточки организаций в Яндекс Картах. Поэтому подготовка контента к нейропоиску — это не только текст. Подробно об оформлении графиков, таблиц и подписей мы разбираем в материале «Мультимодальность: графики, таблицы и цифры, которые читает ИИ».

speakable — это «voice SEO кнопка»?

Узкий сценарий и статус BETA

Нет. Это самый частый миф. Разметка speakable у Google по-прежнему в статусе BETA, и Google прямо предупреждает, что функция может меняться¹². Её область применения узкая: она работает для пользователей в США с устройствами Google Home, настроенными на английский, и для publishers, публикующих контент на английском¹³. В этом сценарии Google Assistant возвращает до 3 статей из разных новостных изданий и может озвучивать TTS-фрагменты¹⁴.

Не универсальный фактор ранжирования

То есть speakable — это не универсальный фактор ранжирования для голоса, а ограниченная функция для англоязычного новостного сценария Google Assistant. Ставить её и ждать, что «сайт попадёт в голосовые ответы» в рунете, — ошибка.

Что из рекомендаций действительно полезно

Полезное из рекомендаций Google для speakable всё же есть, но оно про формат подачи, а не про магию: Google советует краткие заголовки и summary, разбивку на отдельные предложения и примерно 20–30 секунд контента на секцию, то есть 2–3 предложения¹⁵. Это разумная UX-практика для любого AI-сценария, и она хорошо ложится на понятные заголовки для нейросетей.

«Разговорное SEO»: вопросы-заголовки и Q&A работают?

Практика против доказанного факта

Здесь нужно честно разделить практику и доказанный факт. Приёмы «разговорного SEO» — вопросы в заголовках, формат Q&A, короткие прямые ответы — подтверждаются первоисточником только как UX/контент-практика, но не как доказанный фактор цитирования.

Прямого подтверждения нет

Прямого первоисточника от Google, OpenAI или Яндекса, который бы утверждал, что вопросительный H2 сам по себе повышает шанс попасть в AI-ответ, найти не удалось. Что подтверждено: общий сдвиг к длинным и сложным запросам в AI Mode³ и рекомендация Google писать понятные краткие summary для speakable¹⁵. Всё.

Почему вопросы-заголовки всё же полезны

Это не значит, что вопросы-заголовки бесполезны — они улучшают читаемость, помогают пользователю и совпадают с тем, как люди формулируют запросы. Но подавать их как гарантию попадания в нейропоиск было бы хайпом. Рабочая база остаётся прежней: доступный контент, понятная структура, семантическая вёрстка HTML5 и автономные фрагменты, из которых модель может извлечь прямой ответ.

Правда ли AI-поиск устроен по принципу «winner-takes-all»?

Это преувеличение. Тезис «ассистент цитирует один источник, и видимость достаётся только ему» исследованиями подтверждается лишь как концентрация источников, но не как абсолютная монополия.

Что показывает AI Search Arena

В исследовании AI Search Arena датасет содержит 65k+ ответов и 366k+ цитирований от моделей OpenAI, Perplexity и Google¹⁶. Арифметически это около 5,6 цитирований на ответ — то есть в среднем несколько источников, а не один. При этом концентрация действительно есть: 9% цитирований приходятся на новостные источники, и эти новостные цитаты концентрируются среди небольшого числа изданий¹⁷. Концентрация — да; монополия одного домена — нет. Это среднее по датасету, а не универсальная норма для всех AI-поисков.

Число ссылок влияет на доверие

Есть и неприятный для качества нюанс: то же исследование показало, что предпочтения пользователей зависят от количества цитирований, даже когда процитированный контент напрямую не подтверждает утверждения¹⁸. Для GEO это важный сигнал — «много ссылок» может повышать воспринимаемую достоверность ответа, но не гарантирует фактической поддержки.

Практический вывод

Практический вывод: цель — попасть в число тех нескольких цитируемых источников по своим интентам, а не «выиграть всё». Как именно AI-системы извлекают и ранжируют фрагменты, разобрано в материале «Как AI-поисковики выбирают источники».

А «топ-10 в Google = автоматически источник AI-ответа»?

Только 38% AI-цитат из топ-10

Тоже миф. По данным Ahrefs (863k SERP и 4M URL из AI Overviews), только 38% страниц, цитируемых в AI Overviews, одновременно ранжируются в топ-10 обычной выдачи¹⁹. Это корреляция, а не причинно-следственная связь — но она прямо опровергает простую модель «топ-10 = AI-цитата». Высокая классическая позиция помогает, но не гарантирует попадания в AI-ответ.

Динамика AIO и поведение пользователей

Для контекста по динамике: доля ключевых слов с AI Overviews в 2025 году, по наблюдениям Semrush, выросла с 6,49% в январе до почти 25% в июле, а затем снизилась до 15,69% в ноябре²⁰. Это наблюдение Semrush, а не официальный показатель Google, и колебания показывают, что рынок ещё не стабилизировался. А поведенческие данные Pew Research: около 58% участников исследования сделали хотя бы один Google-поиск в марте 2025, выдавший AI-сводку, и при наличии такой сводки пользователи реже кликали по ссылкам²¹. Это поведенческая корреляция, но она объясняет, почему видимость «без клика» в нейропоиске становится отдельной задачей.

Специфика РФ: Алиса AI, Яндекс и GigaChat

Что подтверждено официально

Что подтверждено официально. Яндекс представил Алису AI, которая строит развёрнутые ответы с картинками, видео, ссылками и организациями и сама задаёт каскад запросов в Поиск и Карты⁹. Семейство моделей описано как Alice AI LLM, Alice AI LLM Search, Alice AI ART и Alice AI VLM — языковая, поисковая, картиночная и визуально-языковая модели²². Яндекс Браузер с Алисой AI умеет описывать изображения для незрячих пользователей на базе мультимодальной модели, анализирующей тексты и картинки²³. По GigaChat Сбер документирует: API распознаёт изображения, а GigaChat 2 Pro принимает на вход текст, изображение и аудио¹⁰ ¹¹.

Чего нет в первоисточниках

Чего нет в первоисточниках. Здесь важно не выдавать пересказы за факты:

Число запросов Алисы AI за 2025. В вебе встречаются цифры «2,9 млрд запросов» и «131 млн картинок», но только в пересказах СМИ, Хабра и VC. Официальной страницы Яндекса с этой статистикой найти не удалось, поэтому как подтверждённый факт её приводить нельзя.
Доля голосового поиска Яндекса. Свежей официальной доли голосовых запросов Яндекса за 2025–2026 в первоисточниках нет. Корректная формулировка: Яндекс развивает голосовые и мультимодальные сценарии Алисы, но публично подтверждённой доли voice search не опубликовано.

Подробнее о том, как устроен AI-поиск Алисы и что это значит для брендов в рунете, — в материале «Яндекс, Алиса и AI-поиск».

Что со всем этим делать на практике?

Свежего официального стандарта «GEO для голосового поиска» от Google, OpenAI, Яндекса или Сбера не существует. Подтверждённая база остаётся прежней и вполне приземлённой:

Доступный, машиночитаемый контент. Голос и картинки в ответах не отменяют необходимости отдавать факты текстом и разметкой, а изображения и видео — с индексируемыми метаданными.
Понятная структура и автономные фрагменты: каждый раздел должен отвечать на вопрос без чтения предыдущих. Именно фрагменты попадают в AI-ответы.
Корректная structured data там, где она поддерживается. Без культа: speakable остаётся beta для узкого сценария, а не обязательной кнопкой.
Локальные карточки и организации — для сценариев Яндекс Карт и Google Business, поскольку Алиса AI тянет данные в том числе оттуда.
Измеряйте присутствие, а не «победу»: цель — попасть в число нескольких цитируемых источников по своим интентам.

Команда GeoWatch проверяет именно это: насколько ваш сайт и контент готовы к тому, чтобы нейросети — включая мультимодальные сценарии Алисы AI, ChatGPT и AI Overviews — находили, понимали и цитировали вас, и где бренд уже называют, а где нет. Если хотите увидеть текущую картину без хайпа и догадок, начните с GEO-аудита.

Источники

Google — «Google Lens used for nearly 20 billion visual searches a month» — https://blog.google/products-and-platforms/products/search/google-search-lens-october-2024-updates/ (Публикация: 03.10.2024; доступ: 28.06.2026) ↩
Google Ads/Commerce — Lens, AI Overviews and ads for marketers (≈20 млрд визуальных поисков/мес, 20% — shopping) — https://blog.google/products/ads-commerce/google-lens-ai-overviews-ads-marketers/ (Публикация: 03.10.2024; доступ: 28.06.2026) ↩
Google — AI Mode US insights (средний запрос в 3 раза длиннее; planning-запросы +80%) — https://blog.google/products-and-platforms/products/search/ai-mode-us-insights/ (Публикация: 19.05.2026; доступ: 28.06.2026) ↩ ↩²
OpenAI — Introducing ChatGPT Search / Voice Mode FAQ (доли voice/image/video не публикуются) — https://openai.com/index/introducing-chatgpt-search/ ; https://help.openai.com/en/articles/8400625-voice-mode-faq (доступ: 28.06.2026) ↩
Google — AI Mode multimodal search — https://blog.google/products-and-platforms/products/search/ai-mode-multimodal-search/ (Публикация: 07.04.2025; доступ: 28.06.2026) ↩
Google — Search Live global expansion — https://blog.google/products-and-platforms/products/search/search-live-global-expansion/ (Публикация: 26.03.2026; доступ: 28.06.2026) ↩
OpenAI — GPT-4o System Card (input: text, audio, image, video) — https://openai.com/index/gpt-4o-system-card/ (Публикация: 08.08.2024; доступ: 28.06.2026) ↩
OpenAI — Voice Mode FAQ (фото / загрузка фото / экран в голосовой беседе) — https://help.openai.com/en/articles/8400625-voice-mode-faq (доступ: 28.06.2026) ↩
Яндекс — Алиса AI: развёрнутые ответы с картинками, видео, ссылками; каскад запросов в Поиск и Карты — https://yandex.ru/company/news/28-10-2025-01 (Публикация: 28.10.2025; доступ: 28.06.2026) ↩ ↩²
Сбер Developer — GigaChat API распознаёт изображения — https://developers.sber.ru/docs/ru/gigachat/guides/main (доступ: 28.06.2026) ↩ ↩²
Сбер Developer — GigaChat 2 Pro (input: текст, изображение, аудио) — https://developers.sber.ru/docs/ru/gigachat/models/gigachat-2-pro (доступ: 28.06.2026) ↩ ↩²
Google — speakable structured data (BETA, может меняться) — https://developers.google.com/search/docs/appearance/structured-data/speakable (Last updated: 10.12.2025 UTC; доступ: 28.06.2026) ↩
Google — speakable (US, Google Home на English, publishers на English) — https://developers.google.com/search/docs/appearance/structured-data/speakable (Last updated: 10.12.2025 UTC; доступ: 28.06.2026) ↩
Google — speakable (до 3 статей из разных news publications, TTS) — https://developers.google.com/search/docs/appearance/structured-data/speakable (Last updated: 10.12.2025 UTC; доступ: 28.06.2026) ↩
Google — speakable (краткие headlines/summaries, ~20–30 сек, 2–3 предложения) — https://developers.google.com/search/docs/appearance/structured-data/speakable (Last updated: 10.12.2025 UTC; доступ: 28.06.2026) ↩ ↩²
Search Arena / AI Search citation study (24k+ диалогов, 65k+ ответов, 366k+ цитирований ≈ 5,6 на ответ) — https://arxiv.org/abs/2507.05301 (Публикация: 07.07.2025; доступ: 28.06.2026) ↩
Search Arena (9% цитирований — news, концентрация среди немногих изданий) — https://arxiv.org/abs/2507.05301 (Публикация: 07.07.2025; доступ: 28.06.2026) ↩
Search Arena paper (предпочтения зависят от числа цитирований, даже без прямого подтверждения) — https://arxiv.org/abs/2506.05334 (Публикация: 05.06.2025; доступ: 28.06.2026) ↩
Ahrefs — Are AI Overview Citations Ranked in the Top 10? (только 38% цитируемых страниц в топ-10; корреляция) — https://ahrefs.com/blog/ai-overview-citations-top-10/ (Публикация: 02.03.2026; доступ: 28.06.2026) ↩
Semrush — AI Overviews study (доля keywords с AIO: 6,49% → ~25% → 15,69% в 2025) — https://www.semrush.com/blog/semrush-ai-overviews-study/ (Публикация: 15.12.2025; доступ: 28.06.2026) ↩
Pew Research — Google users less likely to click on links when an AI summary appears (~58%; поведенческая корреляция) — https://www.pewresearch.org/short-reads/2025/07/22/google-users-are-less-likely-to-click-on-links-when-an-ai-summary-appears-in-the-results/ (Публикация: 22.07.2025; доступ: 28.06.2026) ↩
Яндекс — Алиса AI работает на Alice AI LLM, LLM Search, ART и VLM — https://yandex.ru/company/news/25-06-2026-03 (Публикация: 25.06.2026; доступ: 28.06.2026) ↩
Яндекс — Браузер с Алисой AI описывает изображения для незрячих (мультимодальная модель) — https://yandex.ru/company/news/17-06-2026-01 (Публикация: 17.06.2026; доступ: 28.06.2026) ↩