Текст — это уже не единственный вход
На протяжении всего корпуса AI100 мы говорили о видимости в контексте текстовых запросов: пользователь печатает вопрос, модель формирует ответ. Но мир поиска уже давно не сводится к набору слов на клавиатуре. Пользователь фотографирует товар в магазине и спрашивает «сколько это стоит онлайн?». Говорит вслух «какая это модель?», наведя камеру на наушники. Загружает скриншот из Instagram и просит «найди похожее, но дешевле». Снимает видео и добавляет текстовый вопрос: «Из какого материала это сделано?»
Это не экзотические сценарии. Google Lens обрабатывает более 20 миллиардов визуальных запросов в месяц, и 20% из них связаны с покупками [1]. AI Mode интегрирован с Google Lens: пользователь может сделать фотографию или загрузить изображение, а система, используя мультимодальные возможности Gemini, анализирует всю сцену — объекты, их контекст, материалы, цвета, формы — и формирует комплексный ответ [2]. ChatGPT с GPT-4o обрабатывает изображения, голос и текст одновременно. 27% мобильных пользователей уже используют голосовой поиск [3].
Для бренда это означает, что текстовая оптимизация — необходимое, но уже недостаточное условие видимости. Если ваш товар невозможно распознать по фотографии, если у видео на YouTube нет транскрипта, если голосовой ассистент не может связать произнесённое имя компании с правильной сущностью — вы теряете аудиторию, которая ищет не словами.
Как визуальный поиск меняет правила
Визуальный поиск работает принципиально иначе, чем текстовый. Пользователь не описывает то, что ищет, — он показывает это. Свёрточные нейросети (CNN) преобразуют изображение в числовой вектор и сравнивают его с базой проиндексированных изображений [4]. Это значит, что качество, консистентность и техническая доступность изображений на сайте напрямую влияют на то, будет ли ваш товар найден.
Для e-commerce последствия наиболее очевидны. Покупатель видит платье на улице, фотографирует его, и Google Lens за три секунды показывает похожие товары с ценами из разных интернет-магазинов. Если ваши товарные изображения низкого качества, без описательных alt-текстов, без Product schema, без единого стиля съёмки — они не попадут в эту выборку. А конкурент с чистыми, размеченными фотографиями — попадёт.
Визуальная консистентность между платформами тоже становится фактором. Google Lens лучше распознаёт бренды, которые используют одинаковый стиль фотографий на сайте, в маркетплейсах и в социальных сетях. Разнородный визуальный ряд затрудняет привязку к сущности [5].
Голосовой поиск и длинные запросы
Голосовые запросы отличаются от текстовых не только модальностью, но и структурой. Человек, говорящий вслух, использует естественные предложения: «Какое лучшее кафе рядом со мной, которое сейчас открыто?» вместо «кафе рядом открыто». Запросы в AI Mode в среднем в три раза длиннее обычных поисковых запросов [6]. Это означает, что контент, оптимизированный под короткие ключевые фразы, может не совпадать с тем, как люди формулируют запросы голосом.
Для бренда практическое следствие: FAQ-секции, написанные в формате «вопрос — прямой ответ», лучше работают для голосового поиска, чем длинные маркетинговые тексты. Structured data (FAQ schema, HowTo schema) помогает голосовым ассистентам извлечь конкретный ответ. Имя бренда должно быть произносимым и однозначным — модель, которая не может связать произнесённое «Экско-Дата» с сущностью «ExcoData», потеряет бренд при голосовом запросе.
Видео и транскрипты
ИИ-системы всё активнее используют видеоконтент. Транскрипты видео с YouTube становятся источником для цитирования: если в вашем видео эксперт подробно объясняет, как работает продукт, и транскрипт доступен — модель может извлечь из него фрагмент для ответа. Если транскрипта нет — видео остаётся невидимым для текстовой части ответной системы.
Google прямо указывает, что AI Mode использует мультимодальный анализ: система одновременно работает с текстом, изображениями, видео и контекстом [2]. Для бренда, который публикует обучающие видео, обзоры или демонстрации продукта, чистый и точный транскрипт — это не опция, а условие обнаружения.
Что делать уже сейчас
Мультимодальная оптимизация не требует революции. Она требует расширения привычной работы на новые форматы.
Изображения: высокое качество, описательные имена файлов и alt-тексты, Product schema с привязкой к конкретным товарам, единый стиль съёмки по платформам.
Голос: FAQ-секции в формате вопрос-ответ, HowTo schema для инструкций, произносимое и однозначное имя бренда.
Видео: транскрипты для каждого ролика на YouTube и на сайте, VideoObject schema, описательные заголовки и метаданные.
Общий слой: тот же принцип, что и для текстовой видимости — структурированные данные, машиночитаемость, внешние подтверждения. Мультимодальность не отменяет эти основы, а добавляет к ним новые входные каналы.
Визуальный поиск уже обрабатывает десятки миллиардов запросов в месяц. AI Mode интегрирует мультимодальный ввод (фото + текст + голос). Транскрипты видео используются как источник для цитирования. Голосовые запросы длиннее и разговорнее текстовых.
Точная доля ответов ИИ, инициированных визуальным или голосовым вводом, пока плохо измерена вне Google Lens. Влияние мультимодальной оптимизации на цитируемость бренда в разных платформах изучено фрагментарно.
Бренду нужно оптимизировать не только текст, но и изображения, видео и голосовую обнаруживаемость. Базовые действия (alt-тексты, транскрипты, FAQ schema) просты и могут быть начаты уже сейчас.
Источники
Связанные материалы
Машиночитаемая коммерческая инфраструктура: разметка, товарные ленты данных и каталоги как язык, понятный ИИ
Слой данных и разметки, который делает бренд и товар понятными для машин: каталоги, товарные ленты, структурированные описания и их синхронизация.
Открыть материал →SEO и ИИ-видимость: что переносится, что нет и где привычная оптимизация может навредить
Что из классического SEO переносится в ответную ИИ-среду, что перестаёт работать и какие новые требования возникают.
Открыть материал →Практическая карта действий: как усилить машинную различимость бренда
Шесть последовательных шагов для улучшения ИИ-видимости: от проверки идентичности через пересборку языка и контура доверия к наблюдению.
Открыть материал →Лаг обновления: как быстро ИИ-системы меняют представление о компании после новости, запуска продукта или изменения цены
Почему между изменением факта о бренде и его устойчивым появлением в машинном ответе проходит время — и как этот лаг наблюдать на практике.
Открыть материал →Как проверить, видит ли ИИ не только ваш текст
AI100 проверяет текстовую видимость бренда в нейтральных сценариях. Но мультимодальная диагностика начинается с тех же основ: различимость сущности, структурированные данные и внешние подтверждения. Отчёт покажет, где начать.
Открыть образец отчёта →