📖 Маршрут: Маршрут для технического руководителя Шаг 4 из 8

Старый договор между сайтом и роботом разрушился

В старой веб-экономике допуск робота на сайт считался почти безусловным благом. Поисковый обход вел к индексации, индексация — к видимости, видимость — к трафику, а трафик — к рекламе, подписке или продаже. Это была грубая схема, но она работала достаточно долго, чтобы стать почти естественным законом интернета. Ответные ИИ-системы нарушили именно этот закон. Теперь один и тот же текст может участвовать сразу в нескольких цепочках: помогать поисковому ответу, служить материалом для обучения модели, использоваться для «заземления» ответа в момент запроса или быть извлеченным по прямому пользовательскому действию. Эти цепочки похожи технически, но различаются экономически. А значит, вопрос доступа к контенту перестает быть бинарным. Он больше не звучит как «пускать робота или не пускать». Он распадается на более трудный: «какого именно робота, для какой цели и на каких условиях мы готовы допустить?»

Чтобы говорить об этом серьезно, необходимо различать как минимум четыре режима доступа. Первый — обход и индексация для поисковой видимости. Второй — использование контента для обучения будущих моделей. Третий — использование поискового индекса или веб-документа для ответа в момент запроса, то есть для оперативного «заземления» ответа. Четвертый — пользовательски инициированное обращение к сайту, когда сама система действует как посредник запроса пользователя. Если смешивать эти режимы в одну массу, бренд теряет управляемость и начинает принимать решения на основании неясных страхов или, наоборот, наивного оптимизма.

Четыре режима доступа и их новое разведение

Google и OpenAI уже фактически закрепили это разделение в собственных правилах. Google Search Central прямо пишет, что ИИ-функции поиска — AI Overviews и AI Mode — управляются теми же правилами доступа, что и обычный поиск: ключевым агентом здесь остается Googlebot, а для ограничения видимости в поисковых ИИ-функциях используются знакомые механизмы вроде nosnippet, data-nosnippet, max-snippet или noindex [1]. Одновременно Google подчеркивает, что Google-Extended — это отдельный токен, с помощью которого издатель может управлять использованием контента для обучения будущих поколений Gemini и для заземления в Gemini Apps и некоторых облачных сценариях; при этом Google-Extended не влияет на включение сайта в Google Search и не является сигналом ранжирования [2]. Из этого следует очень важный вывод: поисковая видимость и обучение модели у Google уже разведены институционально. Нельзя больше честно говорить «разрешили Google» или «запретили Google» без уточнения, о каком именно процессе идет речь.

OpenAI оформляет аналогичное различие еще явнее. Документация OpenAI говорит, что OAI-SearchBot отвечает за появление сайтов в поисковых функциях ChatGPT, GPTBot — за обучение фундаментальных моделей, а ChatGPT-User — за действия, инициированные пользователем [3]. Более того, OpenAI отдельно пишет, что вебмастер может разрешить OAI-SearchBot, чтобы сайт участвовал в поисковых ответах, и одновременно запретить GPTBot, чтобы контент не использовался для обучения [3]. Это, по сути, новое право издателя: право различать полезную видимость и нежелательное извлечение стоимости.

Именно на этой почве и возникает новая экономика доступа. Cloudflare в 2025 году сформулировала проблему предельно жестко: старые поисковые роботы и издатели были связаны симбиотическим обменом, тогда как многие новые обучающие боты потребляют контент, но почти не возвращают трафик [4]. По данным Cloudflare, в июне 2025 года Google обходил сайты примерно 14 раз на один переход, тогда как у OpenAI соотношение обхода к возврату составляло 1700:1, а у Anthropic — 73 000:1 [4]. Даже если принять поправку на то, что часть переходов из приложений может не фиксироваться в заголовке Referer, сама асимметрия слишком велика, чтобы считать ее статистическим шумом [4]. Она означает, что прежний неформальный договор «вы получаете контент, мы получаем аудиторию» во многих ИИ-сценариях больше не действует автоматически.

От тотального запрета к дифференцированному управлению

Но именно здесь бренд рискует попасть в другую крайность — в соблазн тотального запрета. Такое решение выглядит морально ясным, однако экономически оно не всегда разумно. Если запретить все формы доступа, можно не только исключить сайт из обучения, но и обрезать часть каналов видимости, исследования и продаж. Есть и первые эмпирические сигналы, что блокировка ботов может быть связана со снижением трафика у крупных издателей по сравнению с теми, кто не блокирует доступ, хотя такие результаты еще требуют осторожной интерпретации [5]. Дело не в том, что блокировать нельзя, а в том, что запрет перестал быть нейтральным оборонительным жестом. Он стал стратегическим выбором с разными сценариями последствий.

Поэтому зрелая позиция бренда должна быть дифференцированной. Если компания хочет быть видимой в ChatGPT Search, но не хочет, чтобы ее тексты использовались для обучения будущих моделей, это уже технически возможно через раздельные правила для OAI-SearchBot и GPTBot [3]. Если бренд не возражает против участия в Google Search и AI Overviews, но не хочет, чтобы контент использовался для обучения Gemini, это выражается через сочетание допуска Googlebot и ограничения для Google-Extended [1][2]. Иначе говоря, рынок постепенно приходит к режиму тонкой настройки прав доступа, а не к грубому «да» или «нет».

На этом фоне особый интерес представляет попытка превратить доступ к контенту в объект сделки. Летом 2025 года Cloudflare представила модель pay per crawl, в которой владелец домена может для конкретного бота выбрать один из трех режимов: разрешить доступ бесплатно, взимать плату за обход или полностью блокировать [6]. Пока это скорее инфраструктурный эксперимент, чем массовый стандарт. Но его значение трудно переоценить. Он впервые делает видимым сам факт, что обход больше не обязан оставаться бесплатным даром. Если ИИ-компания извлекает стоимость из чужого контента вне логики возврата трафика, то возникает вполне рациональный вопрос о цене такого доступа.

Есть и еще одна практическая сторона проблемы, о которой редко говорят в публичном пространстве. Многие сайты все еще плохо оформляют собственные правила взаимодействия с ботами. Cloudflare отмечает, что лишь около 37% из крупнейших доменов вообще имеют файл robots.txt, а среди существующих robots.txt запреты для ключевых ИИ-агентов встречаются удивительно редко [4]. Это означает, что значительная часть интернета вступила в новую эпоху без собственной правовой и технической позиции. Компании спорят об ИИ как о глобальной культурной проблеме, но на уровне инфраструктуры даже не произнесли своего «да» или «нет» в формате, который машины умеют читать.

Контент как актив с условиями доступа

Для брендов это не абстрактный вопрос права, а вопрос стоимости и роли контента. Одни материалы создаются как маркетинговый актив ради максимального распространения. Другие — как исследовательский актив, в который вложены деньги, и потому бренд может захотеть ограничить бесплатное извлечение. Третьи — как коммерческий каталог, где важнее всего актуальная видимость. Четвертые — как служебная документация, которую нужно показывать только в определенных сценариях. Современная стратегия доступа должна различать хотя бы эти классы и задавать для них разные режимы участия в ИИ-среде.

Для ai100 тема экономики доступа особенно богата исследовательски. Здесь можно строить базу наблюдений по нескольким слоям сразу: какие агенты фактически обращаются к сайту, как настроен robots.txt, где доступ разрешен, где ограничен, как это отражается на видимости бренда в ответных системах и как соотносятся объемы обхода с реальным возвратом трафика или коммерческого интереса. Такой материал может со временем стать одним из самых ценных, потому что большая часть рынка по-прежнему обсуждает ИИ-доступ в моральных категориях, а не в терминах измеримой архитектуры обмена стоимостью.

Главный вывод здесь довольно строг. В новой среде контент — это уже не просто сообщение, а актив с несколькими каналами извлечения ценности. Он может приводить клиента, формировать машинный ответ, обучать будущую модель или становиться товаром, за доступ к которому издатель рано или поздно попросит компенсацию. Поэтому право бренда управлять своим присутствием — это не право исчезнуть. Это право выбирать, в каком именно режиме его знание будет участвовать в экономике ИИ. И в ближайшие годы выигрывать будут не те, кто громче всех возмущается или восторгается, а те, кто построит спокойную, точную и технически грамотную политику доступа к собственному знанию.

Что установлено надёжно

Уже надежно установлено, что крупные платформы разделяют поисковый обход и обучение, а бренд может по-разному настраивать допуск к этим режимам. Экономическая асимметрия между обходом и возвращаемым трафиком тоже зафиксирована публично.

Где остаётся неопределённость

Гораздо менее определенно то, во что выльются рыночные механизмы оплаты за обход и как быстро они станут массовой нормой. Здесь рынок находится в стадии эксперимента.

Что это меняет на практике

Для компании практический вывод в том, что политика доступа должна стать частью контентной стратегии и инженерной архитектуры, а не случайным набором строк в robots.txt.

Источники

[1] Google Search Central. AI Features and Your Website. 2025-2026
[2] Google for Developers. Google's common crawlers - Google-Extended. 2025-2026
[3] OpenAI Developers. Overview of OpenAI Crawlers. 2026
[4] Cloudflare Blog. Control content use for AI training with Cloudflare’s managed robots.txt and blocking for monetized content. 2025
[5] Zhao H., Berman R. The Impact of LLMs on Online News Consumption and Production. 2026
[6] Cloudflare Blog. Introducing pay per crawl: Enabling content owners to charge AI crawlers for access. 2025

Связанные материалы

Исследование 7 мин

Лаг обновления: как быстро ИИ-системы меняют представление о компании после новости, запуска продукта или изменения цены

Почему между изменением факта о бренде и его устойчивым появлением в машинном ответе проходит время — и как этот лаг наблюдать на практике.

Открыть материал →
Исследование 7 мин

Машиночитаемая коммерческая инфраструктура: разметка, товарные ленты данных и каталоги как язык, понятный ИИ

Слой данных и разметки, который делает бренд и товар понятными для машин: каталоги, товарные ленты, структурированные описания и их синхронизация.

Открыть материал →
Следующий шаг

Как веб-извлечение влияет на результат AI100

Режимы доступа к контенту определяют, что именно ИИ увидит. В отчёте AI100 веб-усиление показывает, насколько ответ меняется, когда модель получает доступ к внешним источникам — и это отдельный важный показатель.

Посмотреть, как устроено веб-усиление в методологии →