文章总结: Cloudflare文章指出AI爬虫流量已占互联网流量超50%,其中52%用于AI训练,传统搜索导流模式失效。内容市场已出现,出版机构通过控制访问权获得议价能力,但Google的混合用途爬虫带来透明度问题。Cloudflare正投资工具促进市场成熟,建议内容所有者利用归因数据提升谈判地位。 综合评分: 88 文章分类: 威胁情报,安全建设,网络安全,数据安全,其他
[译苑雅集vol. 13]Cloudflare:AI 爬虫吃掉流量之后,内容该怎么收费?
四楼南侧东 四楼南侧东
表图
2026年7月2日 17:53 北京
在小说阅读器读本章
去阅读
作者:Arielle Weiss, Zach Albertson, Emily Lanfear
时间:2026 年 07 月 01 日
原文:https://blog.cloudflare.com/agentic-internet-bot-report/
一年前,Cloudflare 宣布了 Content Independence Day,也就是“内容独立日”。当时,很多行业参与者已经开始感受到一件事:互联网的底层经济结构正在变化。AI 采用速度不断加快,出版机构获得的搜索导流迅速下降,AI 公司以前所未有的规模抓取网络内容,很多时候没有清楚说明用途,几乎也没有提供补偿。
Cloudflare 随后改变了默认设置:对 Cloudflare 上的所有新域名,AI 训练爬虫默认会被阻止,除非域名所有者主动选择允许。它的目的并非把网络封闭起来。Cloudflare 认为,一个更健康的生态系统需要透明度、控制权、稀缺性,最终还需要一个市场,让高质量内容能够被合理定价,并以公平方式交易。
一年之后,这个市场已经出现。但互联网转型的速度甚至超过了 Cloudflare 当时的预期。这篇文章用几组关键数据说明,互联网商业模式正在多快地变化,以及这个新的内容市场对出版机构和网站所有者意味着什么。
互联网变了,比预想更快
AI 不像普通技术周期,更接近一场平台迁移,采用速度超过智能手机的两倍。短短 3.5 年里,全球已有超过 30% 的人口,也就是 25 亿活跃用户,开始经常性使用生成式 AI。这条采用曲线已经几乎垂直向上。
人类与信息互动、完成工作和分配线上时间的方式,从未发生过如此快速的变化。今天,人们每在线上花 1 个小时搜索信息,真正花在开放网络上的时间只有 15 分钟。随着用户转向由 AI 驱动的信息发现和内容消费,传统搜索行为正在被改写。用户不再访问多个网站来查找和比较信息,而是直接输入提示词,几乎立刻得到一个整合后的答案。
智能体互联网已经到来。今年,智能体流量首次跨过一个重要门槛:如今互联网上超过 50% 的流量已经不是人类直接产生的。这一变化对出版机构、内容所有者以及开放网络的未来都有深远影响。
爬虫的目的也变了。如果按照 Cloudflare 识别出的用途来看,爬虫流量的构成已经很清楚:
- 截至 2026 年 6 月,52% 的爬虫请求用于 AI 训练,而 2025 年春季这一比例还是 22%。
- 混合用途爬虫,也就是同时混合搜索、智能体使用和训练目的的爬虫,占全部活动的比例已经超过 36%。
- 纯搜索爬取虽然对出版机构的可见性仍然重要,但在整体爬虫活动中的占比已经很小,并且仍在下降。
随着 AI 训练成为爬虫活动的主要驱动力,区分“发现”和“训练”的能力变得越来越重要。混合用途爬虫模糊了这条边界,把内容所有者置于一个困难处境:要么在智能体时代保持可发现性,要么在没有补偿的情况下交出自己最有价值的内容。
旧的内容交换模式正在失效
几十年来,开放网络的经济模式很直接。内容创作者向搜索引擎开放内容,以换取搜索引擎中的可见性,并由此获得导流。这些流量成为出版机构、创作者和企业创造经济价值的主要机制。
但今天,这种交换正在瓦解。内容仍然会被抓取、索引和使用,但来源网站越来越少获得相应流量回报。随着 AI 系统直接回答问题、比较产品、开展研究和完成任务,开放网络上的信息越来越多地成为 AI 训练和检索系统的一部分。由此产生的生存问题很简单:如果内容被消费了,但受众从未访问来源,内容创作者要如何维持下去?
最早感受到冲击的是新闻机构和媒体公司。今天,类似动态正在影响零售、软件、IT 和金融等行业。一些被爬取最密集的类别,在不到一年时间里,人类流量下降幅度已经高达 40%。许多出版机构现在正在为它们所说的 “Google Zero” 做准备,也就是一个几乎没有搜索导流的世界。
这种影响实际上会延伸到每一个行业。任何在互联网上发布专有信息的组织,都需要理解如何在智能体时代运营。这一变化不仅关系到内容所有者,也关系到所有互联网使用者。互联网是全球经济的重要组成部分,也是世界上最重要的信息发现公共资源之一。确保它保持健康和可持续,对所有人都至关重要。
内容市场已经出现
Cloudflare 推出 Content Independence Day 时,承诺要做三件事。
第一,为网站所有者提供透明度和控制权,让他们能够定义自己的内容如何被访问和商业化。
第二,构建能够形成稀缺性的工具,把力量平衡重新推回内容所有者一边。
第三,建立一个市场,让各种规模的内容创作者和 AI 公司都能更高效地发现、许可并确定内容价值。
一年后,一个围绕内容变现的市场已经出现,一个动态市场所需的条件也正在形成。
长期以来,出版机构对于 AI 公司如何访问和使用其内容,只有非常有限的可见性。随着搜索导流下降,这种可见性的缺失变成了一个经济问题,促使出版机构寻找新的价值捕获方式。Cloudflare 的归因、商业智能和执行工具,让出版机构能够在网络层面看见 AI 对内容的消费情况。这是一种远比 robots.txt 之类自愿标准更有效的执行机制。出版机构第一次能够决定自己的内容如何被访问和商业化。正是这种控制权形成了稀缺性,并推动了一个供需驱动的内容经济。
稀缺性也创造了议价能力。对访问权进行控制的出版机构,获得了谈判筹码,并达成了更好的交易。出版机构第一次拿到了网络层面的归因数据:LLM 试图访问其内容的频率,哪些竞争性 LLM 正在爬取,哪些 URL 最受需求方关注,以及它们的爬取量与导流量之比。这降低了许可谈判中的信息不对称,让出版机构能够在掌握信息的基础上进行谈判。
这种议价能力正在改变内容所有者和 AI 公司之间的力量平衡。随着出版机构越来越清楚地看到 AI 系统如何访问和使用自己的内容,它们也更有能力理解这对自身业务的影响,并更有信心说明自己所构建的信息、品牌和受众的价值。
一个许可经济正在出现。自 2023 年以来,出版机构与 AI 公司之间已经签署了 50 多项协议。主要 AI 公司正在积极许可内容,并越来越认识到差异化内容和优质内容的价值。集体许可模式也在持续出现和扩大。大型出版机构正在达成有实质意义的许可协议,说明内容在 AI 生态系统中具有真实经济价值。
讨论的重点已经不再是内容是否应该获得补偿,而是应该如何补偿。
不过,市场还没有完全成熟。早期许可协议证明需求确实存在,但今天的许可仍然很大程度上是定制化的,也不太可能完全替代已经损失的导流、广告和联盟营销收入。因此,出版机构一方面继续面向传统人类发现方式优化内容,另一方面也越来越多地为 AI 消费进行优化,并探索新的变现路径。供给和需求仍然很难高效匹配,尽管市场已经理解并非所有内容都具有同样价值,但内容估值问题仍未解决。
Google 是绕不开的变量
讨论这个市场时,不能回避 Google 的特殊角色。Google 仍然是在线信息发现的主导入口,占据约 88% 的导流。但与此同时,Google 越来越多地帮助用户直接在 Google 自有的 AI 体验中消费内容。
发现和消费服务于完全不同的目的。搜索把用户带到内容面前,而 AI 驱动的体验则越来越多地摘要和复用内容,并不要求用户访问来源网站。网站所有者对这两类活动的看法不同,因为前者带来流量,后者则越来越多地替代流量。
当网站所有者需要决定谁可以访问其内容,以及出于什么目的访问时,这些差异就变得尤其重要。大多数领先 AI 公司会把发现爬虫和训练爬虫分开,因此出版机构相对容易选择为某一种目的开放内容访问,或拒绝某一种目的。Google 则没有这样做。今天,Google 能够访问的信息量大约是领先 AI 公司的两倍,因为 Google 使用的是混合用途爬虫,使客户很难在参与 Google 搜索生态的同时,不参与 Google 的 AI 生态。
与其他 AI 提供商不同,Google 的混合用途爬虫也限制了网站所有者的透明度。由于发现访问和 AI 访问被合并进同一个爬虫,出版机构无法判断 Google 为什么访问其内容,也无法区分哪些流量用于搜索,哪些流量用于 AI 体验。它们也因此失去了在网络层面独立允许或阻止这些活动时所能获得的可见性和证据。
这种动态进一步推动了市场对更高透明度、更强控制权以及新变现模式的需求。新的模式需要更好地服务内容所有者,也需要更好地服务各种规模的 AI 公司。
新市场需要新的基础设施
Cloudflare 认为,自己正处在新兴智能体经济的交汇处。超过 20% 的网络位于 Cloudflare 网络之后。在全球访问量最高的网站中,36% 依赖 Cloudflare 网络。财富 500 强企业中,超过 40% 是 Cloudflare 客户。近 80% 的领先 AI 公司使用 Cloudflare,此外还有数千名开发者和新兴 AI 公司。
这一位置让 Cloudflare 能够同时看见市场两端:创造内容的内容所有者、消费内容的 AI 公司,以及越来越多正在把两者连接起来的信号。这个视角让它能够观察过去一年市场如何演化,以及它现在需要什么。
首先,透明度必须成为标准。内容所有者越来越需要看到并控制谁在访问其内容、内容被如何使用,以及出于什么目的使用。AI 公司也越来越认识到,透明度可以建立信任,并减少与出版机构之间的摩擦。可见性和执行能力已经不再只是安全问题,它们已经成为业务要求,会直接影响许可谈判和商业决策。
为了让透明度成为标准,Cloudflare 将继续投资于更强的归因、度量和出版机构控制能力,让内容所有者能够更清楚地看见并控制自己的内容如何被访问和使用。随着行业转向更高透明度,Cloudflare 认为,可验证的机器人自我识别,以及对爬取意图的声明,是可持续生态系统的基础。今天,Cloudflare 网络上仍有超过三分之一的爬虫活动来自混合用途爬虫,使内容所有者无法区分爬取意图。Cloudflare 正在与生态系统各方沟通,并投资相关工具,希望到明年这个时候,把这个数字降到零。
其次,更好的 AI 需要更好的信号。过去一年里,一件事变得越来越清楚:AI 公司需要超出内容访问权本身的东西。它们需要更好的方式判断应该访问什么、什么时候访问,以及内容发生变化的频率。无差别爬取会浪费 AI 公司的计算资源,也会给出版机构带来不必要的带宽负担,降低整个生态系统的效率。
Cloudflare 认为,更好的答案需要更好的智能。它正在投资实时新鲜度信号,并叠加更丰富的信任、质量和相关性信息,帮助 AI 公司发现差异化信息,同时减少对整个网络的不必要爬取。
再次,市场先需要更好的发现,之后才是更好的定价。为了让市场成熟,出版机构和 AI 公司需要更好地了解彼此。Cloudflare 正在投资更丰富的市场情报、内容信号和相关能力,以改善生态系统两端之间的发现机制,并为未来更可扩展的市场机制奠定基础。
写在最后
一年前,Content Independence Day 提出了一个简单想法:内容所有者应该对 AI 公司如何访问和使用其信息拥有更大控制权。
过去十二个月里,这种控制权帮助催生了一个市场。透明度创造了稀缺性,稀缺性创造了议价能力,议价能力加速了许可。曾经关于 AI 和内容未来的理论讨论,如今已经变成一个活跃市场,出版机构、AI 公司和技术提供商都在适应一套新的经济现实。
这个市场现在正进入一个新阶段,并且需要新的基础设施。随着互联网越来越智能体化,支撑互联网的底层系统也必须演化,才能大规模处理权限、许可和商业交易。内容所有者和 AI 公司需要更高效的方式相互连接并交换价值。Cloudflare 认为,这些能力将汇聚成可编程、可扩展的内容发现和变现机制,在减少摩擦的同时,释放更丰富的价值交换形式。
Cloudflare 的角色,是建设基础设施和商业智能,并为相关标准作出贡献,让市场能够更高效地决定价值,也帮助出版机构和 AI 公司参与一个更健康、更有活力的内容经济。
互联网一直在演化。这一次演化比大多数变化都更快,也更重要。但只要有正确的基础设施、正确的激励机制,并坚持透明度,智能体互联网就有机会变得更可持续、更高效,也对每个人都更好。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:表图 四楼南侧东 四楼南侧东《[译苑雅集vol. 13]Cloudflare:AI 爬虫吃掉流量之后,内容该怎么收费?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。


![[译苑雅集vol.13]Cloudflare:AI爬虫吃掉流量之后,内容该怎么收费?](/images/random/titlepic/2.jpg)









评论