做语料交易平台，Cloudflare要为站长“主持公道”

Connor bitop交易所全球网 2024-10-10 46 0

大模型遭遇数据荒这件事，已经从遥遥领先的预言变成了一个所有AI厂商都不得不面对的难题。为了解决这个问题，谷歌前CEO埃里克・施密特更是曾语出惊人，表示AI创业公司可以先通过AI工具盗取知识产权，然后再雇佣律师来处理法律纠纷。但就在AI行业出现“语料危机”的兵荒马乱里，也有厂商发现了商机。

日前，全球知名的内容分发网络（CDN）Cloudflare宣布将在明年推出交易市场，允许AI公司付费获取网站内容的抓取权限。据Cloudflare方面的描述，网站运营者可以将自己的网站放在这个市场中，如果有AI开发商愿意付费购买其内容，则可以向后者提供接口以供抓取网站的内容用于AI大模型的训练。

进入2024年之后，随着Common Crawl数据集、The Pile语料库等开源数据库的开发殆尽，AI厂商在获取语料数据这件事上也完全可以用“吃相难看”来形容。例如苹果、英伟达、OpenAI在训练大模型时使用了YouTube未经授权的数据，AI独角兽Anthropic更是直接分布式拒绝服务攻击（DDoS）小网站等让人大跌眼镜的操作，也开始堂而皇之的出现。

做语料交易平台，Cloudflare要为站长“主持公道”

当然，除了这些上不得台面的玩法之外，业界也在尝试用“合成数据”来训练大模型，试图用这种“左脚踩右脚上天”的模式来使得大模型摆脱对于语料数据的依赖。可惜随着一篇《Nature》上的论文问世，使用AI生成的数据集训练大模型会污染它们的输出，无法避免“模型崩溃”（model collapse）的缺陷，也让合成数据这条路径的未来蒙上了阴影。

展开全文

如此一来，向内容方索取数据就又变成了AI厂商的唯一选项。现在的情况，是AI厂商对于数据的需求永无止境，但他们需要将有限的预算花在算力、电力、水资源等刚性需求的资源上，以至于“偷数据”就变成了一个降本增效的手段。同时，一般的网站虽然有数据、但也缺乏保护数据的能力。

做语料交易平台，Cloudflare要为站长“主持公道”

站在网站站长的角度，一方面自己网站的内容被AI厂商无偿抓取，另一方面AI厂商爬虫进行的高频次抓取已经与DDoS没区别了，导致自己还要付出更高的带宽和流量清洗成本。由此不愿付钱的AI厂商与想要将数据卖个好价钱的内容方之间，自然也就产生了不可调和的矛盾。

这时候，双方都需要一个类似Cloudflare这样的角色站出来当“裁判员”。作为CDN提供商，Cloudflare的竞争力来源于在全球拥有超过152个数据中心，这些数据中心战略性地分布在全球各地，以确保其业务覆盖所有主要地区，再加出色的网络技术，也使得全世界目前有20%的互联网流量都经过了该公司的网络代理。

做语料交易平台，Cloudflare要为站长“主持公道”

为了向用户提供高速网络服务，Cloudflare建设了一个专用的高容量光纤网络，用于在全球的数据中心之间传输流量，这也使得其能够完全控制内部和外部流量的路由，以便更有效地管理流量。而为全球中小网站提供一个低成本接入公开网络的能力，这就是Cloudflare的底气。

就如同谷歌提供了一个广告竞价平台，得以让全球的站长通过经营网站获得收入一样，Cloudflare现在就是打算复刻谷歌曾经的做法，建立一个内容拍卖平台，让AI厂商像广告主一样为他们感兴趣的内容付费。毕竟全球1/5的流量会经过Cloudflare的分发网络，所以也意味着后者确实也拥有类似谷歌搜索引擎的地位。

做语料交易平台，Cloudflare要为站长“主持公道”

与此同时，为了保证这个交易市场得以运行下去，Cloudflare还宣布为使用其服务的所有网站，包括免费托管在Cloudflare上的网站提供AI审计工具 (Cloudflare AI Audit) ，从而向网站站长报告AI厂商的爬虫何时访问网站、抓取数据的IP地址、抓取频次，以及其他相关数据。

借助AI审计工具，哪些AI厂商尝试抓取了网站的数据也就变得一目了然。并且为了配合这个交易市场，Cloudflare方面表示AI审计工具与目前为站长提供的一键屏蔽AI爬虫功能不同，其提供了更灵活的屏蔽策略。比如说，一旦某网站与OpenAI达成合作，站长就可以单独为OpenAI的GPTBot提供“绿色通道”。

做语料交易平台，Cloudflare要为站长“主持公道”