为何福克斯新闻等允许OpenAI爬虫收集数据，《纽约时报》却持相反意见？

麻省理工科技评论-为何福克斯新闻等允许OpenAI爬虫收集数据，《纽约时报》却持相反意见？

OpenAI 于 2023 年发布了“GPTBot 爬虫”，称它会基于该爬虫爬取的网络数据，来推动今后的模型开发。

在生成式人工智能和大语言模型兴起的背后，高质量的训练数据发挥了关键作用。

为更好地提高人工智能模型生成内容的准确性和价值度，包括 OpenAI 在内的人工智能公司往往通过网络爬虫的方式收集数据，以训练其开发的模型并为聊天机器人提供内容素材。

（来源：AI 生成）

例如，OpenAI 于 2023 年发布了“GPTBot 爬虫”，称它会基于该爬虫爬取的网络数据，来推动今后的模型开发。不仅如此，该公司也分享了指导网站如何完全或部分禁止爬虫的方法。

图丨禁止 GPTBot 访问网站（来源：OpenAI 官网）

与此同时，多家美国知名网站开始禁止来自 OpenAI 和其他公司的人工智能网络爬虫。

直到今年 1 月中旬，人工智能检测初创公司 Originality AI 在 44 个领先的新闻网站上进行了数据搜集，发现目前几乎所有的网站都屏蔽了人工智能网络爬虫，包括《纽约时报》《华盛顿邮报》《卫报》等报纸。

然而，一个有意思的现象是，在接受调查的美国知名右翼新闻媒体中，如福克斯新闻、每日传讯和布赖特巴特新闻网等，没有任何一家媒体做出阻止人工智能网络爬虫的行动。

虽然大多数右翼网站尚未对此事发表公开评论，但相关领域的从业人员却基于该现象做出了一些不同的猜测。

其中，这或许是右翼媒体用来对抗感知政治偏见的策略，是一种获得诸多认可的猜测。

“人工智能模型反映了其训练数据的偏见。”Originality AI 创始人兼 CEO 乔恩·吉勒姆（Jon Gillham）对媒体表示，“如果整个偏左的内容都被屏蔽了，你可以说，来这里‘吃掉’我们所有偏右的内容吧。”

事实上，人工智能产生偏见的情况的确存在。

据了解，在最近一次关于人工智能的听证会上，共和党籍参议员玛莎·布莱克本（Marsha Blackburn）用一首由人工智能生成的赞美拜登总统的诗歌作为证据，指出用 ChatGPT 无法生成类似的对特朗普的颂歌。

基于美国保守派领导人对 ChatGPT 和其他人工智能工具表现出自由主义或左倾政治偏见的担忧，右翼媒体有理由将自由派同行阻止人工智能网络爬虫的决定，视为促进意识形态平衡的独特机会。

不过，在美国加利福尼亚大学洛杉矶分校的人工智能伦理研究员杰里米·鲍姆（Jeremy Baum）看来，右翼媒体允许人工智能网络爬虫搜集数据的行为，并不能对人工智能系统的内容输出产生可衡量的影响。

部分原因在于，当媒体开始禁止人工智能网络爬虫之前，人工智能公司已经从中收集了大量的资料，并且往往倾向于雇佣具有自由主义倾向的员工。

另外，大多数人工智能公司的目标都是创建价值中立的系统。如果控制人工智能的开发者看到右翼内容有所增加，但通过判断其不安全或错误，他们可能会撤销任何向机器提供某种观点的尝试。

正如 OpenAI 发言人凯拉·伍德（Kayla Wood）所说，“为了追求能够深刻体现所有文化、行业、意识形态和语言的人工智能模型，公司使用了广泛的训练数据集。

任何一个新闻网站只是整个训练数据的一小部分，不会对模型的预期学习和输出产生可衡量的影响”。

除了上述猜测，有关人士认为该现象的背后，还可能反映出新闻网站对版权问题的意识形态分歧。

具体来说，大多数主流媒体的管理者都认为这种数据爬取属于“盗窃”。比如，《纽约时报》认为 OpenAI 的数据搜集是非法的，并正在起诉该公司侵犯版权。

但右翼媒体的管理者却未针对版权问题发表意见，他们或许认为用来建立人工智能系统的数据爬取操作，受到合理使用原则的保护。

其实，从技术角度来推测，不管该现象是基于哪些原因产生的，只要有越来越多的网站屏蔽人工智能网络爬虫，开发者就越难找到好的训练数据，对人工智能产品改进和更新的难度也会随之增高。

而在 OpenAI 年营收即将突破 10 亿美元的当下，生成式人工智能的发展前景和对人类社会的重要性可见一斑。

因此，不管是人工智能公司，还是新闻网站，都应该尽可能地在拥抱人工智能和抵制它的发展之间，谋求一种适当的平衡。

参考资料：

https://www.wired.com/story/most-news-sites-block-ai-bots-right-wing-media-welcomes-them/

https://platform.openai.com/docs/gptbot

https://www.linkedin.com/posts/emilprotalinski_most-top-news-sites-block-ai-bots-right-wing-activity-7155945517515001856-v4zf

https://www.axios.com/2023/08/31/major-websites-are-blocking-ai-crawlers-from-accessing-their-content

https://finance.yahoo.com/news/openais-meteoric-rise-1-billion-173545014.html

运营/排版：何晨龙

Recommend