2

为何福克斯新闻等允许OpenAI爬虫收集数据,《纽约时报》却持相反意见?

 7 months ago
source link: https://www.mittrchina.com/news/detail/12910
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

麻省理工科技评论-为何福克斯新闻等允许OpenAI爬虫收集数据,《纽约时报》却持相反意见?

为何福克斯新闻等允许OpenAI爬虫收集数据,《纽约时报》却持相反意见?
OpenAI 于 2023 年发布了“GPTBot 爬虫”,称它会基于该爬虫爬取的网络数据,来推动今后的模型开发。
280

在生成式人工智能和大语言模型兴起的背后,高质量的训练数据发挥了关键作用。

为更好地提高人工智能模型生成内容的准确性和价值度,包括 OpenAI 在内的人工智能公司往往通过网络爬虫的方式收集数据,以训练其开发的模型并为聊天机器人提供内容素材。

49ef2fe49aee4e67a1800041db3370fc~tplv-obj.image?lk3s=ef143cfe&traceid=202401251907238CF922E99130AE2AECC6&x-expires=2147483647&x-signature=PBF9LYJ0xSRhcvxI%2FVgGBQ1ZDgA%3D
(来源:AI 生成)

例如,OpenAI 于 2023 年发布了“GPTBot 爬虫”,称它会基于该爬虫爬取的网络数据,来推动今后的模型开发。不仅如此,该公司也分享了指导网站如何完全或部分禁止爬虫的方法。

575e85a936f9405ba5f4e166d1609a04~tplv-obj.image?lk3s=ef143cfe&traceid=202401251907238CF922E99130AE2AECC6&x-expires=2147483647&x-signature=4VJDuH2y3tu%2FBF26%2FLuIrJFeieA%3D
图丨禁止 GPTBot 访问网站(来源:OpenAI 官网)

与此同时,多家美国知名网站开始禁止来自 OpenAI 和其他公司的人工智能网络爬虫。

直到今年 1 月中旬,人工智能检测初创公司 Originality AI 在 44 个领先的新闻网站上进行了数据搜集,发现目前几乎所有的网站都屏蔽了人工智能网络爬虫,包括《纽约时报》《华盛顿邮报》《卫报》等报纸。

然而,一个有意思的现象是,在接受调查的美国知名右翼新闻媒体中,如福克斯新闻、每日传讯和布赖特巴特新闻网等,没有任何一家媒体做出阻止人工智能网络爬虫的行动。

虽然大多数右翼网站尚未对此事发表公开评论,但相关领域的从业人员却基于该现象做出了一些不同的猜测。

其中,这或许是右翼媒体用来对抗感知政治偏见的策略,是一种获得诸多认可的猜测。

“人工智能模型反映了其训练数据的偏见。”Originality AI 创始人兼 CEO 乔恩·吉勒姆(Jon Gillham)对媒体表示,“如果整个偏左的内容都被屏蔽了,你可以说,来这里‘吃掉’我们所有偏右的内容吧。”

事实上,人工智能产生偏见的情况的确存在。

据了解,在最近一次关于人工智能的听证会上,共和党籍参议员玛莎·布莱克本(Marsha Blackburn)用一首由人工智能生成的赞美拜登总统的诗歌作为证据,指出用 ChatGPT 无法生成类似的对特朗普的颂歌。

基于美国保守派领导人对 ChatGPT 和其他人工智能工具表现出自由主义或左倾政治偏见的担忧,右翼媒体有理由将自由派同行阻止人工智能网络爬虫的决定,视为促进意识形态平衡的独特机会。

不过,在美国加利福尼亚大学洛杉矶分校的人工智能伦理研究员杰里米·鲍姆(Jeremy Baum)看来,右翼媒体允许人工智能网络爬虫搜集数据的行为,并不能对人工智能系统的内容输出产生可衡量的影响。

部分原因在于,当媒体开始禁止人工智能网络爬虫之前,人工智能公司已经从中收集了大量的资料,并且往往倾向于雇佣具有自由主义倾向的员工。

另外,大多数人工智能公司的目标都是创建价值中立的系统。如果控制人工智能的开发者看到右翼内容有所增加,但通过判断其不安全或错误,他们可能会撤销任何向机器提供某种观点的尝试。

正如 OpenAI 发言人凯拉·伍德(Kayla Wood)所说,“为了追求能够深刻体现所有文化、行业、意识形态和语言的人工智能模型,公司使用了广泛的训练数据集。

任何一个新闻网站只是整个训练数据的一小部分,不会对模型的预期学习和输出产生可衡量的影响”。

除了上述猜测,有关人士认为该现象的背后,还可能反映出新闻网站对版权问题的意识形态分歧。

具体来说,大多数主流媒体的管理者都认为这种数据爬取属于“盗窃”。比如,《纽约时报》认为 OpenAI 的数据搜集是非法的,并正在起诉该公司侵犯版权。

但右翼媒体的管理者却未针对版权问题发表意见,他们或许认为用来建立人工智能系统的数据爬取操作,受到合理使用原则的保护。

其实,从技术角度来推测,不管该现象是基于哪些原因产生的,只要有越来越多的网站屏蔽人工智能网络爬虫,开发者就越难找到好的训练数据,对人工智能产品改进和更新的难度也会随之增高。

而在 OpenAI 年营收即将突破 10 亿美元的当下,生成式人工智能的发展前景和对人类社会的重要性可见一斑。

因此,不管是人工智能公司,还是新闻网站,都应该尽可能地在拥抱人工智能和抵制它的发展之间,谋求一种适当的平衡。

参考资料:

https://www.wired.com/story/most-news-sites-block-ai-bots-right-wing-media-welcomes-them/

https://platform.openai.com/docs/gptbot

https://www.linkedin.com/posts/emilprotalinski_most-top-news-sites-block-ai-bots-right-wing-activity-7155945517515001856-v4zf

https://www.axios.com/2023/08/31/major-websites-are-blocking-ai-crawlers-from-accessing-their-content

https://finance.yahoo.com/news/openais-meteoric-rise-1-billion-173545014.html

运营/排版:何晨龙


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK