4

世界论文索引 General Index 上线

 2 years ago
source link: https://www.solidot.org/story?sid=69433
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

世界论文索引 General Index 上线

wanwan (42055)发表于 2021年10月29日 20时44分 星期五 新浪微博分享 豆瓣分享 来自神秘博士:噬悲者
一位美国技术专家发布了一个包含 1 亿多篇期刊文章中单词和短语的索引  General Index——其中包括了许多付费论文。 索引于 10 月 7 日发布可免费使用,包含超过 3550 亿个单词及相应论文中的句子片段。创建者 Carl Malamud 表示,此举是为了帮助科学家使用软件从已发表论文中收集见解,即使他们没有合法访问相关论文的权限。他在 Public Resource 的赞助下发布了这些文件,这是他在加州塞瓦斯托波尔创立的一家非营利性公司。

Malamud 表示,索引不包含论文全文,只包含最多五个单词的句子片段,所以发布它不会违反出版商对重复使用付费文章的版权限制。但一位法律专家表示,出版商可能会首先质疑 Malamud 创建索引的合法性。早期访问过该索引的研究人员表示,这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。计算机科学家已通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库,并以比人类阅读更快的速度探索论文的内容。但他们经常指出,出版商最终控制着他们工作的速度和范围,科学家只能挖掘开放访问的论文,或者他们(或其机构)订阅的论文。出版商表示,希望挖掘付费论文文本的研究人员需要他们的授权。尽管 Google Scholar 等免费搜索引擎已根据与出版商的协议,将付费论文的文本编入索引,但只允许用户使用某些类型的文本查询进行搜索,限制了自动搜索。Malamud 表示,这不能用更专业的搜索进行大规模的计算机化分析。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK