1

快速梳理领域文献的两个工具

 1 year ago
source link: https://sspai.com/post/75107
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

快速梳理领域文献的两个工具 - 少数派

1
快速梳理领域文献的两个工具
08 月 31 日

注:本文是《经验卷轴:如何入门学术论文写作》栏目的试读文章。《经验卷轴:如何入门学术论文写作》将从零基础储备知识和选题开始,完整覆盖科研写作从选题、考察、知识储备到内容创作以及最终答辩的全流程,手把手带你完成长篇学术论文创作的全流程。


给研究生上课的时候,有一回的作业,是让他们就某一个具体领域做文献分析。这个作业基本上就没有完满而愉快地完成过。

学生们常见的做法是拿一个关键词去文献数据库里面搜索。如果得到的结果是个位数,则大喜过望。把文献都下载下来,一一阅读,然后手动做个统计图表,展示出来。

如果搜到的文献数量超过 3 位数,学生们的做法往往是双手一摊,告诉我:「老师,文献太多了。读不过来,就没做。要不然您告诉我哪几篇文献重要?我马上去看,下周展示。」

我时常被这种创意答案气乐了。

实际上,这个任务训练学生将来做毕业论文时如何综述文献。他们的答案并不全错。大部分情况下,你找到一个想法,一个问题。只要一搜索,就会发现相关文献如长江之水滚滚而来。把全部文献都看一遍,基本上是不可能的。即便把存量看完,数量更多的增量文献又涌了出来。你很快会陷入深度抑郁。正如《庄子·内篇·养生主》里说:

吾生也有涯,而知也无涯。以有涯随无涯,殆已!

你的时间和注意力是有限而珍贵的。因此你必须对文献歧视对待,选择重点文献来阅读。大部分文献都会被你丢弃不读或者只是扫读(skimming),你大可不必为此羞愧甚至自责。

哪些文献是重点文献呢?这个问题你必须学会自己解决。而不能坐在那里等着老师喂给你标准答案。

学术期刊、会议和大部头著作构成的知识大网,跟你熟悉的网络论坛没有什么实质区别。常逛论坛的话,你应该对如何选择阅读内容有很深刻的体会。

常见的做法是去找那些精华帖和热帖先来看。精华帖很重要,因为其质量被高度评价、而且推荐。热帖未必质量好,可能只是当下人们关心的某个话题;或者作者的某些提法极富争议,因而吸引眼球。更常见的,只是纯粹的「标题党」而已。

一般论坛都会有专人来负责维护,去粗取精。然而学术文献里哪篇是精华?你就很难直接看标签来识别了。怎么办呢?最简单的办法是把文献之间的关系可视化。这样,你就可以看见哪一个主题(文献)下面回复(引用文献)的人更多,或者帖子的主题(文献聚类)有哪些。有了这些线索,你就可以在浩如烟海的检索结果里锁定那些重点文献了。

这个工作,当然可以手动来做。拥有方便的计算机辅助工具之前,这可能也是不得已的唯一办法。但是,现在如果你还手动绘制,效率就太低了。在这篇文章中,将介绍两个可以帮你快速完成这一工作的效率工具。

VOSviewer

文献可视化工具有很多。从功能和易用性综合权衡,推荐 VOSviewer

基本使用流程

第一步,需要采集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。

常见的入口包括 ScopusWeb of Science。注意这两个平台都有访问权限控制和单次下载文献信息的最大数量。请使用校园网IP地址登录操作,根据需要下载文献信息,并存储为合适的格式。为了 VOSviewer 可以正确打开,请选择用 TAB 分割的文本方式,文献记录要包含全部字段和引用信息

1

然后你就可以在 VOSviewer 中进行分析了。例如你可以选择生成术语地图(term map)。不同主题的文献会自动聚类,用不同颜色表示类别,文献之间的关联一目了然。

1

有的主题词汇比其他的词汇更大,这表示了相关文献数量的多寡。一下子,你就能找到在你关心的「论坛」里面,哪些主题是人们更感兴趣的。

你可以放大细节,了解某一个主题内部具体术语之间的关联,以把握更为细致的脉络。

1

主题只是文献多种描述标记中的一种而已。因为在采集数据阶段,我们保存了全部的元数据。因此,你可以分析更多自己感兴趣的角度。

假如你关注期刊的联系,那么不妨采用共引(co-citation)关系来看期刊之间的关联网络。不同领域的期刊采用不同颜色标记。你会清楚看到不同领域期刊之间是如何发生联系的。

1

如果你的观察角度更为宏观,还可以用作者们所在国家作为节点,看不同国家作者间的合作关系。

1

这张图很明显告诉我们,当今的科研活动早已不是闭门造车、独立发展了。与国际学术界的协作关系越紧密,获益就越多。看看那些大节点的位置和链接数量便一目了然。

如果你感兴趣的话,请阅读以下参考资料,一步步学习如何使用 VOSviewer:

如果你是个视频学习者,可以看 VOSviewer 作者的 官方视频教程。作者的英语口音有些重,但是内容绝对权威而清晰。如果你偏好中文视频资源,这里刚好有一份教程。是选修我课程的研究生用工作坊模式完成的。希望对你能有帮助。

BiblioShiny

VOSviewer 非常容易上手,功能也非常强大。不过作为一个初学者,如果你希望快速了解一个新的科研领域,诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。

我自己的好奇心,往往会指向某个研究领域的 3 个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。

这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。

我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。

Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动

1

最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。

1

例如点一下菜单里面的「Collaboration Network」按钮,BiblioShiny 就立刻为你绘制作者合作网络图。

1

统计文章年均被引趋势?也是点一下按钮的事儿:

1

软件安装方法很简单。首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python 和 R 对故事情节做情绪分析?》一文介绍。

安装好后,在 Rstudio 中执行以下 3 行命令:

install.packages("bibliometrix", dependencies=TRUE)
library(bibliometrix)
biblioshiny()

当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。

1

有了工具,下面我们就需要数据了。

我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。

1

MIS Quarterly

注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。MIS Quarterly 的文献数据,我是从 Web of Science 下载的。

1

我对结果进行了精炼,只选择了其中的 Articles 类型。

1

一共 743 篇文章,导出选择的格式,为 BibTex 。

1

因为 Web of Science 每次导出记录数量,不能超过 500,因此前后下载了 2 个 BibTex 格式文件。我把它们打包成了一个 zip 文件(Archive.zip)。这个文件,我为你放在了这个位置。你可以直接下载使用。

如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程。教程是关于 VosViewer 的。但其中 4 分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。

在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即 Archive.zip,开始上传。

1

导入完毕后,展示结果列表如下:

1

软件有了,数据也有了。下面我给你展示一下,如何解答前面提到的那 3 个问题,以快速熟悉科研领域。

第一个问题是:

哪些作者比较厉害?

我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。

点击进入 Descriptive Analysis 标签页面。

1

选择 Tables 。

1

左侧 Result 类型,可以在下拉列表选择。我们选择「Most Productive Authors」(最高产作者)。

1

分析结果如下:

1

排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly!我没看错吧?好像全部文献记录条数也只有 700 多篇。

怀着好奇心,我在 Google 搜索了一下——

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!

1

他哪里是在投稿?分明是灌水的节奏!作为季刊,2013 年,全部 4 期上面各有一篇他的文章!但是,科研论文的数量固然重要,质量也是要保证的嘛。这种频率发文,质量能保证吗?

带着这个疑问,我们来考察一下第二个问题。

还记得吗?我们的第二个问题就是:

哪些文献比较重要?

这个问题,其实不是那么容易解答。下载次数多的论文,是不是很重要?在社交媒体上流传最广的论文,是不是很重要?

目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况

Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。方法是选择「Intellectual Structure」菜单之下的「Historiograph」。

1

用默认的参数,我们可以看到数据集中这 20 篇文献,重要性较高。

1

点击 Table 标签页,我们看看列表展示的具体信息。

1

注意这里展示了 2 项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。

假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。

我们注意到,其中有一篇文献,两项指标都是惊人的。

1

这篇大作, LCS 为44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然达到了 6634。这篇文献,简直就是一览众山小啊!想必你也很关心——谁写的?

1

往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。没错,还是 Venkatesh 教授!

1Venkatesh 教授,图片源自网络

看来,这种频率发文,质量也依然是有保障的。这……是不是叫做天才?

锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:

哪些主题更值得研究?

首先我们得搞清楚主题都有哪些。

我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。

1

默认绘图结果如下:

1

注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):

1

确实,分析结果有了差别。我们还可以继续尝试,只从标题文字做词云:

1

对比上面几张图,你有什么发现?我反正是看得眼花缭乱。不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。

点击 Conceptual Structure 菜单,选择其中的「Correspondence Analysis」。

1

我们关注其中的词汇地图(word map):

1

看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。

但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。因为,这只代表了历史和现状。你不能看着后视镜开车

这时候,你可以使用 Biblioshiny 辅助决策。方法是点击「主题地图」(Thematic Map)选项。

1

主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出 4 个象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
  • 第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
  • 第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。

有了这些背景知识,再回看这张图,就很有意思了。请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?

如果你对 Bibliometrix 有兴趣,该如何继续学习呢?首先,推荐给你这份 Bibliometrix 的官方图文教程

1

如果你喜欢看教学视频,可以点击 这个链接 查看。

1

本文我们介绍了两种快速了解科研领域和文献的工具。VOSviewer 上手快,可视化程度也能满足于我们的需求。如果你会 R 语言,就可以选择了 R 环境下的 BiblioShiny 软件包。两个工具,有类似之处。例如说对于主题词分析和关键作者研究,都是有相关功能可供使用。但是,在具体的使用上,是各有千秋的。R 包里面,有一些很独特的功能,例如主题地图(Thematic Map)等。而 VOSviewer 因为出现时间更久,所以有更大的使用群体。当你有疑问的时候,社区可以给你提供更多的帮助和建议。

不管不管工具如何变化,我们始终要探索了以下 3 个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。

而且你还会注意到,我们所展示的,只是 Biblioshiny 和 VOSviewer 众多实用分析功能里的一小部分。

希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘这些工具的功能,帮助自己更高效便捷地熟悉某一新科研领域。



About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK