词频分析研究的现状、方法及工具,你值得拥有

 

 

文 | 期刊哥

 

 

 

今天主要跟大家介绍词频分析研究现状、方法及工具。

 

词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

 

词频分析使用现状如何?以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论文题目中出现“词频”二字,其中206篇核心期刊;如果以“主题”为检索条件,则有3423条文献以“词频”为主题开展了研究,其中1722篇在核心期刊发表。

 

 

 

由图可知,将“词频”分析工具来队研究对象进行分析,一直都处于增长态势。说明有越多越多的论文开始基于词频分析来开展研究工作。

 

 

由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。

 

要彻底了解词频分析,必须先了解次词频统计方法。TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。http://baike.baidu.com/view/920592.htm

 

目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。

 

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。它采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90-95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。网站用的多些

 

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析系统。该系统主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时还支持用户词典。感觉很牛不好用

 

TF-IDF其实一种算法;而SCWS与ICTCLAS是两种中文词频分析方法。很多词频工具软件,都是基于TF-IDF算法来工作的。接下来我们简单介绍几款软件的使用。

 

MyZiCiFreq字词频率统计工具,这个工具比较简单。

该软件可以把文章中出现的每个字或者出现的所有的词的次数和百分比都统计出来,支持导出。语文教师和汉语言文学类研究者,可以使用该工具对学生作文或某些专著进行分析。just so soMyZiCiFreq字词频率统计工具不需要注册,不需要安装,使用起来非常方便,它使用的分词算法在网络上没有搜到相关介绍,不建议在学术论文的写作过程中使用该软件。没事玩玩就行

 

ROST WordParser,是由武汉大学沈阳博士开发,比较容易上手。

 

 

首先,打开待分析的文档;然后,选择分词按钮,会自动对文档进行分词;之后,再打开词频分析窗口;最后,点词频分析就可以统计词频啦。但是这最后一步会报一个错误,这个错误主要由于写入文件引起的,程序在设计的时候保存路径有问题,少了一个“\”,导致生成的词频统计数据文件没有办法保存,不过这个并不影响使用。点击OK按钮之后,可以直接复制词频统计的数据,然后粘贴到Excel中直接使用。

 

该软件是内测版本,后期被整合到ROST CM6中。目前,不论ROST WordParser,还是ROST CM6都已经停止更新。虽然这两款软件在分词的准确性方面受到学术界的质疑但在一些研究论文中却依然可以看到这两款软件的身影。

 

关于这款软件能否在学术论文中使用,个人认为要看研究的领域,如果在计算机研究领域或者在图书情报研究领域使用这两款软件来写论文,可能会受到质疑,但是在教育类、语言类、文学类等对分词准确性要求不高,或者对发现新词没有过高要求的情况下,还是可以尝试使用这两款软件,特别是ROST CM6在不少学术论文中被引用。

 

 

刚发的这个是Rost CM6截图。利用ROST CM6 进行词频分词之前,首先,要对文本文档(txt文档)进行分词,然后,再进行词频分析。ROST CM 6软件功能比较丰富,可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。目前由于该软件平台已经停止更新,所以部分需要联机操作的功能已经失效。但是分词与词频统计功能尚能使用,此外,还有部分单机功能依然可以使用。

 

 

下面来说说详细步骤和流程。

 

选择分词菜单之后,会弹出以上对话框。第一个选项用来选择需要分词的文本文件,点击右侧按钮浏览找到待分词的文件。第二个选项用来设置分词文件保存位置,这里系统会默认保存在软件目录下。第三个选项是用来选择自定义词表的,这个自定义词表需要自己建立,可以将一些分词系统无法识别的专业词汇以文本文件形式保存,然后通过点击右侧按钮将自定义词表加入分词系统中。如果不需要指定自定义词表,可以默认使用ROSTCM6\user\目录下的user.txt文件中的词作为自定义词表。有时候为了省事,可以直接在这个文件之后,追加我们需要添加的新词,每次添加完新词,记得重启一下该软件。以上三个选项设置完成之后,单击确定按钮就可以进行分词啦,分词成功之后会弹出一个文件,可以将这个文件直接关闭,或者另存。不论怎样,关键确认记住分词后的文件保存位置。

 

成功分词之后,我们开始词频统计,打开词频统计的菜单之后,跳出以下对话框。

 

 

根据图上提示,进行操作即可。(注意:需要过滤的词表与自定义词表类似,系统均有默认,可以在系统文件基础上添加自己的过滤词。可在工具/自定义文件 中找到过滤词表与自定义词表。)如果不出什么意外,点击确定之后,分词结果会保存到默认位置,然后弹出一个文本文件,这个文件可以另存,也可以直接关闭。

 

拿到词频统计数据之后,我们就可以围绕自己研究领域展开想象,开始探索发现之旅。更多关于ROST CM6的使用说明,请参见ROST CM6 使用说明(该文档已经归整理到资源包中了)。

 

接下来介绍一个简单的小工具:词频分析工具@Excel大全

 

 

 

这个工具主要是利用SCWS分词引擎所开发的一个Excel版的轻量级的在线词频统计分析工具,可以对文本文档中的中英文文字内容进行快速语义分词,统计词汇的出现频次,进行TF-IDF排名,并可显示词语的词性。

 

它还有一个优点,就是生成的词频数据,直接存在excel当中,非常便于统计与分析。但缺点是,此工具需要联网,而且还需要启用宏。

 

有关启用宏的方法参考:http://excel365.net/237.html

 

刚刚介绍的工具,都是单纯的词频分析工具,没有什么难度。一般如果要发学术论文,其实还是需要用到更多的工具,比如Bibexcel、CiteSpace和SATI等其他共词分析工具。这些工具都是以词频分析为基础。

 

大家有时间慢慢研究,这些工具都是可以使用的。Rost CM6 使用的时候,有时候联网会尝试连接远程服务器,呈现卡死状态,这个时候,你断网用就可以了。

 

不过这些工具一般在学术论文中的用的比较少。大家可以在平时研究中作为辅助工具来用。真正依靠词频分析发论文现在远远不够,还是需要学习共词分析、共引分析、社会网络分析等比较深入一点的研究工具。因为词频分析只能看个频次,看不出词与词之间的关系远近。

 

好了,这篇文章的主体部分就是这样一些内容了,如果这篇文章让你有所收获,请长按文末二维码关注本公号,我们会持续输出高质量的科研成长型干货推文的。如果你愿意把这篇文章分享给你的那些在学术成长领域孜孜以求的朋友,他们会非常感谢你。

 

还是那句话:学术成长之路,你不是一个人在奋战!

 

 

作者简介:

 

期刊哥:微信公众号【期刊投稿指南】(ID:qktgzn)创始人,教育技术博士,现在西部某不知名211高校混日子,入职两年以来,只专心做了一件小事,并因此一举为学术自媒体界的传奇人物——收集整理了11000多种期刊投稿信息,进行期刊发文特征深度分析,致力于汇聚整合各路投稿大神的发表经验,用以帮助科研小白及时获取最新期刊投稿信息与期刊发文特征,从而进行有针对性的投稿。目前正在集中精力开发期刊投稿指南社区,将于近期上线试运营。

 

 

 

 

——END——

 

 

 

 

号主老踏:教授,博士后,社科科研工作达人,文艺老炮。知乎、简书「社科·学术成长」专栏作者,在行认证行家+答主,【学术链@老踏】荔枝微课直播间主理人。

加入联合创始人


如果你想成为学术链科研联盟的一员,获得自身的提高;或者,你也想和我们一起帮助更多科研新手快速成长,加入学术链科研联盟联合创始人是个很不错的选择。

立马 了解一下