python英文词频统计软件_如何统计长篇英文材料中的词频?

本文转自微信公众号『妙面爸』

……………………………………………………………………

各位爷,你们也太麻烦了吧。

介绍两个在线网站,轻松解决这个问题。

………2016年11月30日更新了词组统计功能的分割线………

1、长篇词频统计 writewords J.K. Rowling – HP 2 – Harry Potter and the Chamber of Secrets ,这部小说共计十万词左右。咦,你怎么知道是十万词/p>

复制粘贴到word文档里面,下面就显示出来总字数啦。全部文本粘贴输入对话框,以下是词频统计结果。

(1)单词词频统计

(2)词组词频统计

将点击Phrase Frequency counter,就讲单词词频统计转换成词组统计了。上图中可以选择统计的词组单词数量,可以选择2到10个单词构成的词组。这次选3字词组。

统计结果出来了。由于很多单词的组合本身并不是词组,只是由于意义组合反复出现而被统计了出来。比如It was a这个组合。其中还是可以统计出很典型的词组,比如be able to 和out of sight等。这个网站在统计词组时会插入一些单字词,是一个bug,不管就可以了。

长篇使用技巧:

A、善用高频人名、地名,迅速熟悉小说剧情。可以看到,排在最上面的都是一些诸如the、and、of之类的小词(small words)。对于英语学习没有多大意义。出现频率几百次的,除了一些特别常用的词之外,就是人名,比如 Ron出现704次,Hermione出现320次,Malfoy出现222 。对于提高阅读和听力而言,这些人名地名的意义比掌握一般单词更大,因为谁是谁和哪是哪都搞不懂,你怎么能搞懂整本小说用wikipedia搜索这部小说,通过梗概介绍熟悉人物的基本关系,对听懂和读懂这部小说意义重大。

B、利用高频词预习、复习,提升裸听、裸读理解率,帮助单词积累。对于学习英语,提高词汇量意义重大的词语,往往是出现5-几十次的单词,一般出现次数不会高于30次。比如上面这些出现10次的单词。将它们找出来,在阅读和聆听之前预习,可以大大提高阅读理解率和听力理解率;在读完听完之后复习,又大大了提高单词复习针对性。由于这类单词在文本中反复出现,是可以通过大量阅读聆听自然习得的单词。有意识地重点掌握,可以如虎添翼,使得自己在短时间内增加大量单词。

2、短篇词频统计 WordCounter

网址:WordCounter

这个网站最多只能统计出现频率前200名的单词,特点是具有去小词功能。

我将2016年11月27日的yahoo新闻政治版块的头条进行统计。结果如下:

选择将小词(small words)过滤掉。

短篇使用技巧:

A、集中掌握中频词,高效轻松增长词汇量。排在前名的依然是人名,比如川普出现22次。其他高频词太简单了,不予考虑。bedminster 和mitt出现5次,segar/reuter 出现4次,depart 和president-elect等出现3次。这样在一篇短短的文章里出现3到5次的单词是特别重要的,因为一般出现7次左右就可以保留在长期记忆里了。

B、善用多篇统计,捕捉特定话题高频词。这个网站比较适合进行短篇文章的词频排序。比第一个网站优势在于可以去掉一些小词。其实,如果对于特定题材的文章,可以输入同一主题的文章,比如将有关川普英语文章输入几十篇,看看那些是高频词。

学习者总是要接触难度高于目前水平的英语素材。这些素材,有时像一堆无法破译的拼图碎片。统计出来的高频词汇,像打开听力阅读口语的钥匙,可将通用拼图片找出来,恢复原图的样貌,大大提高学习的针对性。

以上两个网站都不需要翻墙。善用词频统计网站进行英语学习,真的是无敌利器;每次英语学习前后常用词频统计,会受益不穷、效率大增。

关注妙面爸微信公众号,就可免费获得英语学习方法、自我提升和教育学习文章全集,包含上百篇干货文章,让你英语水平和自我高度进步神速。↓

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208972 人正在系统学习中 相关资源:下拉通刷词软件v3.1.zip-其它代码类资源-CSDN文库

来源:weixin_39622084

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月21日
下一篇 2020年10月21日

相关推荐