常用中文分词软件

SCWS:基于词频词典的机械中文分词引擎

ICTCLAS:最早的中文开源分词项目

HTTPCWS:基于http协议的开源中文分词系统,将取代之前的PHPCWS中文分词扩展

庖丁解牛分词:仅支持Java语言,且提供lucence(一款流行的Java全文搜索引擎)接口

CC-CEDICT:提供一份以汉语拼音为中文辅助的汉英词典,其词典可以用于中文分词,Chrome中文版就是使用这个词典进行中文分词的

jieba中文分词:python中文分词组件jieba支持三种中文分词模式:

            精确模式:试图将句子最精确的切开,适合文本分析

            全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义

            搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

来源:txdyhs

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年1月21日
下一篇 2019年1月21日

相关推荐