常用的中文分词工具,分词 软件
作者芬多爱
一中文分词
分词服务接口列表
二准确率评测:
THULAC:与代表性分词软件的性能比较
比较有代表性的中文分词软件LTP-3.2.0,ictclas(2015版),jieba(C) c版等。与THULAC进行性能比较。选择Windows作为测试环境,基于第二届国际中文分词bakoff发布的国际中文分词评测标准,测试不同软件的速度和准确率。
第二届国际中文分词评测包括四家机构(中央研究院、城市大学、北京大学、微软研究院)提供的测试材料,评测提供的资源ICW B2-dddd来自相应分词标准提供的训练集、测试集和标准答案(icwb2-data/scripts/gold)。
在统一的测试环境下,对流行的分词软件和THULAC进行测试,使用的模型是各个分词软件的模型。THULAC使用软件附带的简单模型Model_1。基于英特尔酷睿I 5.4 GHz的环境测量结果如下。
评估结果1
除了对上述标准测试集的评测,还对大数据中各个分词工具的速度进行了评测,结果如下。
CNKI_journal.txt(51MB).
评估结果2
分词数据的准备和评估由BosonNLP完成。11种开放式中文分词引擎竞赛。(2015年发布)))))))))))))。
分词的客观量化测试离不开阅卷数据,也就是人工准备的分词“标准答案”。在数据源上,测试分为:1。新闻数据:140篇,共30517字;2.微博数据:200篇,12962字;3.汽车论坛数据(汽车之家100篇文章)共27452字。4.餐饮点评数据(大众点评)100篇,共8295字。
准确度计算规则:
删除所有标点符号,不做比较。
部分被测系统有实体标识,可能导致语言标识不一致。用人工标注的结果代替相应的位置,得到精度估计的上限。
经过上述处理后,使用SIGHAN分词评分脚本对最终的准确率、召回率和F1值进行比较。
以上数据均以《北京大学现代汉语基础处理标准》对所有数据的切分为准。具体数据请参考附录。通过这四类数据,综合比较不同分词系统的分词准确率。
连词系统的正确性比较
三付费价格:
阿里云:
AlibabaCloud(阿里云)收费价格
腾讯云:
云腾收费价格
玻森中文
免费限额:
博森中文免费限额。
收费价格:
Bo中文收费价格
四官网
开源工具
汉普:
https://github.com/hankcs/HanLP
结缕草分词:
https://github.com/fxsjy/jieba
盘古分词:
3358小懒胡子codeplex.com/
我的技能帮助牛:
https://代码。丁/
西南中文分词:
33558 www。荀search.com/scws/docs.服务器端编程语言(Professional Hypertext Preprocessor的缩写)
高校工具
FudanNLP:
https://github.com/FudanNLP/fnlp
LTP:
33558 www。LTP-cloud.com/document
THULAC:
http://thulac.thunlp.org/
NLPIR:
http://ictclas.nlpir.org/docs
商业服务
BosonNLP:
http://bosonnlp.com/dev/center
百度自然语言处理:
3359云。Baidu.com/doc/NLP/NLP-API.html
搜狗分词:
33558www.sogou.com/labs/web服务/
腾讯文志:
3359云。Tencent.com/document/product/271/2071
腾讯价格表:
3359云。Tencent.com/document/product/271/1140
阿里巴巴云(阿里云)NLP:
3359数据。liyun.com/product/NLP
新浪云:
33558 www。新浪cloud.com/doc/SAE/python/segment.html
测试数据集
1、SIGHANBakeoff 2005 MSR,560KB
3358叹an.cs.uchicago.edu/bake关2005 /
2、SIGHANBakeoff 2005北京大学,510KB
3358叹an.cs.uchicago.edu/bake关2005 /
3.人民日报,2014年,65mb
https://pan.baidu.com/s/1hq3KKXe
前两个数据集用于sigh an 2005组织的中文分词大赛,也是学术界测试分词工具的标准数据集。本文用于测试各大分词工具的正确性,最后一组数据集较大,用于测试分词速度。
艾:http://www.panchuangai.com/潘闯
tensorflownews:http://www . tensorflownews . com/