常用的中文分词工具,分词软件

　　作者芬多爱

一中文分词

　　分词服务接口列表

二准确率评测：

　　THULAC:与代表性分词软件的性能比较

　　比较有代表性的中文分词软件LTP-3.2.0，ictclas(2015版)，jieba(C) c版等。与THULAC进行性能比较。选择Windows作为测试环境，基于第二届国际中文分词bakoff发布的国际中文分词评测标准，测试不同软件的速度和准确率。

　　第二届国际中文分词评测包括四家机构(中央研究院、城市大学、北京大学、微软研究院)提供的测试材料，评测提供的资源ICW B2-dddd来自相应分词标准提供的训练集、测试集和标准答案(icwb2-data/scripts/gold)。

　　在统一的测试环境下，对流行的分词软件和THULAC进行测试，使用的模型是各个分词软件的模型。THULAC使用软件附带的简单模型Model_1。基于英特尔酷睿I 5.4 GHz的环境测量结果如下。

　　评估结果1

　　除了对上述标准测试集的评测，还对大数据中各个分词工具的速度进行了评测，结果如下。

　　CNKI_journal.txt(51MB).

　　评估结果2

　　分词数据的准备和评估由BosonNLP完成。11种开放式中文分词引擎竞赛。(2015年发布)))))))))))))。

　　分词的客观量化测试离不开阅卷数据，也就是人工准备的分词“标准答案”。在数据源上，测试分为：1。新闻数据：140篇，共30517字；2.微博数据：200篇，12962字；3.汽车论坛数据(汽车之家100篇文章)共27452字。4.餐饮点评数据(大众点评)100篇，共8295字。

准确度计算规则：

　　删除所有标点符号，不做比较。

　　部分被测系统有实体标识，可能导致语言标识不一致。用人工标注的结果代替相应的位置，得到精度估计的上限。

　　经过上述处理后，使用SIGHAN分词评分脚本对最终的准确率、召回率和F1值进行比较。

　　以上数据均以《北京大学现代汉语基础处理标准》对所有数据的切分为准。具体数据请参考附录。通过这四类数据，综合比较不同分词系统的分词准确率。

　　连词系统的正确性比较

三付费价格：

阿里云：

　　AlibabaCloud(阿里云)收费价格

腾讯云：

　　云腾收费价格

玻森中文

　　免费限额：

　　博森中文免费限额。

　　收费价格：

　　Bo中文收费价格

四官网

开源工具

　　汉普：

　　https://github.com/hankcs/HanLP

　　结缕草分词：

　　https://github.com/fxsjy/jieba

　　盘古分词：

　　3358小懒胡子codeplex.com/

　　我的技能帮助牛：

　　https://代码。丁/

　　西南中文分词：

　　33558 www。荀search.com/scws/docs.服务器端编程语言（Professional Hypertext Preprocessor的缩写）

高校工具

　　FudanNLP:

　　https://github.com/FudanNLP/fnlp

　　LTP:

　　33558 www。LTP-cloud.com/document

　　THULAC:

　　http://thulac.thunlp.org/

　　NLPIR:

　　http://ictclas.nlpir.org/docs

商业服务

　　BosonNLP:

　　http://bosonnlp.com/dev/center

　　百度自然语言处理：

　　3359云。Baidu.com/doc/NLP/NLP-API.html

　　搜狗分词：

　　33558www.sogou.com/labs/web服务/

　　腾讯文志：

　　3359云。Tencent.com/document/product/271/2071

　　腾讯价格表：

　　3359云。Tencent.com/document/product/271/1140

　　阿里巴巴云(阿里云)NLP:

　　3359数据。liyun.com/product/NLP

　　新浪云：

　　33558 www。新浪cloud.com/doc/SAE/python/segment.html

测试数据集

　　1、SIGHANBakeoff 2005 MSR，560KB

　　3358叹an.cs.uchicago.edu/bake关2005 /

　　2、SIGHANBakeoff 2005北京大学，510KB

　　3358叹an.cs.uchicago.edu/bake关2005 /

　　3.人民日报，2014年，65mb

　　https://pan.baidu.com/s/1hq3KKXe

　　前两个数据集用于sigh an 2005组织的中文分词大赛，也是学术界测试分词工具的标准数据集。本文用于测试各大分词工具的正确性，最后一组数据集较大，用于测试分词速度。

　　艾：http://www.panchuangai.com/潘闯

　　tensorflownews:http://www . tensorflownews . com/

常用的中文分词工具,分词软件

万老网

常用的中文分词工具,分词软件

一中文分词

二准确率评测：

准确度计算规则：

三付费价格：

阿里云：

腾讯云：

玻森中文

四官网

开源工具

高校工具

商业服务

测试数据集

猜你喜欢

最近发表

win10怎么安装虚拟机安装教程win10,windows10安装虚拟机教程

mfs分布式文件系统,mfs集群

脚本语言属于高级语言吗,脚本语言和其他语言的区别

验证tensorflow2.0安装成功,怎么看tensorflow是否安装成功

Django安装教程,怎么安装django环境

linux定时任务crontab执行日志,linux crontab执行shell脚本

编码和解码的定义,编码和解码名词解释一样吗,编码与解码名词解释

密教模拟器怎么升级门徒,密教模拟器如何升级门徒

excel计算斯皮尔曼相关系数,皮尔逊相关系数怎能计算

imagenet数据集包含了多少幅图片,imagenet数据集有哪些种类