jieba分词使用,jieba分词工具三种分词模式
最近用街霸分词,还有一些商务词典在用。请记录相关操作。
1.由于anaconda3配置的是虚拟环境,jieba的安装路径在:
/anaconda3/envs/虚拟环境名/lib/python 3.8/site-packages/jieba
2 .解霸的默认词典是dict.txt
维姆。/dict.txt查看默认的词典形式
词频和词性
Attnz超声波3 nC # 3 nZC # 3NZC 3NZC恤4 nA座3 nA股3 nA轮3 nAA制3 nAB座3 nB股3 nB型3 nB超3 nB轮3 nBB机3 nBP机3 nC盘3 nC座3 nC语3 nCD盒3 nCD机3N字典格式与dict.txt相同,一字占一行;每行分为单词、词频(可省略)、词性(可省略)三部分,用空格隔开,顺序不能颠倒。
如果您需要更改其他词典:
1.占用内存较少的字典文件https://github.com/fxsjy/jieba/raw/master/extra _字典/字典. txt.small。
2.字典文件https://github.com/fxsjy/jieba/raw/master/extra _字典/字典.大,更好地支持传统的分词
下载你需要的词典,备份后覆盖jieba/dict . txt;
或者使用jieba . set _ dictionary( data/dict . txt . big )指定具有分词等功能的词典。