javascript基础知识总结,
什么是NLTK NLTK?NLTK,全称自然语言工具包,是NLP研究领域常用的Python库。它是宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块。到现在为止,它已经有10多万行代码了。这是一个开源项目,包含数据集、Python模块、教程等。
关于如何安装的细节,请参考我的另一篇博客,NLP开发环境构建。通过这个博客,你将学习如何安装Python环境和下载NLTK模块;
通用模块和用途
NLTK能做什么?搜索文本单词搜索:相似词搜索;相似关键词识别;词汇分布图;生成文本;统计词汇
#!/usr/DD dnm/env python #-*-coding:utf-8-*-# @ Time:2018-9-28 22:21 # @ Author:Manu # @ Site:# @ File:python _ base . py # @ software:pycharmrom _ _ future _ _ import division import nltk import matplotlibfromnltk . bookimport * from nltk . util import bigrams # word search print( word search )1 .concordance(“男孩”)文本2。concordance( friends )# similar word search print( similar word search )text 3 . similar( time )# common context search print( common context search )# 2.com mon _ contexts([畸形,非常])# glossary print( glossary )text 4 . dispersion _ plot([ citizens , American , freedom , 职务])#词汇计数打印(词汇计数)打印(len (text5))排序(set (text5))打印(len (set (text5)) #重复单词密度打印(重复单词密度)打印(len (text8)/len (set (text8))关键字密度打印(关键字密度)打印(text9.count (girl ))打印(text 9 . count( girl )* 100/len(text 9))#频率分布fdist=freq dist(text 1)vocal=fdist . keys()For I in词汇:打印可扩展性;模块化;NLTK古腾堡语料库中的语料库:古腾堡;网聊语料库:webtext、nps _ chat;棕色语料库:棕色;路透社语料库:路透社;就职演说语料库:就职;其他语料库;文本结构孤立:独立;分类的:已分类的;重叠:重叠型;暂时:暂时;基本语料库功能
条件频率分布
以上总结是对NLP中NLTK模块相关知识的介绍。希望这篇文章能解决你对NLTK的疑惑,欢迎评论交流!