数据分析之数据预处理,数据预处理和数据处理
任务介绍
(2——6)
任务心得
1)平时学习Python的过程中缺乏实践,使得实际修改代码需要很长时间;2)字符编码不清晰,比如“gbk”和“utf-8”很久了,最后我们还得从头开始理解每个编码;
3)不要为了完成任务而完成任务,就像之前的镶嵌数据集和目视判读一样。学而不思则罔,要有所收获。
参考
Python中的英文预处理:http://m.blog.csdn.net/article/details? id=21690911
用Python做中文自然语言预处理:http://www.tuicool.com/articles/zaa6ny
Python删除了停用词:http://www.do1234.com/python/jieba_fenci.html,http://www.cnblogs.com/xiaoli2018/p/4953170.html
Python转到了stop words:文件夹中多个txt文本的https://segmentfault.com/q/1010000005994107/revision
分步截图
洁霸全应用初学者http://blog.csdn.net/jinruoyanxu/article/details/51636350
2.excel下小写
3.去掉停顿词(测试对比)
4、5——只保留字母(测试前后)
python:http://www.jb51.net/article/51892.htm中if _ _ name _= _ _ main _ _ 的作用
“我简单的理解是,在添加了if _ _ name _== _ _ main _ _ 之后,当后面的代码在别处被引用时,就不会被执行,从而方便代码重用。比如我有一个脚本add.py如下:def add (x,y):返回x y if _ _ name _= _ _ main _ _ print add(3,4)。当我在别处引用这个add.py时,我不执行print
6.去空行(测试前后)、合并多个空格为一个
注:这一步是我在excel中完成的。重复空格方便快捷(因为数据多为空两/三格,用OK代替),去掉初始空格(excel中的修剪功能),去掉空行(数据过滤,在过滤条件中不选“空白”,然后复制等。)
补充:在后续得到“词”以后,才意识到前面的预处理做得不够啊!只提取单词(筛除如“chn”等非单词)是能够做到,然而,文本中单词的三单/复数/过去式等形式,臣妾做不到啊…于是乎,就有了下面的“词干化”处理:
Anaconda中有NLTK,但是WordNet语料库需要手动下载(难怪报错):http://blog.csdn.net/mmc2015/article/details/50939265
Python读取一个大文件,并逐行写入另一个文件:http://blog.csdn.net/dxldehuali/article/details/51350713.
Python3处理文件中的每个单词:http://blog.csdn.net/houyj1986/article/details/21248327
词干化处理:
词干处理的部分处理过程:
去不是单词的词: