数据分析之数据预处理,数据预处理和数据处理

  数据分析之数据预处理,数据预处理和数据处理

  

任务介绍

(2——6)

  

任务心得

1)平时学习Python的过程中缺乏实践,使得实际修改代码需要很长时间;

  2)字符编码不清晰,比如“gbk”和“utf-8”很久了,最后我们还得从头开始理解每个编码;

  3)不要为了完成任务而完成任务,就像之前的镶嵌数据集和目视判读一样。学而不思则罔,要有所收获。

  

参考

  Python中的英文预处理:http://m.blog.csdn.net/article/details? id=21690911

  用Python做中文自然语言预处理:http://www.tuicool.com/articles/zaa6ny

  Python删除了停用词:http://www.do1234.com/python/jieba_fenci.html,http://www.cnblogs.com/xiaoli2018/p/4953170.html

  Python转到了stop words:文件夹中多个txt文本的https://segmentfault.com/q/1010000005994107/revision

  

分步截图

洁霸全应用初学者http://blog.csdn.net/jinruoyanxu/article/details/51636350

  

2.excel下小写

  

  

3.去掉停顿词(测试对比)

  

4、5——只保留字母(测试前后)

  python:http://www.jb51.net/article/51892.htm中if _ _ name _= _ _ main _ _ 的作用

  “我简单的理解是,在添加了if _ _ name _== _ _ main _ _ 之后,当后面的代码在别处被引用时,就不会被执行,从而方便代码重用。比如我有一个脚本add.py如下:def add (x,y):返回x y if _ _ name _= _ _ main _ _ print add(3,4)。当我在别处引用这个add.py时,我不执行print

  

6.去空行(测试前后)、合并多个空格为一个

  注:这一步是我在excel中完成的。重复空格方便快捷(因为数据多为空两/三格,用OK代替),去掉初始空格(excel中的修剪功能),去掉空行(数据过滤,在过滤条件中不选“空白”,然后复制等。)

  

  

补充:在后续得到“词”以后,才意识到前面的预处理做得不够啊!只提取单词(筛除如“chn”等非单词)是能够做到,然而,文本中单词的三单/复数/过去式等形式,臣妾做不到啊…于是乎,就有了下面的“词干化”处理:

  Anaconda中有NLTK,但是WordNet语料库需要手动下载(难怪报错):http://blog.csdn.net/mmc2015/article/details/50939265

  Python读取一个大文件,并逐行写入另一个文件:http://blog.csdn.net/dxldehuali/article/details/51350713.

  Python3处理文件中的每个单词:http://blog.csdn.net/houyj1986/article/details/21248327

  

词干化处理:

  词干处理的部分处理过程:

  

去不是单词的词:

  

续(去词频5的词):

数据分析之数据预处理,数据预处理和数据处理