数据分析之数据预处理,数据预处理和数据处理

任务介绍

（2——6）

任务心得

1)平时学习Python的过程中缺乏实践，使得实际修改代码需要很长时间；

　　2)字符编码不清晰，比如“gbk”和“utf-8”很久了，最后我们还得从头开始理解每个编码；

　　3)不要为了完成任务而完成任务，就像之前的镶嵌数据集和目视判读一样。学而不思则罔，要有所收获。

参考

　　Python中的英文预处理：http://m.blog.csdn.net/article/details? id=21690911

　　用Python做中文自然语言预处理：http://www.tuicool.com/articles/zaa6ny

　　Python删除了停用词：http://www.do1234.com/python/jieba_fenci.html,http://www.cnblogs.com/xiaoli2018/p/4953170.html

　　Python转到了stop words:文件夹中多个txt文本的https://segmentfault.com/q/1010000005994107/revision

分步截图

洁霸全应用初学者http://blog.csdn.net/jinruoyanxu/article/details/51636350

2.excel下小写

3.去掉停顿词（测试对比）

4、5——只保留字母（测试前后）

　　python:http://www.jb51.net/article/51892.htm中if _ _ name _= _ _ main _ _ 的作用

　　“我简单的理解是，在添加了if _ _ name _== _ _ main _ _ 之后，当后面的代码在别处被引用时，就不会被执行，从而方便代码重用。比如我有一个脚本add.py如下：def add (x，y):返回x y if _ _ name _= _ _ main _ _ print add(3，4)。当我在别处引用这个add.py时，我不执行print