怎么把excel格式转换成csv,如何把excel转换为csv

　　所见即所得，提高你的数据收集效率。

　　写完需求文章《如何用Python批量提取PDF文本内容？》，在后台收到很多消息。

　　很多读者问，如果是PDF文件里的表单呢？能正确转换吗？

　　我当时并不理解这种需求。因为那篇文章主要讲的是提取文本，其目的是自然语言处理的下一步。这个PDF文件里很多内容都是文字。其中，表格只占很小的比例。

　　文章755-79000中提供的工具pdf_extractor会保留表中的数据，但结构信息基本被丢弃。

　　表转换，属于结构化数据抽取。这和我当时的文章主旨不一样。所以没有一一回复。

　　不过最近我自己也遇到了这种需求。

　　我需要从一些论文的表格中提取一些数据。尤其是一些对比结果的列表。

　　在机器学习的论文中，总有这个对照表。主要是将当前模型的结果与基线或目前最好的结果进行比较，从而说明论文的价值和意义。在我的文章《如何用Python批量提取PDF文本内容？》里，我专门跟你谈过这个对比的选择。

　　例如：

　　如果你是在跟踪自然语言处理的进度，你一眼就能认出这个表格出自哪篇论文，对吧？

　　没错，就是著名的

BERT

语言模型。

　　一方面，我们可能需要对纸质表格中出现的一些数据进行统计计算。另一方面，我们也需要把一些结果放在自己的论文里作为

对比

。而这些，如果需要我们手动提取数据，然后输入到程序或者Excel中，会很

低效

。

　　我们需要一种简单的方法来帮助自己正确提取PDF格式的信息，同时尽可能保持格式。

　　现在有了搜索的需求，我开始收集信息。我发现目前有相当多的应用支持从PDF中提取表格。

　　但是转化的效果真的参差不齐。易用性也不一样。有些要求您编写自己的脚本来完成操作。

　　其中转换效果好、使用方便的多为收费。而且有些真的不便宜。

　　几经查找对比，终于找到了一款免费好用的工具。而且经过实践尝试，发现转换效果良好。

　　在这里，我推荐给你。希望能帮助你在阅读和写作过程中提高PDF表格的数据收集效率。

　　装置的名字是Tabula，网站链接在这里。

　　该网站提供了Windows和macOS版本的下载链接，以及相应的源代码。

　　我的操作系统是macOS，这里以macOS版本为例。如果使用Windows，操作也是类似的。

　　请点击相应的链接下载并安装。

　　MacOS系统下载安装文件的压缩包，解压后会出现这样的目录。

　　双击其中的Tabula.app，在浏览器中就可以看到这样的Web界面。

　　让我们试着转换一个PDF文件。

　　在这里，我以伯特论文中的表单集合为例，告诉你如何使用Tabula。

　　点击上图中的浏览按钮，选择硬盘上的PDF文件。

　　然后点击导入按钮进行导入。

　　导入的PDF文章将显示在pages中。

　　你只需要翻到相应的页面，用鼠标勾选表格区域。

　　然后点击右上方绿色的“预览并导出提取的数据”按钮，就可以看到提取结果了。

　　然后，点击导出按钮，可以将结果导出为CSV格式，并在Excel中打开。

　　但是，在一些复杂表格的提取中，不同的列可能会被错误地放在一起。

　　比如选择这种形式的时候。

　　导出的结果如下所示：

　　我该怎么办？

　　其实并不难处理。

　　我们先将自动转换结果导出为CSV，然后用Excel打开。

　　以这里的第一列为例。显然，这里的三列数据加在一起是

挤在了

。

　　幸运的是，因为这些数据都是用空格隔开的，所以拆分起来并不困难。

　　我们创建两个新的空列来容纳新分解的数据。

　　然后在第一列中选择要拆分的数据。

　　进入数据菜单，选择文本到列按钮。

　　在折叠的上方，一直往前走。

　　在第二个屏幕上，选择空格作为分段符号。

　　点击完成，就这样。

　　你看，拆分成功了吗？

　　总结看完这篇教程，希望你掌握了以下技巧：

　　你遇到的功能需求，可能早就被别人解决了。所以可以找工具解决，而不是非要交

重复发明轮子

；

　　工具搜索，需要掌握

主动搜索的技巧

。这样，可以快速定位候选人。这里有一个搜索引擎技巧的教程，链接在这里；

　　学习使用Tabula自动将表格从PDF文档转换为Excel可读的CSV格式；

　　可以使用Excel快速调整没有正确列出的转换结果。

　　祝你学习进步！

　　延伸阅读你可能也会对以下话题感兴趣。点击链接查看。

　　如何批量将Markdown文件转换成pdf？

　　如何用iPad运行Python代码？

　　如何使用Sikuli自动录入分数？

　　如何高效学习Python？

　　055-79000分享

　　请喜欢，打赏。也可以在微信关注并置顶我的微信官方账号“nkwangshuyi”。

　　如果你对Python和数据科学感兴趣，不妨看看我的系列教程索引贴《文科生用机器学习做论文，该写些什么？》，里面有更多有趣的问题和解决方法。

　　由于微信微信官方账号外部链接的限制，本文部分链接可能无法正确打开。如有需要，请点击文末“阅读原文”按钮，访问可以正常显示外部链接的版本。

　　星球的入口在这里：

怎么把excel格式转换成csv,如何把excel转换为csv

万老网

怎么把excel格式转换成csv,如何把excel转换为csv

BERT

对比

低效

挤在了

重复发明轮子

主动搜索的技巧

猜你喜欢

最近发表

win10启动恢复环境是什么意思,windows是一项服务,更新是使它保持

idea配置tomcat和jdk,idea配置本地gradle

apache tomcat安装教程,如何下载apache tomcat

github 爬虫监控,github 爬虫监控框架

如何用max函数求最大值,最大值max最小值是啥

提高阈值召回率和准确率怎么变化,阈值增大准确率召回率

tensorflow安装失败是什么原因,测试tensorflow gpu是否安装成功

无法安装pyinstaller,pyinstaller找不到文件

matlab画多个图在同一个窗口,matlab将多个图画在一起

对于分类变量定义的一般规则是哑变量个数,哑变量的定义