怎么把excel格式转换成csv,如何把excel转换为csv
所见即所得,提高你的数据收集效率。
写完需求文章《如何用Python批量提取PDF文本内容?》,在后台收到很多消息。
很多读者问,如果是PDF文件里的表单呢?能正确转换吗?
我当时并不理解这种需求。因为那篇文章主要讲的是提取文本,其目的是自然语言处理的下一步。这个PDF文件里很多内容都是文字。其中,表格只占很小的比例。
文章755-79000中提供的工具pdf_extractor会保留表中的数据,但结构信息基本被丢弃。
表转换,属于结构化数据抽取。这和我当时的文章主旨不一样。所以没有一一回复。
不过最近我自己也遇到了这种需求。
我需要从一些论文的表格中提取一些数据。尤其是一些对比结果的列表。
在机器学习的论文中,总有这个对照表。主要是将当前模型的结果与基线或目前最好的结果进行比较,从而说明论文的价值和意义。在我的文章《如何用Python批量提取PDF文本内容?》里,我专门跟你谈过这个对比的选择。
例如:
如果你是在跟踪自然语言处理的进度,你一眼就能认出这个表格出自哪篇论文,对吧?
没错,就是著名的
BERT
语言模型。一方面,我们可能需要对纸质表格中出现的一些数据进行统计计算。另一方面,我们也需要把一些结果放在自己的论文里作为
对比
。而这些,如果需要我们手动提取数据,然后输入到程序或者Excel中,会很低效
。我们需要一种简单的方法来帮助自己正确提取PDF格式的信息,同时尽可能保持格式。
现在有了搜索的需求,我开始收集信息。我发现目前有相当多的应用支持从PDF中提取表格。
但是转化的效果真的参差不齐。易用性也不一样。有些要求您编写自己的脚本来完成操作。
其中转换效果好、使用方便的多为收费。而且有些真的不便宜。
几经查找对比,终于找到了一款免费好用的工具。而且经过实践尝试,发现转换效果良好。
在这里,我推荐给你。希望能帮助你在阅读和写作过程中提高PDF表格的数据收集效率。
装置的名字是Tabula,网站链接在这里。
该网站提供了Windows和macOS版本的下载链接,以及相应的源代码。
我的操作系统是macOS,这里以macOS版本为例。如果使用Windows,操作也是类似的。
请点击相应的链接下载并安装。
MacOS系统下载安装文件的压缩包,解压后会出现这样的目录。
双击其中的Tabula.app,在浏览器中就可以看到这样的Web界面。
让我们试着转换一个PDF文件。
在这里,我以伯特论文中的表单集合为例,告诉你如何使用Tabula。
点击上图中的浏览按钮,选择硬盘上的PDF文件。
然后点击导入按钮进行导入。
导入的PDF文章将显示在pages中。
你只需要翻到相应的页面,用鼠标勾选表格区域。
然后点击右上方绿色的“预览并导出提取的数据”按钮,就可以看到提取结果了。
然后,点击导出按钮,可以将结果导出为CSV格式,并在Excel中打开。
但是,在一些复杂表格的提取中,不同的列可能会被错误地放在一起。
比如选择这种形式的时候。
导出的结果如下所示:
我该怎么办?
其实并不难处理。
我们先将自动转换结果导出为CSV,然后用Excel打开。
以这里的第一列为例。显然,这里的三列数据加在一起是
挤在了
。幸运的是,因为这些数据都是用空格隔开的,所以拆分起来并不困难。
我们创建两个新的空列来容纳新分解的数据。
然后在第一列中选择要拆分的数据。
进入数据菜单,选择文本到列按钮。
在折叠的上方,一直往前走。
在第二个屏幕上,选择空格作为分段符号。
点击完成,就这样。
你看,拆分成功了吗?
总结看完这篇教程,希望你掌握了以下技巧:
你遇到的功能需求,可能早就被别人解决了。所以可以找工具解决,而不是非要交
重复发明轮子
;工具搜索,需要掌握
主动搜索的技巧
。这样,可以快速定位候选人。这里有一个搜索引擎技巧的教程,链接在这里;学习使用Tabula自动将表格从PDF文档转换为Excel可读的CSV格式;
可以使用Excel快速调整没有正确列出的转换结果。
祝你学习进步!
延伸阅读你可能也会对以下话题感兴趣。点击链接查看。
如何批量将Markdown文件转换成pdf?
如何用iPad运行Python代码?
如何使用Sikuli自动录入分数?
如何高效学习Python?
055-79000分享
请喜欢,打赏。也可以在微信关注并置顶我的微信官方账号“nkwangshuyi”。
如果你对Python和数据科学感兴趣,不妨看看我的系列教程索引贴《文科生用机器学习做论文,该写些什么?》,里面有更多有趣的问题和解决方法。
由于微信微信官方账号外部链接的限制,本文部分链接可能无法正确打开。如有需要,请点击文末“阅读原文”按钮,访问可以正常显示外部链接的版本。
星球的入口在这里: