怎么把excel格式转换成csv,如何把excel转换为csv

  怎么把excel格式转换成csv,如何把excel转换为csv

  所见即所得,提高你的数据收集效率。

  写完需求文章《如何用Python批量提取PDF文本内容?》,在后台收到很多消息。

  很多读者问,如果是PDF文件里的表单呢?能正确转换吗?

  我当时并不理解这种需求。因为那篇文章主要讲的是提取文本,其目的是自然语言处理的下一步。这个PDF文件里很多内容都是文字。其中,表格只占很小的比例。

  文章755-79000中提供的工具pdf_extractor会保留表中的数据,但结构信息基本被丢弃。

  表转换,属于结构化数据抽取。这和我当时的文章主旨不一样。所以没有一一回复。

  不过最近我自己也遇到了这种需求。

  我需要从一些论文的表格中提取一些数据。尤其是一些对比结果的列表。

  在机器学习的论文中,总有这个对照表。主要是将当前模型的结果与基线或目前最好的结果进行比较,从而说明论文的价值和意义。在我的文章《如何用Python批量提取PDF文本内容?》里,我专门跟你谈过这个对比的选择。

  例如:

  如果你是在跟踪自然语言处理的进度,你一眼就能认出这个表格出自哪篇论文,对吧?

  没错,就是著名的

BERT

语言模型。

  一方面,我们可能需要对纸质表格中出现的一些数据进行统计计算。另一方面,我们也需要把一些结果放在自己的论文里作为

对比

。而这些,如果需要我们手动提取数据,然后输入到程序或者Excel中,会很

低效

  我们需要一种简单的方法来帮助自己正确提取PDF格式的信息,同时尽可能保持格式。

  现在有了搜索的需求,我开始收集信息。我发现目前有相当多的应用支持从PDF中提取表格。

  但是转化的效果真的参差不齐。易用性也不一样。有些要求您编写自己的脚本来完成操作。

  其中转换效果好、使用方便的多为收费。而且有些真的不便宜。

  几经查找对比,终于找到了一款免费好用的工具。而且经过实践尝试,发现转换效果良好。

  在这里,我推荐给你。希望能帮助你在阅读和写作过程中提高PDF表格的数据收集效率。

  装置的名字是Tabula,网站链接在这里。

  该网站提供了Windows和macOS版本的下载链接,以及相应的源代码。

  我的操作系统是macOS,这里以macOS版本为例。如果使用Windows,操作也是类似的。

  请点击相应的链接下载并安装。

  MacOS系统下载安装文件的压缩包,解压后会出现这样的目录。

  双击其中的Tabula.app,在浏览器中就可以看到这样的Web界面。

  让我们试着转换一个PDF文件。

  在这里,我以伯特论文中的表单集合为例,告诉你如何使用Tabula。

  点击上图中的浏览按钮,选择硬盘上的PDF文件。

  然后点击导入按钮进行导入。

  导入的PDF文章将显示在pages中。

  你只需要翻到相应的页面,用鼠标勾选表格区域。

  然后点击右上方绿色的“预览并导出提取的数据”按钮,就可以看到提取结果了。

  然后,点击导出按钮,可以将结果导出为CSV格式,并在Excel中打开。

  但是,在一些复杂表格的提取中,不同的列可能会被错误地放在一起。

  比如选择这种形式的时候。

  导出的结果如下所示:

  我该怎么办?

  其实并不难处理。

  我们先将自动转换结果导出为CSV,然后用Excel打开。

  以这里的第一列为例。显然,这里的三列数据加在一起是

挤在了

  幸运的是,因为这些数据都是用空格隔开的,所以拆分起来并不困难。

  我们创建两个新的空列来容纳新分解的数据。

  然后在第一列中选择要拆分的数据。

  进入数据菜单,选择文本到列按钮。

  在折叠的上方,一直往前走。

  在第二个屏幕上,选择空格作为分段符号。

  点击完成,就这样。

  你看,拆分成功了吗?

  总结看完这篇教程,希望你掌握了以下技巧:

  你遇到的功能需求,可能早就被别人解决了。所以可以找工具解决,而不是非要交

重复发明轮子

  工具搜索,需要掌握

主动搜索的技巧

。这样,可以快速定位候选人。这里有一个搜索引擎技巧的教程,链接在这里;

  学习使用Tabula自动将表格从PDF文档转换为Excel可读的CSV格式;

  可以使用Excel快速调整没有正确列出的转换结果。

  祝你学习进步!

  延伸阅读你可能也会对以下话题感兴趣。点击链接查看。

  如何批量将Markdown文件转换成pdf?

  如何用iPad运行Python代码?

  如何使用Sikuli自动录入分数?

  如何高效学习Python?

  055-79000分享

  请喜欢,打赏。也可以在微信关注并置顶我的微信官方账号“nkwangshuyi”。

  如果你对Python和数据科学感兴趣,不妨看看我的系列教程索引贴《文科生用机器学习做论文,该写些什么?》,里面有更多有趣的问题和解决方法。

  由于微信微信官方账号外部链接的限制,本文部分链接可能无法正确打开。如有需要,请点击文末“阅读原文”按钮,访问可以正常显示外部链接的版本。

  星球的入口在这里:

怎么把excel格式转换成csv,如何把excel转换为csv