编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

将PDF文献中的表格 导出为EXCEL形式的表格

wxchong 2024-08-18 00:32:46 开源技术 15 ℃ 0 评论

只要在一起就能如此默契。今天分享一个在一起的技巧,即如何将 PDF 上的 Excel 格式转换为可编辑的表格。如果 PDF 是以表格形式呈现的,那么该如何提取这些表格呢?这里介绍了一种使用 Python 的方法。

首先需要安装 pd 和 pdmm 这两个数据库。pd 用于处理 PDF,而 pdmm 则用于处理图像。

接着导入 pd 库,指定 PDF 文件的路径。然后提取表格数据。需要将提取的数据转换为 Pandas 数据格式,以便进行后续处理。

最后将表格数据保存在 Excel 文件中。

导出完成后,可以在安装 Python 的默认路径中找到表格数据。打开文件并检查是否有缺失的表格行。

这就是提取出的表格,可以看到它包含了所有页面的数据,但格式为图片形式。

表格的行数可能不一致,需要根据实际情况进行调整。

这是导出的表格,可以看到它包含了所有页面的数据,但格式为图片形式。

表格的行数可能不一致,需要根据实际情况进行调整。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表