将PDF文献中的表格导出为EXCEL形式的表格

wxchong 2024-08-18 00:32:46 开源技术 94 ℃ 0 评论

只要在一起就能如此默契。今天分享一个在一起的技巧，即如何将 PDF 上的 Excel 格式转换为可编辑的表格。如果 PDF 是以表格形式呈现的，那么该如何提取这些表格呢？这里介绍了一种使用 Python 的方法。

首先需要安装 pd 和 pdmm 这两个数据库。pd 用于处理 PDF，而 pdmm 则用于处理图像。

接着导入 pd 库，指定 PDF 文件的路径。然后提取表格数据。需要将提取的数据转换为 Pandas 数据格式，以便进行后续处理。

最后将表格数据保存在 Excel 文件中。

导出完成后，可以在安装 Python 的默认路径中找到表格数据。打开文件并检查是否有缺失的表格行。

这就是提取出的表格，可以看到它包含了所有页面的数据，但格式为图片形式。

表格的行数可能不一致，需要根据实际情况进行调整。

这是导出的表格，可以看到它包含了所有页面的数据，但格式为图片形式。

表格的行数可能不一致，需要根据实际情况进行调整。

网站首页 > 开源技术正文