如何将 PDF 表格数据免费转换到 Excel ?

论坛 期权论坛     
选择匿名的用户   2021-6-2 18:14   57   0
<div class="rich_media_content" id="js_content">
<figure style="font-size:inherit;color:inherit;line-height:inherit;">
  <img alt="640?wx_fmt&#61;png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-781f2ce185172d9bf040e40453a93e8c" style="font-size:inherit;color:inherit;line-height:inherit;margin-left:auto;" title="">
</figure>
<p style="font-size:inherit;color:inherit;line-height:inherit;">所见即所获,提升你的数据采集效率。</p>
<h1 style="color:inherit;line-height:inherit;font-weight:bold;font-size:1.6em;"><span style="font-size:inherit;color:inherit;line-height:inherit;">需求</span></h1>
<p style="font-size:inherit;color:inherit;line-height:inherit;">写了那篇《<a href="https://mp.weixin.qq.com/s?__biz&#61;MzIyODI1MzYyNA&#61;&#61;&amp;mid&#61;2653540360&amp;idx&#61;1&amp;sn&#61;efe357c982f934f9c29e03ec660f2d45&amp;scene&#61;21#wechat_redirect" style="font-size:inherit;line-height:inherit;color:rgb(30,107,184);">如何用Python批量提取PDF文本内容?</a>》后,我在后台收到了许多留言。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">不少读者询问,如果是 PDF 文件中的表格呢?能否正确转换?</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">我当时没有理解这种需求。因为那篇文章谈的主要是把文本抽取出来,目的主要是进行下一步的自然语言处理。这种 PDF 文件中大量的内容,都是文字。表格在其中,只占非常小的比例。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">《<a href="https://mp.weixin.qq.com/s?__biz&#61;MzIyODI1MzYyNA&#61;&#61;&amp;mid&#61;2653540360&amp;idx&#61;1&amp;sn&#61;efe357c982f934f9c29e03ec660f2d45&amp;scene&#61;21#wechat_redirect" style="font-size:inherit;line-height:inherit;color:rgb(30,107,184);">如何用Python批量提取PDF文本内容?</a>》一文提供的工具<code style="font-size:inherit;line-height:inherit;margin-left:2px;color:rgb(233,105,0);background:rgb(248,248,248);">pdf_extractor</code> 会保留表格里面的数据,但是结构信息基本就被丢弃掉了。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">表格转换,属于结构化数据提取。这和我当时文章所谈的主旨不同。所以我没有一一回复。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">然而,最近我自己也遇到了这种需求。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">我需要从一些论文的表格中,抽取一些数据。尤其是一些对比结果的列表。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">在机器学习的论文中,总会有这种对比表格。主要是把目前模型的结果,与基准线或者当前最好的结果进行比对,从而说明论文的价值和意义。我在《<a href="http://mp.weixin.qq.com/s?__biz&#61;MzIyODI1MzYyNA&#61;&#61;&amp;mid&#61;2653540483&amp;idx&#61;1&amp;sn&#61;8d876a47e22146057702ab7f28ff33d1&amp;chksm&#61;f389ba54c4fe3342b1bf342ffbb6f8bcad89315093336e16f7bbdd9204a8627a6880d575cd0a&amp;scene&#61;21#wechat_redirect" style="font-size:inherit;line-height:inherit;color:rgb(30,107,184);">文科生用机器学习做论文,该写些什么?</a>》一文里,专门给你谈过这种对比的选择。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">例如这样的:</p>
<figure style="font-size:inherit;color:inherit;line-height:inherit;">
  <img alt="640?wx_fmt&#61;jpeg" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-9a0febb49bd24017a8ddde3ee6855809" style="font-size:inherit;color:inherit;line-height:inherit;margin-left:auto;" title="">
</figure>
<p style="font-size:inherit;color:inherit;line-height:inherit;">如果在跟踪自然语言处理进展的话,你一眼就能认出,这个表格来自于哪篇论文,对吧?</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">对,就是大名鼎鼎 <strong style="font-size:inherit;color:inherit;line-height:inherit;">BERT</strong> 语言模型。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">一方面,我们可能需要对论文表格中出现的一些数据进行统计计算。另一方面,我们也需要把部分结果,放在自己的论文里作为<strong style="font-size:inherit;color:inherit;line-height:inherit;">对比</strong>。而这些,如果都需要我们手动提取数据,然后再输入到程序中或者 Excel 里,会很<strong style="font-size:inherit;color:inherit;line-height:inherit;">低效</strong>。</p>
<p style="font-size:inherit;color:inherit;line-height:inherit;">我们需要一种简便的方法,帮助自己把 PDF 表格里面的信息,在尽可能保持格式的情况下,正确提取出来。</p>
<h1 style="color:inherit;line-height:inherit;font-weight:bold;font-size:1.6em;"><span style="font-size:inherit;color:inherit;line-height:inherit;">搜寻</span></h1>
<p style="font-size:inherit;color:inherit;line-height:inherit;">既然有了需求,我就开始搜集信息。我发现,目前支持从 PDF 中抽取表格的应用,其实还真不少。</p>
<figure style="font-size:inherit;color:inherit;line-height:in
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP