今亮点!用 Python 开发了一个 PDF 抽取表格的小工具
2022-06-22 05:38:06 来源:程序员客栈
(资料图片)
大家好哇从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过,所以,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,已把它部署到 huggingface ,同学可以直接去感受一下:
https://huggingface.co/spaces/beihai/PDF-Table-Extractor
使用方法准备一个PDF(暂不支持扫描版)
页面中上传PDF,也不支持200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。
上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提取完成,点击下载”
下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。
目前这个工具还在完善,比如直接抽取PDF中所有表格,敬请期待。
实现方法周末再公布吧,其实经常看我文章的同学应该都很熟悉了吧。之前在腾讯的这个算法,我搬到了网上,随便玩!一文中有介绍。
本文代码能在huggingface看到,其实也是刚刚调试好,觉得有用,期待三连。
关键词: 使用方法
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...