7

请教关于高效批量 PDF 转 TXT

 3 years ago
source link: https://www.v2ex.com/t/790958
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

V2EX  ›  程序员

请教关于高效批量 PDF 转 TXT

  leverestfish · 8 小时 20 分钟前 · 267 次点击

不需要 OCR 的,都是完全电子版的 PDF 文件。

最好是用脚本的比如 python,尝试过 pdfminer 感觉性能很弱鸡,鲁棒性也不够(也可能是我用的不对?在一个 1 核 2G 的云服务器上跑 50 页左右的,经常被强制 KILL );

实在不行也可以用软件,但是必须要能批量(手头文件很多)

谢谢大噶,被一个小需求烦死了,感觉市面上解决方案不多。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK