4

使用Pytessaract和OpenCV从PDF文件和图像中提取文本

 3 years ago
source link: https://panchuang.net/2021/08/07/%e4%bd%bf%e7%94%a8pytessaract%e5%92%8copencv%e4%bb%8epdf%e6%96%87%e4%bb%b6%e5%92%8c%e5%9b%be%e5%83%8f%e4%b8%ad%e6%8f%90%e5%8f%96%e6%96%87%e6%9c%ac/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

在本文中,我将与您分享一些简单的代码片段,您可以使用这些代码片段从图像或文件中提取文本。

我不打算过多地解释什么是光学字符识别、Pytessaract或™。本文的主要目的是帮助您实现提取文本😉的目标

图像到文本

让我们从一个简单的例子开始–Euro™‘s。

假设您有一张上面有文本的清晰图像(™)。只需使用以下代码即可。

输入图像

代码

输出

现在让我们进入一个更不明确的问题–EUROURE™‘s。

这是我用手机相机拍的一张照片。

前面的代码也会在这方面起作用。但产出将会像地狱一样凌乱不堪。请参见下面的内容。

当您处理这样的图像时,调整大小会很有帮助。尤其是当您处理的图像低于300dpi时。

然后是一点灰阶。

现在让我们来看看-euro™‘s的输出是什么样子。

比前一款更好😆

让?euro™再改进一点吧。

在OpenCV中有一种叫做自适应阈值的东西。这是一种将照明的空间变化考虑在内的阈值形式。(这是我从谷歌ğŸ˜:复制的)

现在让我们来看看-Euro™‘s的输出。

嘿!It‘uro™’s更好!Iâuro™我要从这里阻止它。你可以玩得更开心,提高得更多。ğŸ˜>

现在我将分享一段代码,您可以使用它从™中提取文本。

PDF转文本

我从网上随便拿到了一份pdf文件。It?uro™是一本儿童故事书😆?Euro™‘s试着提取它的文本。(PDF)pdf

输出

我将从这里停止™。我想这篇文章会对你有很大帮助的。

这是我的GitHub回购,其中包括所有这些代码:https://github.com/SandunAmarathunga/Text-Extractor-OCR-Pytessaracthttps://github.com/SandunAmarathunga/Text-Extractor-OCR-Pytessaract

另一篇文章再见。注意安全!戴上口罩!😷

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/08/07/%e4%bd%bf%e7%94%a8pytessaract%e5%92%8copencv%e4%bb%8epdf%e6%96%87%e4%bb%b6%e5%92%8c%e5%9b%be%e5%83%8f%e4%b8%ad%e6%8f%90%e5%8f%96%e6%96%87%e6%9c%ac/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK