Как установить tesseract python

Применение OCR Tesseract совместно с Python

Как показывают исследования, Tesseract лучше всего справляется с работой, когда существует чёткое отделение текста переднего плана от фона. На практике это гарантировать чрезвычайно сложно. Следовательно, необходимо обучать классификаторы и детекторы, специфичные для данной задачи.

Тем не менее будет полезно воспользоваться OCR tesseract через язык программирования Python, когда нужно применить OCR к собственным проектам, при условии, что будут получены хорошие и чистые тексты.

Примеры таких проектов с OCR могут быть мобильный сканер документов, из которых нужно извлечь текстовую информацию или служба, которая сканирует бумажные медицинские карточки для размещения этой информации в базе данных…

В этой статье будет рассказано, как установить пакет Tesseract OCR для Python, а затем напишем простой Python скрипт для распознавания текста с картинок.

Установка пакета Tesseract для Python

Чтобы установить pytesseract воспользуемся менеджером пакетов Python pip. Также рекомендуется использовать виртуальную среду чтобы устанавливать свой набор пакетов для разных проектов. В данном случае virtualenv называется cv.

Затем установим Pillow (удобный клон PIL для Python) от которого зависит pytesseract.

Примечание: pytesseract не обеспечивает настоящей привязки к Python. Скорее, он является простой обёрткой для двоичного файла tesseract. Если познакомиться с проектом по подробнее, то станет ясно, что библиотека сохраняет изображение во временный файл на диске, а затем вызывает двоичный файл tesseract и полученный результат записывает в файл.

Рассмотрим код, который отделяет текст переднего плана от фона, а затем применим установленный pytesseract.

Распознавание текста с помощью Tesseract и Python

Создадим файл с именем ocr.py:

Теперь применим OCR к изображению, используя pytesseract:

Вызов оператора pytesseract.image_to_string преобразует изображение в строку текста. Обратите внимание, что была передана ссылка на временный файл картинки.

print(text) – распечатывает результата распознавания скрипта в терминал. В ваших собственных приложениях вы можете выполнить некоторые дополнительные действия, например, проверку орфографии или обработку естественного языка.

В заключении, строки с cv2.imshow обрабатывают исходное и предварительно обработанное изображение на экране в отдельных окнах. input(‘pause…’) сообщает программе, что нужно ожидать пользовательского нажатия клавиши перед выходом из сценария.

Результаты OCR

Теперь, когда готов ocr.py протестируем его для выполнения OCR на некоторых примерах входных изображений.

В этом разделе проверим OCR двух образцов изображений.

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Это изображение содержит на переднем плане текст черного цвета на фоне, который частично белый и частично рассеянный с искусственно создаваемыми круговыми пятнами.

В этом случае Tesseract отлично справился с ошибками. Теперь подтвердим, что скрипт ocr.py также работает:

Скрипт правильно распознал текстовое содержимое из изображения выведя его в консоль.

Затем протестируем Tesseract и наш скрипт на изображении, предварительно обработанным фильтром с шумом «соль и перец».

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Результаты работы двоичного файла tesseract:

К сожалению, tesseract не смог распознать текст без ошибок.

Однако, используя метод предварительной обработки blur в ocr.py, можем получить лучшие результаты, для этого установим переменную preprocess в blur.

Этап предварительной обработки blur позволило Tesseract правильно распознать OCR и вывести желаемый текст.

Таким образом были получены приемлемые результаты с tesseract для OCR, но лучшая точность будет получена от обучения пользовательских классификаторов символов на определенных наборах шрифтов, которые используются на реальных изображениях.

Примечание. Если текст повернут, нужно также выполнить предварительную обработку.

Резюме

В этой статье было продемонстрировано применение OCR движка tesseract с языком программирования Python. Что позволило нам применять алгоритмы OCR из собственных сценариев Python.

Самый большой недостаток связан с ограничениями самого Tesseract – он работает когда на переднем плане есть чрезвычайно чистые фрагменты текста. Кроме того, эти фрагменты должны быть как можно более высокого разрешения (DPI), а символы входного изображения не были подвергнуты «пикселированию» после сегментации.

OCR не является новой технологией, но по-прежнему является областью исследований в компьютерной науке, особенно при применении OCR к реальным изображениям. Глубокое обучение и сверточные нейронные сети (CNN), безусловно, позволяют получать более высокую точность, но до почти идеальной системы распознавания ещё очень далеко. Кроме того, сейчас предлагается много OCR приложений на разных сайтах, в которых применены лучшие из алгоритмов распознавания, но они являются коммерческими и требуют лицензирования для использования в собственных проектах.

Если ни Tesseract, ни сторонние сервисы не предоставят достаточной точности, то нужно переосмыслить свой набор данных и задуматься о обучении своего классификатора символов. Это особенно предпочтительно, если набор данных зашумлён и/или содержит очень специфические шрифты. Примеры конкретных шрифтов включают в себя цифры на кредитной карте, номера счета и номера маршрута, найденные в проездных билетах или стилизованный текст, используемый в графическом дизайне.

Источник

Не пойму как установить pytesseract

Решение

Никак не могу разобраться как запустить этот код.

Установил Tesseract OCR по этому гайду https://www.youtube.com/watch. lroundZone и на ввод в консоль tesseract он отзывается.
В переменных средах->системные переменные среды PATH указал где находится Tesseract OCR
Установил opencv-python c помощью pip install opencv-python

Установил pytesseract pip install pytesseract

Выводит во это:
PS E:\py projects\content> e:; cd ‘e:\py projects\content’; & ‘python’ ‘c:\Users\dkati\.vscode\extensions\ms-python.python-2021.3.680753044\pythonFiles\lib\python\debugpy\launcher’ ‘55678’ ‘—‘ ‘e:\py projects\content\img_to_str.py’
Traceback (most recent call last):
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ite-packages\pytesseract\pytesseract.py», line 255, in run_tesseract
proc = subprocess.Popen(cmd_args, **subprocess_args())
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ubprocess.py», line 947, in __init__
self._execute_child(args, executable, preexec_fn, close_fds,
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ubprocess.py», line 1416, in _execute_child
hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] Не удается найти указанный файл

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File «e:\py projects\content\img_to_str.py», line 6, in
like=pytesseract.image_to_string(img,config=’outputbase digits’)
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ite-packages\pytesseract\pytesseract.py», line 409, in image_to_string
return <
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ite-packages\pytesseract\pytesseract.py», line 412, in
Output.STRING: lambda: run_and_get_output(*args),
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ite-packages\pytesseract\pytesseract.py», line 287, in run_and_get_output
run_tesseract(**kwargs)
File «C:\Users\dkati\AppData\Local\Programs\Python\Python39\lib\s ite-packages\pytesseract\pytesseract.py», line 259, in run_tesseract
raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
PS E:\py projects\content>

Добавлено через 41 минуту
Нашел решение данной проблемы. После всей установки и танцев с бубном нужно перезагрузить windows

Источник

pytesseract 0.3.8

pip install pytesseract Copy PIP instructions

Released: Jun 28, 2021

Python-tesseract is a python wrapper for Google’s Tesseract-OCR

Navigation

Project links

Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

License: Apache Software License (Apache License 2.0)

Tags python-tesseract, OCR, Python

Maintainers

Classifiers

Project description

Python-tesseract is an optical character recognition (OCR) tool for python. That is, it will recognize and “read” the text embedded in images.

Python-tesseract is a wrapper for Google’s Tesseract-OCR Engine. It is also useful as a stand-alone invocation script to tesseract, as it can read all image types supported by the Pillow and Leptonica imaging libraries, including jpeg, png, gif, bmp, tiff, and others. Additionally, if used as a script, Python-tesseract will print the recognized text instead of writing it to a file.

USAGE

Quickstart

Note: Test images are located in the tests/data folder of the Git repo.

Support for OpenCV image/NumPy array objects

Add the following config, if you have tessdata error like: “Error opening data file…”

Functions

Parameters

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING, timeout=0, pandas_config=None)

INSTALLATION

Python-tesseract requires Python 3.6+

You will need the Python Imaging Library (PIL) (or the Pillow fork). Under Debian/Ubuntu, this is the package python-imaging or python3-imaging.

Install Google Tesseract OCR (additional info how to install the engine on Linux, Mac OSX and Windows). You must be able to invoke the tesseract command as tesseract. If this isn’t the case, for example because tesseract isn’t in your PATH, you will have to change the “tesseract_cmd” variable pytesseract.pytesseract.tesseract_cmd. Under Debian/Ubuntu you can use the package tesseract-ocr. For Mac OS users. please install homebrew package tesseract.

Note: Make sure that you also have installed tessconfigs and configs from tesseract-ocr/tessconfigs or via the OS package manager.

Check the pytesseract package page for more information.

Источник

Русские Блоги

Установите tesseract и python под linux и используйте tesseract-ocr для распознавания изображений

Установить под centos:

Centos7 устанавливает зависимые библиотеки

Установите системные зависимости centos

Ниже приведено программное обеспечение, необходимое для установки системы Linux.
Если openssl не установлен, появится сообщение об ошибке «Команда‘ gcc ’завершилась неудачно со статусом выхода 1».

Если tesseract3.0 установите leptonica 1.7.2

Загрузите отсюда архив autoconf, распакуйте его, загрузите на сервер и установите

Установка glib должна быть установлена ​​следующим образом

Ниже приведены библиотеки, необходимые для установки python.

метод установки ubuntu

sudo apt-get install tesseract-ocr

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake

1. установка тессеракт-окр
sudo apt-get install tesseract-ocr

2. установка pytesseract
sudo pip install pytesseract

3. Установка подушки
sudo pip install pillow

В centos появляется следующая ошибка 1:

pytesseract.pytesseract.TesseractError: (127, u’tesseract: error while loading shared libraries: libtesseract.so.3: cannot open shared object file: No such file or directory’)

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Это связано с тем, что путь к библиотеке LIBTOOL.m4 aclocal настроен неправильно
Решение:
— просмотреть путь к aclocal

Сначала проверьте путь:

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Приложение представляет собой полную последовательность установки:

Если вы ранее установили tesseract3.0, вам необходимо удалить старую версию

Затем установите tesseract4.0, если вы запустите tesseract, команду не удастся найти
Просто скопируйте файл / root / local / bin / tesseract в каталог / usr / bin /
Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Источник

Русские Блоги

Установка библиотеки Tesseract-oct в сочетании с pytesseract для распознавания изображений

Рабочая среда:

(1) Загрузка библиотеки tesseract-ocr:

Это движок с открытым исходным кодом Google, эффект использования лучше

Тем не менее, скорость установки слишком низкая (хотя упрощенный пакет установки chi-sim на китайском языке составляет всего 4 МБ, скорость загрузки 10 Кбит / с действительно трогательна, и кажется, что нет очевидного улучшения скорости при работе через стену), рекомендуется выбирать меньше при проверке дополнительных языковых данных. Для некоторых из них автор проверил только математическую библиотеку и упростил китайский язык. При необходимости вы можете выбрать небольшие языки, такие как японский и корейский.

После завершения установки вам необходимо настроить две переменные среды (автор здесь, чтобы сделать крупную сделкуКак установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract pythonДругие блогеры, кажется, редко упоминают об этом)

Для получения подробной информации, пожалуйста, смотрите подробный учебник Baidu ExperienceНажмите, чтобы открыть ссылку

(2) библиотека Pytesseract

Это соответствующая библиотека распознавания Python. С этой библиотекой вы можете напрямую вызывать tesseract-ocr в Python

ПервыйНажмите, чтобы открыть ссылкуЗагрузите установочный пакет здесь, а затем используйте pip install pytesseract для его установки

После установки его нельзя запустить напрямую. Вам нужно добавить путь к ранее загруженному tesseract-ocr в pytesseract.py

Добавьте метод пути один:

import pytesseract
pytesseract.pytesseract.tesseract_cmd = ‘ ‘
# Include the above line, if you don’t have tesseract executable in your PATH
# Example tesseract_cmd: ‘C:\\Program Files (x86)\\Tesseract-OCR\\tesseract’

Добавьте второй метод пути:

Можно также перейти к В файле pytesseract.py замените tesseract_cmd = ‘tesseract’ на tesseract_cmd = r’C: \ Program Files (x86) \ Tesseract-OCR \ tesseract.exe ‘Используйте r для обработки без удаления

(Обратитесь к https://blog.csdn.net/bigzhao_25/article/details/52350781 здесь, чтобы поблагодарить блоггера)

Это сможет успешно установить

Кроме того, вы можете использовать pip install tesserocr Pillow для установки tesserocr, но pip обычно сообщает об ошибках, и вам сначала нужно установить whl и другие файлы, что более проблематично.Автор неуспешен, и библиотека pytesseract также может быть использована, поэтому я слишком ленив для установки tesserocr

(3) PIL доступен в Anaconda, прост в установке, поэтому я не буду его повторять

Пример операции:

(1) Операция командной строки Tesseract-ocr: Откройте консоль в каталоге установки.

Введите tesseract, если появляется следующая команда справки, это означает, что установка tesseract-ocr прошла успешно, и настройка переменных среды не вызывает проблем.

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

В демонстрационных целях для доступа к изображениям используется только относительный путь, поэтому заранее поместите изображение с текстом в каталог установки.

(2) Вызовите pytesseract:

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Я заранее перехватил изображение TensorFlow и поместил его в каталог файлов pycharm, и сохранил его как tennsflow.png (если вы используете абсолютный путь, вы можете поместить его по желанию)

Тогда вы можете запустить код

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Обратите внимание на настройку порога при бинаризации, потому что у этого изображения слабый контраст желтого и белого цветов, а цвет фона относительно светлый, поэтому вам нужно увеличить порог, в противном случае бинаризация будет частью белого цвета, и распознавание не удастся

Код здесь просто показывает распознавание текста на английском языке, другое использование может относиться кНажмите, чтобы открыть ссылкуВ учебнике.

Например, следующий код может использоваться для идентификации языков, отличных от английского и цифр.

подводить итоги:

Библиотека tesseract-ocr очень полезна, с открытым исходным кодом и бесплатна, а эффект распознавания относительно хорош после обработки бинаризации изображения. Код проверки может быть распознан в сканере, а затем реализован имитированный вход в систему.

Далее, автор будет использовать селен, tesseract-ocr, PIL для имитации входа в систему и попыток автоматического выбора курса на веб-сайте выбора курса физического эксперимента Университета Бейхан (вы должны ввести проверочный код, чтобы войти, вы усложняете мне задачу). Будет поделено, пожалуйста, с нетерпением жду этого.

Интеллектуальная рекомендация

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Измените имя хоста, сопоставьте IP-адрес и имя хоста, закройте вход в систему без пароля и пароля по selinux и SSH.

После изменения перезапустите виртуальный, и все будет в порядке. Чтобы мы могли соединяться друг с другом, не вводя IP-адрес в каждой виртуальной машине, мы должны сопоставить IP-адрес и имя хоста. З.

Как установить tesseract python. Смотреть фото Как установить tesseract python. Смотреть картинку Как установить tesseract python. Картинка про Как установить tesseract python. Фото Как установить tesseract python

Уханьский университет предложил самый большой в мире набор данных масок, закрывающих лица (ссылка для скачивания прилагается): RMFD

Предисловие НедавниеПолучить COVID-19(Новая коронавирусная пневмония) Пострадавшие от эпидемии научные круги и промышленность последовательно использовали технологии искусственного интеллекта, чтобы п.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *