'OCR' 카테고리의 글 목록

OCR

Tesseract 셋업 2023.08.19

Tesseract 셋업

아무거나 정리해 2023. 8. 19. 23:04

2023. 8. 19. 23:04

□ 허깅페이스 https://huggingface.co/models?pipeline_tag=image-to-text&sort=trending

□ PATH
C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

□ OCR 엔진을 활용한 글자 인식 / 텍스트로 인식된 영역의 위치 bounding box로 표시
https://velog.io/@rlagksql219/python-Tesseract-OCR-%EA%B8%80%EC%9E%90-%EC%9D%B8%EC%8B%9D-qcsivues

□ Path 설정 문제
여기서 다운하여 설치 - 기존 설치 파일 제거됨
https://github.com/UB-Mannheim/tesseract/wiki
tesseract-ocr-w64-setup-5.3.1.20230401 파일 다운로드 했음

□ pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

download binary fromhttps://github.com/UB- Mannheim/tesseract/wiki.then add pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract- OCR\tesseract.exe' to your script.

□ 두 경로에 설치됨
# C:\Program Files (x86)\Tesseract-OCR -> 에러발생
# C:\Program Files\Tesseract-OCR -> 동작함
환경 변수의 path가 x86으로 설절되어

□ 한글 문제 한글파일 다운받아서 아래 폴더에 추가하여 해결
한글 파일 : kor.traineddata
경로 : C:\Program Files\Tesseract-OCR\tessdata

□ 샘플코드

import pytesseract
from PIL import Image

# image_path = './images/이야기가 있는 숲.jpg'
# image_path = './images/지금무료체험시작하기.png'
# image_path = './images/문자인식.jpg'
image_path = './images/Acrobat.png'
# image_path = './images/educba.png'

image = Image.open(image_path)

# C:\Program Files (x86)\Tesseract-OCR -> 에러발생
# C:\Program Files\Tesseract-OCR

pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
config = ' -l eng --oem 3 --psm 11 --tessdata-dir "C:/Program Files/Tesseract-OCR/tessdata"'   # kor+eng / kor / eng
extracted_text = pytesseract.image_to_string(image, config=config)

print(extracted_text)

PREV 이전 1 NEXT 다음

유용한 메모장

OCR

Tesseract 셋업

+ Recent posts

티스토리툴바