반응형

□ 허깅페이스 https://huggingface.co/models?pipeline_tag=image-to-text&sort=trending 


□ PATH
C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

□ OCR 엔진을 활용한 글자 인식 / 텍스트로 인식된 영역의 위치 bounding box로 표시
  https://velog.io/@rlagksql219/python-Tesseract-OCR-%EA%B8%80%EC%9E%90-%EC%9D%B8%EC%8B%9D-qcsivues

□ Path 설정 문제
 여기서 다운하여 설치 - 기존 설치 파일 제거됨
  https://github.com/UB-Mannheim/tesseract/wiki
 tesseract-ocr-w64-setup-5.3.1.20230401 파일 다운로드 했음

□ pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

  download binary fromhttps://github.com/UB-  Mannheim/tesseract/wiki.then add pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-  OCR\tesseract.exe' to your script.

□ 두 경로에 설치됨
  # C:\Program Files (x86)\Tesseract-OCR -> 에러발생
  # C:\Program Files\Tesseract-OCR -> 동작함
  환경 변수의 path가 x86으로 설절되어 

□ 한글 문제 한글파일 다운받아서 아래 폴더에 추가하여 해결
  한글 파일 : kor.traineddata
  경로 : C:\Program Files\Tesseract-OCR\tessdata

 

□ 샘플코드

import pytesseract
from PIL import Image

# image_path = './images/이야기가 있는 숲.jpg'
# image_path = './images/지금무료체험시작하기.png'
# image_path = './images/문자인식.jpg'
image_path = './images/Acrobat.png'
# image_path = './images/educba.png'

image = Image.open(image_path)

# C:\Program Files (x86)\Tesseract-OCR -> 에러발생
# C:\Program Files\Tesseract-OCR

pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
config = ' -l eng --oem 3 --psm 11 --tessdata-dir "C:/Program Files/Tesseract-OCR/tessdata"'   # kor+eng / kor / eng
extracted_text = pytesseract.image_to_string(image, config=config)

print(extracted_text)
반응형

+ Recent posts