□ 허깅페이스 https://huggingface.co/models?pipeline_tag=image-to-text&sort=trending
□ PATH
C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
□ OCR 엔진을 활용한 글자 인식 / 텍스트로 인식된 영역의 위치 bounding box로 표시
https://velog.io/@rlagksql219/python-Tesseract-OCR-%EA%B8%80%EC%9E%90-%EC%9D%B8%EC%8B%9D-qcsivues
□ Path 설정 문제
여기서 다운하여 설치 - 기존 설치 파일 제거됨
https://github.com/UB-Mannheim/tesseract/wiki
tesseract-ocr-w64-setup-5.3.1.20230401 파일 다운로드 했음
□ pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
download binary fromhttps://github.com/UB- Mannheim/tesseract/wiki.then add pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract- OCR\tesseract.exe' to your script.
□ 두 경로에 설치됨
# C:\Program Files (x86)\Tesseract-OCR -> 에러발생
# C:\Program Files\Tesseract-OCR -> 동작함
환경 변수의 path가 x86으로 설절되어
□ 한글 문제 한글파일 다운받아서 아래 폴더에 추가하여 해결
한글 파일 : kor.traineddata
경로 : C:\Program Files\Tesseract-OCR\tessdata
□ 샘플코드
import pytesseract
from PIL import Image
# image_path = './images/이야기가 있는 숲.jpg'
# image_path = './images/지금무료체험시작하기.png'
# image_path = './images/문자인식.jpg'
image_path = './images/Acrobat.png'
# image_path = './images/educba.png'
image = Image.open(image_path)
# C:\Program Files (x86)\Tesseract-OCR -> 에러발생
# C:\Program Files\Tesseract-OCR
pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
config = ' -l eng --oem 3 --psm 11 --tessdata-dir "C:/Program Files/Tesseract-OCR/tessdata"' # kor+eng / kor / eng
extracted_text = pytesseract.image_to_string(image, config=config)
print(extracted_text)