OCR 툴 Tesseract-OCR Windows 버전 사용하기
요즘 많은 분들이 알게 모르게 딥러닝 기술들을 실생활에서 사용을 하고 있습니다. 가장 가까이는 스마트폰을 통한 음성인식 기술들을 사용 하실 거고 번역 프로그램이나 SK T Map 등을 매우 자주 접하고 계실 거라고 생각합니다. OCR(Optical Character Recognition) 기술은 말 그대로 이미지로부터 글자를 인식하는 건데 예전부터 연구돼 왔지만 최근에 딥러닝 기술의 발달로 굉장히 빠르게 발전하고 있는 분야로 보입니다.
온라인에서 이미지로부터 텍스트를 추출하는 사이트로 아래와 같은 사이트들을 찾을 수가 있었습니다. OCR 툴을 설치할 필요 없이 빠르게 OCR 서비스만 이용하고 싶을 때 사용하시면 좋을 것 같습니다.
http://www.free-online-ocr.com/
위에서 소개한 웹사이트들을 사용하기 위해서는 이미지 파일을 업로드 해야 하는데 사정에 따라서 업로드가 안 되거나 업로드하기 곤란한 이미지가 있을 수 있습니다. 그럴 땐 어쩔 수 없이 OCR 툴을 설치해서 사용해야 하고 그래서 검색을 좀 해 보니 Tesseract-OCR 이라는 프로그램이 눈에 띄었습니다.
저는 현재 Windows 10 운영체제를 사용하고 있고 tesseract 윈도우 버전을 검색해 보니 아래 주소를 찾을 수 있었습니다.
https://github.com/UB-Mannheim/tesseract/wiki
아래 그림과 같이 3점대 버전이나 4점대의 베타버전 인스톨러를 다운로드 받아서 설치 하시면 됩니다.
저는 아래 그림과 같이 추가적인 스크립트, 언어 데이터를 체크를 해서 설치했습니다. 보통은 영어 한국어만 주로 사용하겠지만 기왕 설치하는거 그냥 다 설치 해 보자 하는 생각이 들어서 모두 다 설치하도록 체크를 했습니다.
저는 4점 대의 베타 버전을 다운로드 받아서 설치를 했는데 설치 중간에 없는 언어 파일들이 있더군요. 그런 파일들은 그냥 넘어가면서 설치를 완료 했습니다.
Tesseract-OCR 은 아래 폴더에 설치 되고~ 해당 주소를 path 환경 변수에 등록해 주셔야 아무 폴더에서나 Tesseract-OCR 을 사용할 수 있습니다. 설치하고 보니 64비트 프로그램을 설치 했는데 “Program Files (x86)“ 폴더에 설치 되는 것은 조금 특이하네요.
C:\Program Files (x86)\Tesseract-OCR
윈도우 환경변수 등록을 할 때는 아래 포스팅에서 소개했던 Rapid Environment Editor 를 사용해 보시기 바랍니다.
http://iamaman.tistory.com/1213
환경변수 등록까지를 마쳤으면~ 다음과 같이 cmd 창에서 Tesseract-OCR 을 사용할 수 있습니다.
위키백과의 한 부분을 캡처를 했고~ 해당 파일 이름은 PrtScrcapture_8.jpg 로 저장했습니다.
그리고 다음과 같이 tesseract 명령어를 사용했습니다. 한글을 인식하는 것이므로 -L 옵션에 kor 이라고 명시를 해 줬습니다.
tesseract PrtScrcapture_8.jpg test.txt -l kor
몇 초 지나서 test.txt 파일이 생성되고 확인해 보니~ 아래 그림과 같이 한글이 추출된 것을 확인할 수 있었습니다.
물론 이미지로부터의 한글 인식이 완벽한 것은 아니었지만 나름 볼 만한 수준이었던 걸로 보이고~ 위 캡처 내용을 보면 글자 색이 다른 부분이나 추가적인 이미지 등이 있는데 회색조로 변경하거나 하는 추가적인 이미지 처리를 한 후에 tesseract 를 사용하여 글자 인식을 한다면 조금 더 좋은 결과가 나오지 않을까 하는 생각이 들었습니다.