유틸

Word 문서에서 텍스트 추출하기, xdoc2txt

__observer__ 2015. 1. 12. 18:00
반응형

Word 문서 등을 사용하다 보면 문서 내의 텍스트를 추출해야 하는 경우가 경우가 종종 있습니다.

 

하지만 이런 바이너리 파일의 경우 전용 프로그램을 실행해서 문서를 열지 않는 이상 텍스트를 추출할 수 없는 경우가 대부분입니다.

 

그래서 검색을 좀 하다 보니 xdoc2txt 라는 프로그램이 나오더군요. xdoc2txt 의 홈페이지는 아래 주소와 같습니다.

 

http://ebstudio.info/home/xdoc2txt.html

 

일본에서 만든 프로그램 같은데 Free 더군요. 아쉽게도 window 외의 다른 운영체제에서는 동작하지 않는 듯 합니다.

 

일본어 홈페이지 이지만 구글 번역을 사용하니 다운로드 하거나 하는데 문제 될 것은 없더군요.

 

위 페이지를 죽~ 내려 보면 아래 그림과 같이 다운로드 페이지가 나옵니다.

 

 

저는 위 목록 중 유니코드 버전 중에서 xdoc2txt 2.07 (xd2tx207.zip) 을 다운로드 받았습니다.

 

압축 해제 후에 command 폴더에 xdoc2txt.exe 파일이 들어 있습니다.

 

아래 그림과 같이 명령을 하면 test.docx 파일로부터 텍스트를 추출하여 sample.txt 파일에 저장합니다.

 

xdoc2txt.exe -u test.docx > sample.txt

 

 

 

위 명령어 중 –u 옵션은 Unicode 로 저장하라는 뜻입니다.

 

다음과 같이 -p 옵션을 주게 되면 해당 문서에 대한 정보를 알려 줍니다. 단어 수, 문자 수, 소유자, 수정 시간 등을 확인 할 수 있습니다.

 

xdoc2txt.exe -p test.docx

 

 

아래 주소에서 소개하고 있는 xdocdiff 와 같은 툴도 xdoc2txt 을 사용하는 것 같더군요.

 

http://freemind.s57.xrea.com/xdocdiff/e/index.html

 

SVN 에서 문서 파일의 경우 비교가 어려웠는데 xdocdiff 을 사용하면 가능 할 것 같네요.

반응형