본문 바로가기
유틸

Word 문서에서 텍스트 추출하기, xdoc2txt

by __observer__ 2015. 1. 12.
반응형

Word 문서 등을 사용하다 보면 문서 내의 텍스트를 추출해야 하는 경우가 경우가 종종 있습니다.

 

하지만 이런 바이너리 파일의 경우 전용 프로그램을 실행해서 문서를 열지 않는 이상 텍스트를 추출할 수 없는 경우가 대부분입니다.

 

그래서 검색을 좀 하다 보니 xdoc2txt 라는 프로그램이 나오더군요. xdoc2txt 의 홈페이지는 아래 주소와 같습니다.

 

http://ebstudio.info/home/xdoc2txt.html

 

일본에서 만든 프로그램 같은데 Free 더군요. 아쉽게도 window 외의 다른 운영체제에서는 동작하지 않는 듯 합니다.

 

일본어 홈페이지 이지만 구글 번역을 사용하니 다운로드 하거나 하는데 문제 될 것은 없더군요.

 

위 페이지를 죽~ 내려 보면 아래 그림과 같이 다운로드 페이지가 나옵니다.

 

 

저는 위 목록 중 유니코드 버전 중에서 xdoc2txt 2.07 (xd2tx207.zip) 을 다운로드 받았습니다.

 

압축 해제 후에 command 폴더에 xdoc2txt.exe 파일이 들어 있습니다.

 

아래 그림과 같이 명령을 하면 test.docx 파일로부터 텍스트를 추출하여 sample.txt 파일에 저장합니다.

 

xdoc2txt.exe -u test.docx > sample.txt

 

 

 

위 명령어 중 –u 옵션은 Unicode 로 저장하라는 뜻입니다.

 

다음과 같이 -p 옵션을 주게 되면 해당 문서에 대한 정보를 알려 줍니다. 단어 수, 문자 수, 소유자, 수정 시간 등을 확인 할 수 있습니다.

 

xdoc2txt.exe -p test.docx

 

 

아래 주소에서 소개하고 있는 xdocdiff 와 같은 툴도 xdoc2txt 을 사용하는 것 같더군요.

 

http://freemind.s57.xrea.com/xdocdiff/e/index.html

 

SVN 에서 문서 파일의 경우 비교가 어려웠는데 xdocdiff 을 사용하면 가능 할 것 같네요.

반응형

댓글