Word 문서 등을 사용하다 보면 문서 내의 텍스트를 추출해야 하는 경우가 경우가 종종 있습니다.
하지만 이런 바이너리 파일의 경우 전용 프로그램을 실행해서 문서를 열지 않는 이상 텍스트를 추출할 수 없는 경우가 대부분입니다.
그래서 검색을 좀 하다 보니 xdoc2txt 라는 프로그램이 나오더군요. xdoc2txt 의 홈페이지는 아래 주소와 같습니다.
http://ebstudio.info/home/xdoc2txt.html
일본에서 만든 프로그램 같은데 Free 더군요. 아쉽게도 window 외의 다른 운영체제에서는 동작하지 않는 듯 합니다.
일본어 홈페이지 이지만 구글 번역을 사용하니 다운로드 하거나 하는데 문제 될 것은 없더군요.
위 페이지를 죽~ 내려 보면 아래 그림과 같이 다운로드 페이지가 나옵니다.
저는 위 목록 중 유니코드 버전 중에서 xdoc2txt 2.07 (xd2tx207.zip) 을 다운로드 받았습니다.
압축 해제 후에 command 폴더에 xdoc2txt.exe 파일이 들어 있습니다.
아래 그림과 같이 명령을 하면 test.docx 파일로부터 텍스트를 추출하여 sample.txt 파일에 저장합니다.
xdoc2txt.exe -u test.docx > sample.txt
위 명령어 중 –u 옵션은 Unicode 로 저장하라는 뜻입니다.
다음과 같이 -p 옵션을 주게 되면 해당 문서에 대한 정보를 알려 줍니다. 단어 수, 문자 수, 소유자, 수정 시간 등을 확인 할 수 있습니다.
xdoc2txt.exe -p test.docx
아래 주소에서 소개하고 있는 xdocdiff 와 같은 툴도 xdoc2txt 을 사용하는 것 같더군요.
http://freemind.s57.xrea.com/xdocdiff/e/index.html
SVN 에서 문서 파일의 경우 비교가 어려웠는데 xdocdiff 을 사용하면 가능 할 것 같네요.
'유틸' 카테고리의 다른 글
Ack 보다 더 빠른 검색 툴, The Platinum Searcher (0) | 2015.05.15 |
---|---|
새로운 launch 프로그램 wox (2) | 2015.05.11 |
Bash 스타일 command line, clink (0) | 2015.05.10 |
MS word 자동 고침 백업 (0) | 2015.01.12 |
윈도우 생산성 향상 스킬 Launchy 에서 Everything 을 이용한 파일 쉽게 찾기 (1) | 2014.09.02 |
Eclipse CDT C++11 사용 설정 (0) | 2014.07.16 |
윈도우용 오픈소스 CD/DVD burning 프로그램 InfraRecorder (0) | 2014.07.11 |
Paint.NET 구버전 다운로드 (0) | 2014.07.08 |
댓글