텍스트 파일을 사용하다 보면 encoding 이 문제가 되는 경우가 종종 있습니다.
이런 경우에는 encoding 을 변경하여 해결 하곤 하는데~
notepad++ 와 같은 에디터의 기능을 활용 하거나~ 아니면 iconv 와 같은 명령어를 사용하여 encoding 을 변경하곤 하는데요~
iconv 와 같은 명령어를 활용하더라도 현재 텍스트 파일의 encoding 방식을 확인 해야 합니다.
encoding을 확인 하기 위해 일일이 에디터에서 파일을 여는 것도 귀찮아서 찾아보니~
chardet 라는 python 모듈을 있더군요.
https://github.com/chardet/chardet
위 주소에서 확인 할 수 있는 바와 같이 아래 타입들을 detect 할 수 있다고 합니다.
ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants), Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese), EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (Japanese), EUC-KR, ISO-2022-KR (Korean), KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic), ISO-8859-5, windows-1251 (Bulgarian), windows-1252 (English), ISO-8859-7, windows-1253 (Greek), ISO-8859-8, windows-1255 (Visual and Logical Hebrew), TIS-620 (Thai)
python 모듈이니만큼 설치도 굉장히 간단한데요~
다음과 같이 pip 로 설치 할 수 있습니다.
pip install chardet
설치는 하면 아래 그림과 같이 C:\Python27\Scripts\chardetect.EXE 에 chardetect 실행 파일이 설치가 됩니다.
그럼 다음과 같이 명령어를 이용하여 텍스트 파일의 encoding 을 확인 할 수 있습니다.
chardetect 파일명1 파일명2 파일명3 …
'programming language > Python' 카테고리의 다른 글
Python 을 이용한 Visio 그리기 (0) | 2015.10.09 |
---|---|
Python Degree to Clock 변환 (0) | 2015.09.13 |
파이썬으로 윈도우 아웃룩 메일 보내기 (0) | 2015.08.26 |
Python에서 Autohotkey 사용하기 (5) | 2015.08.06 |
Python 실행 파일 만들기 cx_Freeze (0) | 2015.01.10 |
Python GraphViz 모듈 (0) | 2014.12.28 |
윈도우용 Python 모듈 모음 (0) | 2014.12.27 |
Python C/C++ 주석 지우기 (0) | 2014.12.25 |
댓글