Chardet是一款通用字符编码检测器。
支持
ASCII、UTF-8、UTF-16(2种变体)、UTF-32(4种变体)
Big5、GB2312、EUC-TW、HZ-GB-2312、ISO-2022-CN(繁体中文和简体中文)
EUC-JP、SHIFT_JIS、CP932、ISO-2022-JP(日语)
EUC-KR、ISO-2022-KR(韩语)
KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、windows-1251(斯拉夫语)
ISO-8859-5、windows-1251(保加利亚文)
ISO-8859-1、windows-1252(西欧语言)
ISO-8859-7、windows-1253(希腊语)
ISO-8859-8、windows-1255(希伯来语)
TIS-620(泰语)
注意:ISO-8859-2和windows-1250(Hungarian) 检测器模型有待重新训练,暂时还不可用。
要求Python2.6及以上版本
安装
PyPI :
pip install chardet
评论