タグ別アーカイブ: unicode
和英混在文書の表記ゆれ統一のために unicodedata.normalize
zenhan.pyと Python 標準の unicodedata.normalize を組み合わせてこんなことをしていた:
1 # -*- coding: utf-8 -*-
2 import unicodedata
3 import zenhan
4 # ...(省略)...
5 value = unicodedata.normalize('NFKC', zenhan.z2h(unicode(value.strip())))