メモ, 検証・実験

どうせ和布蕪るなら、続き (my-mecab-userdict-build.py の一応完全版)

2019-10-07 20:04

ゴリっと仕組み変えたけどやってることはいっしょ。

デカくなっちゃったので GIST に置いた。コードが定義が多い関係でかなり長いので、先に軽く説明。

入力の csv の考え方についてはこれのとまったく一緒。ヘッダ(csvファイルの一行目)で列の意味を特定できる形式で、適宜省略できるノリね。
kind で辞書の種類を指定するのだけれど、指定しない場合は入力 csv のファイル名から決める。
各 kind で何を必須で書けばいいのかについては、ソースコードの _fields_cand_map をみるのがいいかな。このリスト内で「違うもの」が必須。たとえば「Symbol」の場合は”空白”、”句点”、…の部分が違うので、「品詞細分類1」が必須。(シカケ上”左文脈ID”, “右文脈ID”の方を埋めて”品詞細分類1″を埋めないのでもいい。)

でわ:

Related Posts

Top