ゴリっと仕組み変えたけどやってることはいっしょ。
デカくなっちゃったので GIST に置いた。コードが定義が多い関係でかなり長いので、先に軽く説明。
- 入力の csv の考え方についてはこれのとまったく一緒。ヘッダ(csvファイルの一行目)で列の意味を特定できる形式で、適宜省略できるノリね。
- kind で辞書の種類を指定するのだけれど、指定しない場合は入力 csv のファイル名から決める。
-
各 kind で何を必須で書けばいいのかについては、ソースコードの
_fields_cand_map
をみるのがいいかな。このリスト内で「違うもの」が必須。たとえば「Symbol」の場合は”空白”、”句点”、…の部分が違うので、「品詞細分類1」が必須。(シカケ上”左文脈ID”, “右文脈ID”の方を埋めて”品詞細分類1″を埋めないのでもいい。)
でわ: