どうせ和布蕪るなら、続き (mecab-ipadic-neologd の凍結済み辞書で、欲しいものだけが欲しい)

「いらんこと」がかなり多くて、役に立つ部分が埋もれちゃってんのよ。

ひとつ前のを派生させて、「何をしたのかを分類して切り出す」:

*.diff のある場所に行って実行すると、差分から「ユーザ辞書用に」分類して書き出すスクリプトね。

「削除」はユーザ辞書としてはもうどうしようもないので無視するとして。

  1. 「add」はその名の通り、neologd 独自追加のもの。
    ただし、オリジナルIPA辞書で「全角でのみ登録されてた」ものに対する「半角バージョン」もかなりの量なので注意。
  2. 「add_var」は恥ずかしいやつ。「高良は名前に決まってんじゃんばーかばーか」という「間違った修正」。なんだけど「ユーザ辞書」として考えるなら、「名前バージョンの高良」の追加扱いになるので、シンプルにハッピー。
  3. 「reading」は読み・発音の修正。これはどうもオリジナルの凡ミス修正も含まれる。
  4. 「cost」は、コストのみ、原形のみ、コスト+原形。コストの調整が嬉しいなら使えばいいけど、辞書の「内容」を充実させたいだけなら、不要なはず。原形についても、そのフィールドを活用する気がないならいらないはず。

22:15追記:
『「全角でのみ登録されてた」ものに対する「半角バージョン」』も分別(「add_hankaku」)するようにしてみたら、「独自追加」がほぼ限りなくゼロになってしまった。うーん、「迷惑なエントリ」って、もとから IPA 辞書に多かったってことか…。そう考えると「コストの調整」に意味が出てくるな。



Related Posts