どうせ和布蕪るなら、続き (jumandic 相手に貧乏性)

もうキリがないからいいかなと。

話のおさらい。

「jumandic」は非推奨である。「jumandic」は「ヘンな」辞書である。「jumandic」には妙ちくりんなエントリが大量に含まれる。「jumandic」は「学校文法とは違う文法を採用してる」、つまり ipadic 辞書にそのまま移行出来ない。

「欲しいものだけ抽出できればできるのでは、すわ、貧乏性ねば」。

てなわけで。

あのね、もう GIST でペロって置いて鑑賞させるようなもんではないのよ。3665行か。まぁおいしそうなスパゲティですこと。そして、「コードはあんまし価値がない」くて、お披露目したいのはむしろ「抽出した辞書エントリそのものの方」だったりするわけ。なので mecab_userdic_from_jumandic-20191118.tar.bz2。ダウンロードして開けば、スクリプトも入ってるけど、抽出済みの辞書(の元)も一緒に入ってる。

まぁ「お披露目」としてはこんだけ。気になる人は鑑賞してみてくれ。

今回は細かいことは言わない。ちょっと疲れてるもんで。中でやったことで、ネタとして割と楽しいこともあったんだけれど、それについては気が向いたら別途書く。添付内のスクリプトでわかる人はわかるかもしれんけれど、まぁ「どう、何がおもろかったのか」については書いてないからね、やっぱ別ネタとして切り出して話した方がいいだろう。

んでは本日はこれまで。



Related Posts