桃井はるこの108段活用。
jumandic なんだけれど、…、なんというか貧乏性大発揮して「なんか抽出でけるやろ」とじっくり眺めてたら、思ってたよりは抽出できそうだ、とわかってきた。
具体的には、極端にヘンなのは Auto.csv、Wikipedia.csv だけで、ほかのはどうにか頑張れば「まともな(後述)」エントリを抽出出来るぞ、と。
てなわけで、今そんな抽出を「したい、スクリプトの顔をしたナニモノか」をちまちま作っている。とてもお見せ出来る状態にはなってないんで、今回はみせるのは控えるけれど、「まともな(後述)」エントリを、結構な量拾える。
「後述、後述しつこいなぁ」っと。
「まともな」が至ってまともじゃないんだわ。いや、「ある意味まとも」というか「まともな考えに基く雑なアプローチ」といえばいいのかな。要するにこんな:
1 因果応報,因果応報,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
2 いんがおうほう,いんがおうほう,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
3 いんがおう報,いんがおう報,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
4 いんが応ほう,いんが応ほう,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
5 いんが応報,いんが応報,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
6 いん果おうほう,いん果おうほう,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
7 いん果おう報,いん果おう報,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
8 いん果応ほう,いん果応ほう,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
9 いん果応報,いん果応報,1133,1133,11823,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
10 因がおうほう,因がおうほう,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
11 因がおう報,因がおう報,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
12 因が応ほう,因が応ほう,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
13 因が応報,因が応報,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
14 因果おうほう,因果おうほう,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
15 因果おう報,因果おう報,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
16 因果応ほう,因果応ほう,1133,1133,5308,名詞,普通名詞,*,*,いんがおうほう,カテゴリ:抽象物
つまり、「つづり違いについてもガシガシ登録すれば便利ろ」はある意味正しいんだけれど、こんな機械生成でなんの重み付けもないものをフラットに放り込まれても…。
ワタシの「スクリプトを騙るなにかそれらしきもの」は、要するに「欲しいものだけ欲しいのだ」ので、こういう変種は「欲しいときだけ欲しい」として区別したいわけだわな。けど「機械生成されたバリエーションから価値のあるものを機械判定する」のは、すなわち「人工知能的なアプローチ」をしない限りは「むり、むちゃ、まぎらわしい、そんな広告あるじゃろ」ってわけね。まー大変さ。最低でも「ipadic に既存のエントリがある変種かどうか」の区別くらいは…、と考え、さっきようやっと実現できた。
あと、ipadic 形式を多少でも知っている人はもう気付くはずなんだけれど、定義が全部違うのよ。一つ前のネタ(ノブさん)のでも書いた通り、活用が全然違うんだけれど、違うのは活用だけではなくて。left-id.def、…等々の定義が全部 ipadic と違ってる。だからまぁこれも大変といえば大変。ただこんなんは大変といったってただの「右から左へ受け流す」だけの移送だからさ、プログラムは単純明快なわけよ。「因果応報」の件がなければ。
もちろん「ipadic にあるものはいらない」というコンセプトを捨てれば結構単純にはなるんだけどね…、けどさ、既に正しくて問題を起こさない「因果応報」を既に手持ちだとして、あなた、「絶対に自分ではお目にかからないし書くわけのない「因がおう報」」、欲しい? いらんでしょう。
実際「リアルワールドでもありうる実用になる表記揺れ」も入っているので、万事が万事「いらない子」ってわけではないのがまた悩ましくてな。語によっては普通でもかなり人によってバラつくものって、結構あるんだよね。たとえば「大丈夫」を「大じょう夫」とわざわざ綴るのは (5chなどでの) 隠語目的を兼ねる以外は滅多なことでは書かないはずだと思うけれど、「まっすぐ」「真っすぐ」「真っ直ぐ」はほんとに人によって違うわけよ。こういうのだけだったらほんとに価値があったんだけどねぇ…。
てわけで「絶賛苦しみ中」。その「スクリプトみたいなナニカ」は、もちっと完成度が高くなったら見せるわ。