どうせ和布蕪るなら、続き (ノブさんやったら)

これに心当たりがある人は相当だと思う。

一連の MeCab ネタで、紹介したもののほかにもヘンなことを試みている。

今回のは「うまくいかなかった」もしくは「うまくいくわけない」話。


まず、個人的にターゲットにした文書(Wikipedia のシュタゲなテキスト)で、人名のほかに「出版社」が辞書に登録されてると良さそうだと思ったのだね。なので「出版社一覧」みたいな検索をかけたんだけれど、Wikipedia 以外だと基本的には「~協会」の、「協会加盟出版社一覧」なのよね、しかも使いやすいとはいえない。

なので仕方ないから Wikipedia から取るか…、と。こうしたことは何度もやっているけれど、いつも思うのは、「百科事典をうたうのであれば、なにゆえにデータベース的ではないのか」ということだ。お飾り程度の「基本情報」が「ある場合はある」が、あっても記述に一貫性があるともいえないし、なにより「ないものも多い」。今回のこのケースだと「一覧だけは割とすぐに取得できる」のだけれど、読みまで取ろうとすると、て話。以下スクリプト(?)で悶絶してみるがいい:

my-mecab-userdict-publisher-from-wikipedia.py (_known 部分がデカ過ぎるので抜粋である)
  1 # -*- coding: utf-8 -*-
  2 # wikipedia の「日本の出版社一覧」を MeCab の辞書に仕立て上げる…
  3 # 「半自動」スクリプト、というか「作業」。一覧だけならすぐに取れるが、
  4 # 「読み」は個別ページにしかない、というわけで一覧から、ページが
  5 # 存在していれば取りに行くが、基本これが完全自動にならない。ひとつに、
  6 # 「社団法人」などが一覧で入っていなくて個別ページには入っていて、
  7 # のようなケースで読みに「しゃだんほうじん」が含まれるかどうかが
  8 # バラバラ。ひとつに、「リダイレクト」。これはもうどうしようもない。
  9 # これにハマるとまったく異なる読みを拾ってくるハメになり、こういう
 10 # のは手作業で補正するしかない。ひとつに、読みのカタカナ・ひらがな部分
 11 # を省略するスタイルがある(「集英社クリエイティブ(しゅうえいしゃ -)」
 12 # など)。ひとつに、一覧で「(岡山県)」みたいなのがある。これはまぁ
 13 # 頑張れば処理出来そうではあるのだけれど、めんどうなのでやらない。
 14 # もちろん個別ページに読みが含まれていないものもある。
 15 #
 16 # そんなわけで、「自動で取れた」ものを _known に手作業で凍結、取得処理
 17 # の改善、「自動で取れた」ものを _known に凍結、取得処理の改善、…
 18 # の繰り返し。_known にあるエントリの空行は、その単位の区切り。
 19 # ものによっては完全に手作業で埋めたものもある(「学研」関係とか)。
 20 #
 21 # 個人的に「全部を網羅」するつもりはなくて、当座最低限必要だった
 22 # 「竹書房」さえ入ってればそれでよくて、というレベルなので、 _known
 23 # の完遂はしてない。ので wikipedia の一覧にあるやつを結構取りこぼしてる。
 24 #
 25 # そんなこんなでこの「スクリプト的なもの」を綺麗に汎用にするのは
 26 # 至極困難なわけで、これはこのまま「半自動「作業」」。正直言って
 27 # スクリプトの完成度なんかこの際どうでもよくて、目的の MeCab 辞書
 28 # にしか価値はないわけだから、まぁこれはこれでいいのだ。
 29 #
 30 import io
 31 import sys
 32 import os
 33 import re
 34 import urllib.request
 35 import urllib.parse
 36 from collections import defaultdict
 37 from glob import glob
 38 import csv
 39 import subprocess
 40 import logging
 41 
 42 
 43 _topurl = "https://ja.wikipedia.org/wiki/"
 44 
 45 
 46 _known = {
 47     "あいり出版": "あいりしゅっぱん",
 48     "青木書店": "あおきしょてん",
 49     "あおば出版": "あおばしゅっぱん",
 50     "あかね書房": "あかねしょぼう",
 51     "茜新社": "あかねしんしゃ",
 52     "亜紀書房": "あきしょぼう",
 53     "秋田書店": "あきたしょてん",
 54     "秋山書店": "あきやましょてん",
 55     "曙出版": "あけぼのしゅっぱん",
 56     "阿含宗出版部": "あごんしゅうしゅっぱんぶ",
 57     "浅川書房": "あさかわしょぼう",
 58     "あさ出版": "あさしゅっぱん",
 59     "朝日新聞出版": "あさひしんぶんしゅっぱん",
 60     "芦書房": "あししょぼう",
 61     "明日香出版社": "あすかしゅっぱんしゃ",
 62     "あずさ書店": "あずさしょてん",
 63     "アース・スター": "エンターテイメント",
 64     "あすなろ書房": "あすなろしょぼう",
 65     "校倉書房": "あぜくらしょぼう",
 66     "荒蝦夷": "あらえみし",
 67     "荒地出版社": "あれちしゅっぱんしゃ",
 68     "暗黒通信団": "あんこくつうしんだん",
 69     "飯塚書店": "いいづかしょてん",
 70     "郁文堂": "いくぶんどう",
 71     "育鵬社": "いくほうしゃ",
 72     "医事日報": "いじにっぽう",
 73     "伊勢文化舎": "いせぶんかしゃ",
 74     "一迅社": "いちじんしゃ",
 75     "1万年堂出版": "いちまんねんどうしゅっぱん",
 76     "一粒社": "いちりゅうしゃ",
 77     "一芦舎": "いちろしゃ",
 78     "五ツ木書房": "いつきしょぼう",
 79     "一水社": "いっすいしゃ",
 80     "一草舎": "いっそうしゃ",
 81     "医道の日本社": "いどうのにっぽんしゃ",
 82     "いのちのことば社": "いのちのことばしゃ",
 83     "岩崎書店": "いわさきしょてん",
 84     "岩崎学術出版社": "いわさきがくじゅつしゅっぱんしゃ",
 85     "石楯尾神社": "いわたておのじんじゃ",
 86     "潮書房": "うしおしょぼうこうじんしんしゃ",
 87     "宇都宮軍縮研究室": "うつのみやぐんしゅくけんきゅうしつ",
 88     "うなぎ書房": "うなぎしょぼう",
 89     "烏有書林": "うゆうしょりん",
 90     "英俊社": "えいしゅんしゃ",
 91     "英治出版": "えいじしゅっぱん",
 92     "英宝社": "えいほうしゃ",
 93     "えにし書房": "えにししょぼう",
 94     "戎光祥出版": "えびすこうしょうしゅっぱん",
 95     "絵本館": "えほんかん",
 96     "大泉書店": "おおいずみしょてん",
 97     "大蔵財務協会": "おおくらざいむきょうかい",
 98     "大阪大学出版会": "おおさかだいがくしゅっぱんかい",
 99     "大阪文学学校": "おおさかぶんがくがっこう",
100     "岡山大学出版会": "おかやまだいがくしゅっぱんかい",
101     "小沢書店": "おざわしょてん",
102     "御茶の水書房": "おちゃのみずしょぼう",
103     "小山書店": "おやましょてん",
104     "音元出版": "おんげんしゅっぱん",
105     "海王社": "かいおうしゃ",
106     "海人社": "かいじんしゃ",
107     "改造社": "かいぞうしゃ",
108     "海鳥社": "かいちょうしゃ",
109     "解放社": "かいほうしゃ",
110     "解放出版社": "かいほうしゅっぱんしゃ",
111     "海竜社": "かいりゅうしゃ",
112     "化学同人": "かがくどうじん",
113     "学芸図書": "がくげいとしょ",
114     "学建書院": "がっけんしょいん",
115     "学術図書出版社": "がくじゅつとしょしゅっぱんしゃ",
116     "学生援護会": "がくせいえんごかい",
117     "学生社": "がくせいしゃ",
118     "笠間書院": "かさましょいん",
119     "鹿島出版会": "かじましゅっぱんかい",
120     "仮説社": "かせつしゃ",
121     "桂書房": "かつらしょぼう",
122     "角川学芸出版": "かどかわがくげいしゅっぱん",
123     "角川春樹事務所": "かどかわはるきじむしょ",
124     "金子書房": "かねこしょぼう",
125     "花風社": "かふうしゃ",
126     "かまくら春秋社": "かまくらしゅんじゅうしゃ",
127     "鎌倉新書": "かまくらしんしょ",
128     "河合出版": "かわいしゅっぱん",
129     "機芸出版社": "きげいしゅっぱんしゃ",
130     "北大路書房": "きたおおじしょぼう",
131     "汲古書院": "きゅうこしょいん",
132     "九州大学出版会": "きゅうしゅうだいがくしゅっぱんかい",
133     "九天社": "きゅうてんしゃ",
134     "教育芸術社": "きょういくげいじゅつしゃ",
135     "教育出版": "きょういくしゅっぱん",
136     "教育史料出版会": "きょういくしりょうしゅっぱんかい",
137     "教学研究社": "きょうがくけんきゅうしゃ",
138     "教学社": "きょうがくしゃ",
139     "京都書院": "きょうとしょいん",
140     "京都大学学術出版会": "きょうとだいがくがくじゅつしゅっぱんかい",
141     "京都大学基礎物理学研究所": "きょうとだいがくきそぶつりがくけんきゅうしょ",
142     "共立出版": "きょうりつしゅっぱん",
143     "木楽舎": "きらくしゃ",
144     "金園社": "きんえんしゃ",
145     "錦正社": "きんせいしゃ",
146     "金の星社": "きんのほししゃ",
147     "金融財政事情研究会": "きんゆうざいせいじじょうけんきゅうかい",
148     "久保書店": "くぼしょてん",
149     "暮しの手帖社": "くらしのてちょうしゃ",
150     "クロエ出版": "くろえしゅっぱん",
151     "黒崎出版": "くろさきしゅっぱん",
152     "くろしお出版": "くろしおしゅっぱん",
153     "群像社": "ぐんぞうしゃ",
154     # ...以下延々
155 }
156 def _get_yomi(pagetitle, encoded):
157     if pagetitle in _known:
158         return _known[pagetitle]
159     try:
160         req = urllib.request.urlopen(_topurl + encoded)
161     except urllib.error.HTTPError:
162         return ""
163     cont = re.sub(r"</?b>", "", req.read().decode("utf-8"))
164     m = re.search(
165         r"<p>.*?{}.*?\s*[((]([^()()]+)[))]\s*と?は".format(
166             pagetitle), cont)
167     if not m:
168         m = re.search(
169             r"<p>.*?\s*[((]{}、([^()()]+)[))]\s*と?は".format(
170                 pagetitle), cont)
171     if m:
172         # and ">英</a>" not in m.group(1)
173         spl = re.split("[、 ][\s ]*", m.group(1))
174         for s in spl:
175             if re.match(r"^[ぁ-んァ-ンー・]+$", s):
176                 return s
177     return ""
178 
179 
180 def _get_all(fromsysdic):
181     _toppage = urllib.parse.quote("日本の出版社一覧")
182     #
183     req = urllib.request.urlopen(_topurl + _toppage)
184     cont = req.read().decode("utf-8")
185     cont = re.search(
186         r"""<span class="mw-headline"[^<>]*>あ行</span>(.*)<span class="mw-headline"[^<>]*>参考</span>""",
187         cont, flags=re.S | re.M).group(1)
188     rxli = re.compile(r"<li>(.*?)</li>", flags=re.S | re.M)
189     rxes1 = re.compile(r"(?:\s+-\s+)")
190     rxes2 = re.compile(r"(?:[\s ]*→[\s ]*)")
191     rxan = re.compile(r'<a [^<>]*href="([^"]+)"[^<>]*>(.*?)</a>')
192     for line in rxli.findall(cont):
193         spl = rxes1.split(line)
194         if len(spl) > 1:
195             entry = spl[0]
196             extra = [spl[1]]
197         else:
198             entry, extra = spl[0], [""]
199         spl = rxes2.split(line)
200         if len(spl) > 1:
201             entry = spl[0]
202             extra.extend(spl[1:])
203         extra = [re.sub(r"</?[^<>]+>", "", e) for e in extra]
204         #
205         m = rxan.search(entry)
206         if m:
207             name, url = m.group(2, 1)
208             if ";redlink=1" in url:
209                 url = ""
210             elif url.startswith("/wiki/"):
211                 url = url[len("/wiki/"):]
212         else:
213             name, url = entry, ""
214         names = []
215         if url and "http" not in url:
216             names.append(name)
217         names.extend(extra[1:])
218         for n in names:
219             if n in fromsysdic:
220                 continue
221             m = re.search(r"[^ぁ-んーァ-ンヴ・a-zA-Z0-9 ]+", n)
222             if m:
223                 if n in _known:
224                     yield n, _known[n]
225                 else:
226                     yomi = ""
227                     if not yomi:
228                         for sk, sy in (
229                             ("出版", "しゅっぱん"),
230                             ("出版会", "しゅっぱんかい"),
231                             ("出版社", "しゅっぱんしゃ"),
232                             ("書房", "しょぼう"),
233                             ("社", "しゃ"),
234                             ("舎", "しゃ"),
235                             ("研究所", "けんきゅうじょ"),
236                             ("技術社", "ぎじゅつしゃ"),
237                             ("講談社", "こうだんしゃ"),
238                             ("販売", "はんばい"),
239                             ):
240                             if re.match(r"^[ぁ-んーァ-ンヴ・ ]+{}$".format(sk), n):
241                                 yomi = n[:-len(sk)] + sy
242                                 break
243                     if not yomi:
244                         for sk, sy in (
245                             ("集英社", "しゅうえいしゃ"),
246                             ("日経", "にっけい"),
247                             ("幻冬舎", "げんとうしゃ",),
248                             ):
249                             if re.match(r"^{}[ぁ-んーァ-ンヴ・ ]+$".format(sk), n):
250                                 yomi = sy + n[len(sk):]
251                                 break
252                     if not yomi:
253                         yomi = _get_yomi(n, urllib.parse.quote(n))
254                     if yomi:
255                         yield n, yomi
256                         pass
257                         #print(n, yomi, flush=True)
258                     else:
259                         pass
260                         #print(n, flush=True)
261 
262 
263 try:
264     # ソースから mecab-config を持ってきて書き換えた上で
265     # 見えるところにおけばプアな MSYS ですら動かせる
266     # (めちゃくちゃシンプルなシェルスクリプトなので、自分で
267     # 直せる)ように、まわりくどい呼び方をしている。bash が必要、
268     # なので、頼まないと bash が入らない FreeBSD とかなんか
269     # では弱るが…、まぁそれくらいは許して。
270     __mecab_config_exec = 'bash -c "`type -p mecab-config` {}"'
271     _mecab_config = {}
272     for q in ("--exec-prefix", "--dicdir",):
273         _mecab_config[q] = subprocess.check_output(
274             __mecab_config_exec.format(q),
275             shell=True).strip().decode()
276 except subprocess.CalledProcessError as e:
277     # たぶん Windows。公式の標準でインストールしたとして。
278     # inosetup なのでレジストリに書かれてるんじゃないかとは
279     # 思うんだけどとりあえず面倒なので決め打ちで。
280     _mecab_config = {
281         "--exec-prefix": "c:/Program Files (x86)/MeCab",
282         "--dicdir": "c:/Program Files (x86)/MeCab/dic"
283         }
284 _dict_index_bin = os.path.join(
285     _mecab_config["--exec-prefix"], "bin", "mecab-dict-index")
286 # TODO: 「ipadic」以外の置き場もあるんではないかと。
287 _sysdict_dir = os.path.join(_mecab_config["--dicdir"], "ipadic")
288 
289 # システム辞書の「ソースの」エンコーディング。バイナリになった
290 # 辞書のエンコーディングではない。MeCab はユーザがシステム辞書
291 # をメンテナンス出来るように標準インストールで辞書のソースが
292 # 配備される。(Windows でも euc-jp なり utf-8 のままにしとけば
293 # いいのに、なぜかインストーラのポストプロセスでせっせと SJIS
294 # に変換する。バイナリ辞書を utf-8 と選択してもなお、である。)
295 if ":" in _mecab_config["--exec-prefix"]:  # Windows
296     _mecab_config["--sysdic-src-encoding"] = "cp932"
297 else:
298     # Unix「系」でここに落ちるはずだが、Windows にインストール
299     # した「もどき」では mecab-config の記述次第。
300     # つまり「/c/msys/1.0/bin」形式で記述してあると混同しうる。
301     # (さすがに素の msys (と MinGW) で MeCab ビルドを頑張る
302     # 人は極少だと思うが、そうして野良ビルドしたものを手で
303     # c:/Program Files なんぞに置いて /c/ 形式で書き、なおかつ
304     # 辞書ソースを cp932 エンコードで置いたりなんかすればアウト。)
305     _mecab_config["--sysdic-src-encoding"] = "utf-8"
306 
307 
308 fieldnames_all = [
309     "表層形",
310     "左文脈ID", "右文脈ID",
311     "コスト",
312     "品詞", "品詞細分類1", "品詞細分類2", "品詞細分類3",
313     "活用形1", "活用形2",
314     "原形", "読み", "発音"
315 ]
316 
317 
318 def _main(args):
319     fromsysdic = {}
320     _sys_fields = [
321         "コスト",
322         "品詞",
323         "品詞細分類1", "品詞細分類2", "品詞細分類3",
324         "原形",
325         "読み",
326         "発音",
327         ]
328     fn = os.path.join(_sysdict_dir, "Noun.org.csv")
329     reader = csv.DictReader(
330         io.open(fn, encoding=_mecab_config["--sysdic-src-encoding"]),
331         fieldnames=fieldnames_all)
332     for line in reader:
333         sur = line["表層形"]
334         fromsysdic[sur] = (line["読み"], line["発音"])
335 
336     result = [["表層形", "読み"]]
337     result.extend(list(sorted(_get_all(fromsysdic))))  # 全然allでもなんでもないんだけど「心意気」。
338     with io.open("Noun.org.publisher-from_wikipedia.csv", "wb") as fo:
339         fo.write(("\n".join([",".join(line) for line in result]) + "\n").encode("utf-8"))
340 
341 if __name__ == '__main__':
342     _main([])

つまりはこの「スクリプト」が完成品になることはありえないのであり、所詮は「抽出作業そのもの」なのだ。(言い方を変えると「一回の取得試行ごとにスクリプトを書き換える」ということ。) コメントにも書いたけれど、出来上がる辞書の方にしか価値はないわけだから、まぁこれでもいいっちゃぁいいのかな、とも一方では思う。


もうひとつ。

これまでは IPA 辞書だけをターゲットに考えてきたし、今後もこれだけでいいと思っているのだけれど、「せっかくあるんだから」と mecab-jumandic-7.0-20130310 をダウンロードしてみたわけである。

見出しレベルの説明で「コーパス(と辞書のエントリそのもの)だけの違い」なのかと思ってたら違った。MeCab の仕組み上もちろん可能なんだけれど、品詞IDやら何やら全部変えているっぽい。なので、原則としては「IPA辞書との二律背反二択」なのかなぁと思う。

それにね。

この juman 辞書。ひじょーに実験的というかなんというか、要するに「実用性はあんましどーでもいい」ノリなのよね。neologd の(本題の方の)ノリと同じだと思う:

Auto.csv の一部
  1   ...
  2 えっち,1382,1382,10535,形容詞,*,ナ形容詞,語幹,えっちだ,えっち,自動獲得:テキスト
  3 えっちだ,1381,1381,10535,形容詞,*,ナ形容詞,基本形,えっちだ,えっちだ,自動獲得:テキスト
  4 えっちな,1348,1348,10535,形容詞,*,ナ形容詞,ダ列基本連体形,えっちだ,えっちな,自動獲得:テキスト
  5 えっちだろう,1345,1345,10535,形容詞,*,ナ形容詞,ダ列基本推量形,えっちだ,えっちだろう,自動獲得:テキスト
  6 えっちだろ,1347,1347,10535,形容詞,*,ナ形容詞,ダ列基本省略推量形,えっちだ,えっちだろ,自動獲得:テキスト
  7 えっちならば,1346,1346,10535,形容詞,*,ナ形容詞,ダ列基本条件形,えっちだ,えっちならば,自動獲得:テキスト
  8 えっちに,1349,1349,10535,形容詞,*,ナ形容詞,ダ列基本連用形,えっちだ,えっちに,自動獲得:テキスト
  9 えっちだった,1338,1338,10535,形容詞,*,ナ形容詞,ダ列タ形,えっちだ,えっちだった,自動獲得:テキスト
 10 えっちだったろう,1339,1339,10535,形容詞,*,ナ形容詞,ダ列タ系推量形,えっちだ,えっちだったろう,自動獲得:テキスト
 11 えっちだったろ,1341,1341,10535,形容詞,*,ナ形容詞,ダ列タ系省略推量形,えっちだ,えっちだったろ,自動獲得:テキスト
 12 えっちだったら,1340,1340,10535,形容詞,*,ナ形容詞,ダ列タ系条件形,えっちだ,えっちだったら,自動獲得:テキスト
 13 えっちで,1344,1344,10535,形容詞,*,ナ形容詞,ダ列タ系連用テ形,えっちだ,えっちで,自動獲得:テキスト
 14 えっちだったり,1343,1343,10535,形容詞,*,ナ形容詞,ダ列タ系連用タリ形,えっちだ,えっちだったり,自動獲得:テキスト
 15 えっちじゃ,1342,1342,10535,形容詞,*,ナ形容詞,ダ列タ系連用ジャ形,えっちだ,えっちじゃ,自動獲得:テキスト
 16 えっちなる,1351,1351,10535,形容詞,*,ナ形容詞,ダ列文語連体形,えっちだ,えっちなる,自動獲得:テキスト
 17 えっちなれば,1350,1350,10535,形容詞,*,ナ形容詞,ダ列文語条件形,えっちだ,えっちなれば,自動獲得:テキスト
 18 えっちである,1359,1359,10535,形容詞,*,ナ形容詞,デアル列基本形,えっちだ,えっちである,自動獲得:テキスト
 19 えっちであれ,1358,1358,10535,形容詞,*,ナ形容詞,デアル列命令形,えっちだ,えっちであれ,自動獲得:テキスト
 20 えっちであろう,1360,1360,10535,形容詞,*,ナ形容詞,デアル列基本推量形,えっちだ,えっちであろう,自動獲得:テキスト
 21 えっちであろ,1362,1362,10535,形容詞,*,ナ形容詞,デアル列基本省略推量形,えっちだ,えっちであろ,自動獲得:テキスト
 22 えっちであれば,1361,1361,10535,形容詞,*,ナ形容詞,デアル列基本条件形,えっちだ,えっちであれば,自動獲得:テキスト
 23 えっちであり,1363,1363,10535,形容詞,*,ナ形容詞,デアル列基本連用形,えっちだ,えっちであり,自動獲得:テキスト
 24 えっちであった,1352,1352,10535,形容詞,*,ナ形容詞,デアル列タ形,えっちだ,えっちであった,自動獲得:テキスト
 25 えっちであったろう,1353,1353,10535,形容詞,*,ナ形容詞,デアル列タ系推量形,えっちだ,えっちであったろう,自動獲得:テキスト
 26 えっちであったろ,1355,1355,10535,形容詞,*,ナ形容詞,デアル列タ系省略推量形,えっちだ,えっちであったろ,自動獲得:テキスト
 27 えっちであったら,1354,1354,10535,形容詞,*,ナ形容詞,デアル列タ系条件形,えっちだ,えっちであったら,自動獲得:テキスト
 28 えっちであって,1357,1357,10535,形容詞,*,ナ形容詞,デアル列タ系連用テ形,えっちだ,えっちであって,自動獲得:テキスト
 29 えっちであったり,1356,1356,10535,形容詞,*,ナ形容詞,デアル列タ系連用タリ形,えっちだ,えっちであったり,自動獲得:テキスト
 30 えっちです,1370,1370,10535,形容詞,*,ナ形容詞,デス列基本形,えっちだ,えっちです,自動獲得:テキスト
 31 えっちでしょう,1371,1371,10535,形容詞,*,ナ形容詞,デス列基本推量形,えっちだ,えっちでしょう,自動獲得:テキスト
 32 えっちでしょ,1372,1372,10535,形容詞,*,ナ形容詞,デス列基本省略推量形,えっちだ,えっちでしょ,自動獲得:テキスト
 33 えっちでした,1364,1364,10535,形容詞,*,ナ形容詞,デス列タ形,えっちだ,えっちでした,自動獲得:テキスト
 34 えっちでしたろう,1365,1365,10535,形容詞,*,ナ形容詞,デス列タ系推量形,えっちだ,えっちでしたろう,自動獲得:テキスト
 35 えっちでしたろ,1367,1367,10535,形容詞,*,ナ形容詞,デス列タ系省略推量形,えっちだ,えっちでしたろ,自動獲得:テキスト
 36 えっちでしたら,1366,1366,10535,形容詞,*,ナ形容詞,デス列タ系条件形,えっちだ,えっちでしたら,自動獲得:テキスト
 37 えっちでして,1369,1369,10535,形容詞,*,ナ形容詞,デス列タ系連用テ形,えっちだ,えっちでして,自動獲得:テキスト
 38 えっちでしたり,1368,1368,10535,形容詞,*,ナ形容詞,デス列タ系連用タリ形,えっちだ,えっちでしたり,自動獲得:テキスト
 39 えっちや,1378,1378,10535,形容詞,*,ナ形容詞,ヤ列基本形,えっちだ,えっちや,自動獲得:テキスト
 40 えっちやろう,1379,1379,10535,形容詞,*,ナ形容詞,ヤ列基本推量形,えっちだ,えっちやろう,自動獲得:テキスト
 41 えっちやろ,1380,1380,10535,形容詞,*,ナ形容詞,ヤ列基本省略推量形,えっちだ,えっちやろ,自動獲得:テキスト
 42 えっちやった,1373,1373,10535,形容詞,*,ナ形容詞,ヤ列タ形,えっちだ,えっちやった,自動獲得:テキスト
 43 えっちやったろう,1374,1374,10535,形容詞,*,ナ形容詞,ヤ列タ系推量形,えっちだ,えっちやったろう,自動獲得:テキスト
 44 えっちやったろ,1376,1376,10535,形容詞,*,ナ形容詞,ヤ列タ系省略推量形,えっちだ,えっちやったろ,自動獲得:テキスト
 45 えっちやったら,1375,1375,10535,形容詞,*,ナ形容詞,ヤ列タ系条件形,えっちだ,えっちやったら,自動獲得:テキスト
 46 えっちやったり,1377,1377,10535,形容詞,*,ナ形容詞,ヤ列タ系連用タリ形,えっちだ,えっちやったり,自動獲得:テキスト
 47 えろ,1192,1192,10535,形容詞,*,イ形容詞アウオ段,語幹,えろい,えろ,自動獲得:テキスト
 48 えろい,1162,1162,10535,形容詞,*,イ形容詞アウオ段,基本形,えろい,えろい,自動獲得:テキスト
 49 えろかれ,1159,1159,10535,形容詞,*,イ形容詞アウオ段,命令形,えろい,えろかれ,自動獲得:テキスト
 50 えろかろう,1165,1165,10535,形容詞,*,イ形容詞アウオ段,基本推量形,えろい,えろかろう,自動獲得:テキスト
 51 えろかろ,1171,1171,10535,形容詞,*,イ形容詞アウオ段,基本省略推量形,えろい,えろかろ,自動獲得:テキスト
 52 えろければ,1168,1168,10535,形容詞,*,イ形容詞アウオ段,基本条件形,えろい,えろければ,自動獲得:テキスト
 53 えろく,1174,1174,10535,形容詞,*,イ形容詞アウオ段,基本連用形,えろい,えろく,自動獲得:テキスト
 54 えろかった,1135,1135,10535,形容詞,*,イ形容詞アウオ段,タ形,えろい,えろかった,自動獲得:テキスト
 55 えろかったろう,1138,1138,10535,形容詞,*,イ形容詞アウオ段,タ系推量形,えろい,えろかったろう,自動獲得:テキスト
 56 えろかったろ,1144,1144,10535,形容詞,*,イ形容詞アウオ段,タ系省略推量形,えろい,えろかったろ,自動獲得:テキスト
 57 えろかったら,1141,1141,10535,形容詞,*,イ形容詞アウオ段,タ系条件形,えろい,えろかったら,自動獲得:テキスト
 58 えろくて,1156,1156,10535,形容詞,*,イ形容詞アウオ段,タ系連用テ形,えろい,えろくて,自動獲得:テキスト
 59 えろかったり,1147,1147,10535,形容詞,*,イ形容詞アウオ段,タ系連用タリ形,えろい,えろかったり,自動獲得:テキスト
 60 えろくちゃ,1150,1150,10535,形容詞,*,イ形容詞アウオ段,タ系連用チャ形,えろい,えろくちゃ,自動獲得:テキスト
 61 えろくっちゃ,1153,1153,10535,形容詞,*,イ形容詞アウオ段,タ系連用チャ形2,えろい,えろくっちゃ,自動獲得:テキスト
 62 えろけりゃ,1195,1195,10535,形容詞,*,イ形容詞アウオ段,音便条件形,えろい,えろけりゃ,自動獲得:テキスト
 63 えろきゃ,1198,1198,10535,形容詞,*,イ形容詞アウオ段,音便条件形2,えろい,えろきゃ,自動獲得:テキスト
 64 えろし,1180,1180,10535,形容詞,*,イ形容詞アウオ段,文語基本形,えろい,えろし,自動獲得:テキスト
 65 えろから,1183,1183,10535,形容詞,*,イ形容詞アウオ段,文語未然形,えろい,えろから,自動獲得:テキスト
 66 えろう,1189,1189,10535,形容詞,*,イ形容詞アウオ段,文語連用形,えろい,えろう,自動獲得:テキスト
 67 えろき,1186,1186,10535,形容詞,*,イ形容詞アウオ段,文語連体形,えろい,えろき,自動獲得:テキスト
 68 えろかれ,1177,1177,10535,形容詞,*,イ形容詞アウオ段,文語命令形,えろい,えろかれ,自動獲得:テキスト
 69   ...
 70 アレゲ,1382,1382,9495,形容詞,*,ナ形容詞,語幹,アレゲだ,アレゲ,自動獲得:テキスト
 71 アレゲだ,1381,1381,9495,形容詞,*,ナ形容詞,基本形,アレゲだ,アレゲだ,自動獲得:テキスト
 72 アレゲな,1348,1348,9495,形容詞,*,ナ形容詞,ダ列基本連体形,アレゲだ,アレゲな,自動獲得:テキスト
 73 アレゲだろう,1345,1345,9495,形容詞,*,ナ形容詞,ダ列基本推量形,アレゲだ,アレゲだろう,自動獲得:テキスト
 74 アレゲだろ,1347,1347,9495,形容詞,*,ナ形容詞,ダ列基本省略推量形,アレゲだ,アレゲだろ,自動獲得:テキスト
 75 アレゲならば,1346,1346,9495,形容詞,*,ナ形容詞,ダ列基本条件形,アレゲだ,アレゲならば,自動獲得:テキスト
 76 アレゲに,1349,1349,9495,形容詞,*,ナ形容詞,ダ列基本連用形,アレゲだ,アレゲに,自動獲得:テキスト
 77 アレゲだった,1338,1338,9495,形容詞,*,ナ形容詞,ダ列タ形,アレゲだ,アレゲだった,自動獲得:テキスト
 78 アレゲだったろう,1339,1339,9495,形容詞,*,ナ形容詞,ダ列タ系推量形,アレゲだ,アレゲだったろう,自動獲得:テキスト
 79 アレゲだったろ,1341,1341,9495,形容詞,*,ナ形容詞,ダ列タ系省略推量形,アレゲだ,アレゲだったろ,自動獲得:テキスト
 80 アレゲだったら,1340,1340,9495,形容詞,*,ナ形容詞,ダ列タ系条件形,アレゲだ,アレゲだったら,自動獲得:テキスト
 81 アレゲで,1344,1344,9495,形容詞,*,ナ形容詞,ダ列タ系連用テ形,アレゲだ,アレゲで,自動獲得:テキスト
 82 アレゲだったり,1343,1343,9495,形容詞,*,ナ形容詞,ダ列タ系連用タリ形,アレゲだ,アレゲだったり,自動獲得:テキスト
 83 アレゲじゃ,1342,1342,9495,形容詞,*,ナ形容詞,ダ列タ系連用ジャ形,アレゲだ,アレゲじゃ,自動獲得:テキスト
 84 アレゲなる,1351,1351,9495,形容詞,*,ナ形容詞,ダ列文語連体形,アレゲだ,アレゲなる,自動獲得:テキスト
 85 アレゲなれば,1350,1350,9495,形容詞,*,ナ形容詞,ダ列文語条件形,アレゲだ,アレゲなれば,自動獲得:テキスト
 86 アレゲである,1359,1359,9495,形容詞,*,ナ形容詞,デアル列基本形,アレゲだ,アレゲである,自動獲得:テキスト
 87 アレゲであれ,1358,1358,9495,形容詞,*,ナ形容詞,デアル列命令形,アレゲだ,アレゲであれ,自動獲得:テキスト
 88 アレゲであろう,1360,1360,9495,形容詞,*,ナ形容詞,デアル列基本推量形,アレゲだ,アレゲであろう,自動獲得:テキスト
 89 アレゲであろ,1362,1362,9495,形容詞,*,ナ形容詞,デアル列基本省略推量形,アレゲだ,アレゲであろ,自動獲得:テキスト
 90 アレゲであれば,1361,1361,9495,形容詞,*,ナ形容詞,デアル列基本条件形,アレゲだ,アレゲであれば,自動獲得:テキスト
 91 アレゲであり,1363,1363,9495,形容詞,*,ナ形容詞,デアル列基本連用形,アレゲだ,アレゲであり,自動獲得:テキスト
 92 アレゲであった,1352,1352,9495,形容詞,*,ナ形容詞,デアル列タ形,アレゲだ,アレゲであった,自動獲得:テキスト
 93 アレゲであったろう,1353,1353,9495,形容詞,*,ナ形容詞,デアル列タ系推量形,アレゲだ,アレゲであったろう,自動獲得:テキスト
 94 アレゲであったろ,1355,1355,9495,形容詞,*,ナ形容詞,デアル列タ系省略推量形,アレゲだ,アレゲであったろ,自動獲得:テキスト
 95 アレゲであったら,1354,1354,9495,形容詞,*,ナ形容詞,デアル列タ系条件形,アレゲだ,アレゲであったら,自動獲得:テキスト
 96 アレゲであって,1357,1357,9495,形容詞,*,ナ形容詞,デアル列タ系連用テ形,アレゲだ,アレゲであって,自動獲得:テキスト
 97 アレゲであったり,1356,1356,9495,形容詞,*,ナ形容詞,デアル列タ系連用タリ形,アレゲだ,アレゲであったり,自動獲得:テキスト
 98 アレゲです,1370,1370,9495,形容詞,*,ナ形容詞,デス列基本形,アレゲだ,アレゲです,自動獲得:テキスト
 99 アレゲでしょう,1371,1371,9495,形容詞,*,ナ形容詞,デス列基本推量形,アレゲだ,アレゲでしょう,自動獲得:テキスト
100 アレゲでしょ,1372,1372,9495,形容詞,*,ナ形容詞,デス列基本省略推量形,アレゲだ,アレゲでしょ,自動獲得:テキスト
101 アレゲでした,1364,1364,9495,形容詞,*,ナ形容詞,デス列タ形,アレゲだ,アレゲでした,自動獲得:テキスト
102 アレゲでしたろう,1365,1365,9495,形容詞,*,ナ形容詞,デス列タ系推量形,アレゲだ,アレゲでしたろう,自動獲得:テキスト
103 アレゲでしたろ,1367,1367,9495,形容詞,*,ナ形容詞,デス列タ系省略推量形,アレゲだ,アレゲでしたろ,自動獲得:テキスト
104 アレゲでしたら,1366,1366,9495,形容詞,*,ナ形容詞,デス列タ系条件形,アレゲだ,アレゲでしたら,自動獲得:テキスト
105 アレゲでして,1369,1369,9495,形容詞,*,ナ形容詞,デス列タ系連用テ形,アレゲだ,アレゲでして,自動獲得:テキスト
106 アレゲでしたり,1368,1368,9495,形容詞,*,ナ形容詞,デス列タ系連用タリ形,アレゲだ,アレゲでしたり,自動獲得:テキスト
107 アレゲや,1378,1378,9495,形容詞,*,ナ形容詞,ヤ列基本形,アレゲだ,アレゲや,自動獲得:テキスト
108 アレゲやろう,1379,1379,9495,形容詞,*,ナ形容詞,ヤ列基本推量形,アレゲだ,アレゲやろう,自動獲得:テキスト
109 アレゲやろ,1380,1380,9495,形容詞,*,ナ形容詞,ヤ列基本省略推量形,アレゲだ,アレゲやろ,自動獲得:テキスト
110 アレゲやった,1373,1373,9495,形容詞,*,ナ形容詞,ヤ列タ形,アレゲだ,アレゲやった,自動獲得:テキスト
111 アレゲやったろう,1374,1374,9495,形容詞,*,ナ形容詞,ヤ列タ系推量形,アレゲだ,アレゲやったろう,自動獲得:テキスト
112 アレゲやったろ,1376,1376,9495,形容詞,*,ナ形容詞,ヤ列タ系省略推量形,アレゲだ,アレゲやったろ,自動獲得:テキスト
113 アレゲやったら,1375,1375,9495,形容詞,*,ナ形容詞,ヤ列タ系条件形,アレゲだ,アレゲやったら,自動獲得:テキスト
114 アレゲやったり,1377,1377,9495,形容詞,*,ナ形容詞,ヤ列タ系連用タリ形,アレゲだ,アレゲやったり,自動獲得:テキスト
115   ...
116 ノブさん,1382,1382,9495,形容詞,*,ナ形容詞,語幹,ノブさんだ,ノブさん,自動獲得:テキスト
117 ノブさんだ,1381,1381,9495,形容詞,*,ナ形容詞,基本形,ノブさんだ,ノブさんだ,自動獲得:テキスト
118 ノブさんな,1348,1348,9495,形容詞,*,ナ形容詞,ダ列基本連体形,ノブさんだ,ノブさんな,自動獲得:テキスト
119 ノブさんだろう,1345,1345,9495,形容詞,*,ナ形容詞,ダ列基本推量形,ノブさんだ,ノブさんだろう,自動獲得:テキスト
120 ノブさんだろ,1347,1347,9495,形容詞,*,ナ形容詞,ダ列基本省略推量形,ノブさんだ,ノブさんだろ,自動獲得:テキスト
121 ノブさんならば,1346,1346,9495,形容詞,*,ナ形容詞,ダ列基本条件形,ノブさんだ,ノブさんならば,自動獲得:テキスト
122 ノブさんに,1349,1349,9495,形容詞,*,ナ形容詞,ダ列基本連用形,ノブさんだ,ノブさんに,自動獲得:テキスト
123 ノブさんだった,1338,1338,9495,形容詞,*,ナ形容詞,ダ列タ形,ノブさんだ,ノブさんだった,自動獲得:テキスト
124 ノブさんだったろう,1339,1339,9495,形容詞,*,ナ形容詞,ダ列タ系推量形,ノブさんだ,ノブさんだったろう,自動獲得:テキスト
125 ノブさんだったろ,1341,1341,9495,形容詞,*,ナ形容詞,ダ列タ系省略推量形,ノブさんだ,ノブさんだったろ,自動獲得:テキスト
126 ノブさんだったら,1340,1340,9495,形容詞,*,ナ形容詞,ダ列タ系条件形,ノブさんだ,ノブさんだったら,自動獲得:テキスト
127 ノブさんで,1344,1344,9495,形容詞,*,ナ形容詞,ダ列タ系連用テ形,ノブさんだ,ノブさんで,自動獲得:テキスト
128 ノブさんだったり,1343,1343,9495,形容詞,*,ナ形容詞,ダ列タ系連用タリ形,ノブさんだ,ノブさんだったり,自動獲得:テキスト
129 ノブさんじゃ,1342,1342,9495,形容詞,*,ナ形容詞,ダ列タ系連用ジャ形,ノブさんだ,ノブさんじゃ,自動獲得:テキスト
130 ノブさんなる,1351,1351,9495,形容詞,*,ナ形容詞,ダ列文語連体形,ノブさんだ,ノブさんなる,自動獲得:テキスト
131 ノブさんなれば,1350,1350,9495,形容詞,*,ナ形容詞,ダ列文語条件形,ノブさんだ,ノブさんなれば,自動獲得:テキスト
132 ノブさんである,1359,1359,9495,形容詞,*,ナ形容詞,デアル列基本形,ノブさんだ,ノブさんである,自動獲得:テキスト
133 ノブさんであれ,1358,1358,9495,形容詞,*,ナ形容詞,デアル列命令形,ノブさんだ,ノブさんであれ,自動獲得:テキスト
134 ノブさんであろう,1360,1360,9495,形容詞,*,ナ形容詞,デアル列基本推量形,ノブさんだ,ノブさんであろう,自動獲得:テキスト
135 ノブさんであろ,1362,1362,9495,形容詞,*,ナ形容詞,デアル列基本省略推量形,ノブさんだ,ノブさんであろ,自動獲得:テキスト
136 ノブさんであれば,1361,1361,9495,形容詞,*,ナ形容詞,デアル列基本条件形,ノブさんだ,ノブさんであれば,自動獲得:テキスト
137 ノブさんであり,1363,1363,9495,形容詞,*,ナ形容詞,デアル列基本連用形,ノブさんだ,ノブさんであり,自動獲得:テキスト
138 ノブさんであった,1352,1352,9495,形容詞,*,ナ形容詞,デアル列タ形,ノブさんだ,ノブさんであった,自動獲得:テキスト
139 ノブさんであったろう,1353,1353,9495,形容詞,*,ナ形容詞,デアル列タ系推量形,ノブさんだ,ノブさんであったろう,自動獲得:テキスト
140 ノブさんであったろ,1355,1355,9495,形容詞,*,ナ形容詞,デアル列タ系省略推量形,ノブさんだ,ノブさんであったろ,自動獲得:テキスト
141 ノブさんであったら,1354,1354,9495,形容詞,*,ナ形容詞,デアル列タ系条件形,ノブさんだ,ノブさんであったら,自動獲得:テキスト
142 ノブさんであって,1357,1357,9495,形容詞,*,ナ形容詞,デアル列タ系連用テ形,ノブさんだ,ノブさんであって,自動獲得:テキスト
143 ノブさんであったり,1356,1356,9495,形容詞,*,ナ形容詞,デアル列タ系連用タリ形,ノブさんだ,ノブさんであったり,自動獲得:テキスト
144 ノブさんです,1370,1370,9495,形容詞,*,ナ形容詞,デス列基本形,ノブさんだ,ノブさんです,自動獲得:テキスト
145 ノブさんでしょう,1371,1371,9495,形容詞,*,ナ形容詞,デス列基本推量形,ノブさんだ,ノブさんでしょう,自動獲得:テキスト
146 ノブさんでしょ,1372,1372,9495,形容詞,*,ナ形容詞,デス列基本省略推量形,ノブさんだ,ノブさんでしょ,自動獲得:テキスト
147 ノブさんでした,1364,1364,9495,形容詞,*,ナ形容詞,デス列タ形,ノブさんだ,ノブさんでした,自動獲得:テキスト
148 ノブさんでしたろう,1365,1365,9495,形容詞,*,ナ形容詞,デス列タ系推量形,ノブさんだ,ノブさんでしたろう,自動獲得:テキスト
149 ノブさんでしたろ,1367,1367,9495,形容詞,*,ナ形容詞,デス列タ系省略推量形,ノブさんだ,ノブさんでしたろ,自動獲得:テキスト
150 ノブさんでしたら,1366,1366,9495,形容詞,*,ナ形容詞,デス列タ系条件形,ノブさんだ,ノブさんでしたら,自動獲得:テキスト
151 ノブさんでして,1369,1369,9495,形容詞,*,ナ形容詞,デス列タ系連用テ形,ノブさんだ,ノブさんでして,自動獲得:テキスト
152 ノブさんでしたり,1368,1368,9495,形容詞,*,ナ形容詞,デス列タ系連用タリ形,ノブさんだ,ノブさんでしたり,自動獲得:テキスト
153 ノブさんや,1378,1378,9495,形容詞,*,ナ形容詞,ヤ列基本形,ノブさんだ,ノブさんや,自動獲得:テキスト
154 ノブさんやろう,1379,1379,9495,形容詞,*,ナ形容詞,ヤ列基本推量形,ノブさんだ,ノブさんやろう,自動獲得:テキスト
155 ノブさんやろ,1380,1380,9495,形容詞,*,ナ形容詞,ヤ列基本省略推量形,ノブさんだ,ノブさんやろ,自動獲得:テキスト
156 ノブさんやった,1373,1373,9495,形容詞,*,ナ形容詞,ヤ列タ形,ノブさんだ,ノブさんやった,自動獲得:テキスト
157 ノブさんやったろう,1374,1374,9495,形容詞,*,ナ形容詞,ヤ列タ系推量形,ノブさんだ,ノブさんやったろう,自動獲得:テキスト
158 ノブさんやったろ,1376,1376,9495,形容詞,*,ナ形容詞,ヤ列タ系省略推量形,ノブさんだ,ノブさんやったろ,自動獲得:テキスト
159 ノブさんやったら,1375,1375,9495,形容詞,*,ナ形容詞,ヤ列タ系条件形,ノブさんだ,ノブさんやったら,自動獲得:テキスト
160 ノブさんやったり,1377,1377,9495,形容詞,*,ナ形容詞,ヤ列タ系連用タリ形,ノブさんだ,ノブさんやったり,自動獲得:テキスト

まぁ現実のテキストには出現するだろうけどさぁ、少なくとも「ちゃんと管理しよう」って辞書ではないのよね。少なくとも「ノブさんやろ」が辞書に入っている価値などなかろう。

そんなわけで neologd で考えたのと同じく「使えるものだけ抽出出来ないかしら?」と、「Wikipedia.csv」相手に:

 1 # -*- coding: utf-8 -*-
 2 import os
 3 import io
 4 import sys
 5 import re
 6 import csv
 7 import logging
 8 
 9 
10 _jddir = "mecab-jumandic-7.0-20130310"
11 
12 
13 def _main():
14     #_c = set()
15     _Noun_org = []
16     _Noun_area = []
17     for line in csv.reader(
18         io.open(os.path.join(_jddir, "Wikipedia.csv"), encoding="utf-8")):
19         #_c.add(tuple(line[4:6]))
20         if line[4:6] == ['名詞', '組織名'] and re.match(r"[ぁ-んー]", line[9]):
21             _Noun_org.append((line[0], line[9], line[10]))
22         elif line[4:6] == ['名詞', '地名'] and re.match(r"[ぁ-んー]", line[9]):
23             _Noun_area.append((line[0], line[9], line[10]))
24     logging.info("\n".join([", ".join(item) for item in sorted(list(_Noun_org))]))
25     logging.info("")
26     logging.info("")
27     logging.info("\n".join([", ".join(item) for item in sorted(list(_Noun_area))]))
28     #名詞, サ変名詞
29     #名詞, 人名
30     #名詞, 固有名詞
31     #名詞, 地名
32     #名詞, 普通名詞
33     #名詞, 組織名
34 
35 
36 if __name__ == '__main__':
37     logging.basicConfig(stream=sys.stderr, level=logging.INFO)
38     _main()

「読みがないのはいらん」「せめて地名・組織名くらいはまともなのが取れてるかな?」と思った、という痕跡である。しかしながら…:

 1    ...
 2 めこん, めこん, 自動獲得:Wikipedia Wikipedia上位語:出版社
 3 や団, やだん, 自動獲得:Wikipedia Wikipedia上位語:お笑いトリオ
 4 よゐこ, よいこ, 自動獲得:Wikipedia Wikipedia上位語:お笑いコンビ
 5 わしお, わしお, 自動獲得:Wikipedia Wikipedia上位語:運営会社
 6    ...
 7 三遊亭圓丈, さんゆうていえんじょう, 自動獲得:Wikipedia Wikipedia上位語:名跡
 8 三遊亭圓丸, さんゆうていえんまる, 自動獲得:Wikipedia Wikipedia上位語:名跡
 9 三遊亭圓之助, さんゆうていえんのすけ, 自動獲得:Wikipedia Wikipedia上位語:名跡
10 三遊亭圓右, さんゆうていえんう, 自動獲得:Wikipedia Wikipedia上位語:名跡
11 三遊亭圓太, さんゆうていえんた, 自動獲得:Wikipedia Wikipedia上位語:名跡
12 三遊亭圓好, さんゆうていえんこう, 自動獲得:Wikipedia Wikipedia上位語:名跡
13 三遊亭圓子, さんゆうてうえんこ, 自動獲得:Wikipedia Wikipedia上位語:名跡
14 三遊亭圓左, さんゆうていえんさ, 自動獲得:Wikipedia Wikipedia上位語:名跡
15 三遊亭圓彌, さんゆうていえんや, 自動獲得:Wikipedia Wikipedia上位語:名跡
16 三遊亭圓橘, さんゆうていえんきつ, 自動獲得:Wikipedia Wikipedia上位語:名跡
17 三遊亭圓歌, さんゆうていえんか, 自動獲得:Wikipedia Wikipedia上位語:名跡
18 三遊亭圓若, さんゆうていえんじゃく, 自動獲得:Wikipedia Wikipedia上位語:名跡
19 三遊亭圓輔, さんゆうていえんすけ, 自動獲得:Wikipedia Wikipedia上位語:名跡
20 三遊亭圓遊, さんゆうていえんゆう, 自動獲得:Wikipedia Wikipedia上位語:名跡
21 三遊亭圓雀, さんゆうていえんじゃく, 自動獲得:Wikipedia Wikipedia上位語:名跡
22 三遊亭圓馬, さんゆうていえんば, 自動獲得:Wikipedia Wikipedia上位語:名跡
23 三遊亭圓龍, さんゆうていえんりゅう, 自動獲得:Wikipedia Wikipedia上位語:名跡
24   ...

なんぢゃこりゃ、と。「組織名?」「地域?」てのがワンサカ。ヘアーサロン、なんてのもこのカテゴリにがんがん入ってきた。落語家は名跡なのだろうか。

てわけで、ここから「欲しいものだけ欲しい」ためには、丹念に凝視して選ぶ以外になさそうである。167709 レコードから。てわけで、何もここから取らんでも、て気分になり、まぁ必要ないかなぁと。

まぁほんとにじっくり丹念に見てれば価値のある抽出も出来ないことはないだろうけどね、少なくともこのプロジェクトにこだわる理由はないわ。


P.S. 「えろかろう」系は自分のにも登録してもいいかなぁ、とは思ってる。ので、1bitとて役に立たなかった、というもんでもない。IPA辞書形式への読み替えは手間だけれどね。