「Tabulator 4.9.3 → 5.0.6」乗り換え、兼「声優世代表のおとも」

一応 5.0.6 が現時点で CDN にあがってる公式最新。

2021-11-03追記: 最低でも、initialHeaderFilter を使いたい場合は、5.0.6 には乗り換えないこと。
5.0.6 では動作してない。本日時点では issue tracker には挙がってないし、ワタシも当座は慌てて報告するつもりもない。

PDF ドキュメントダウンロードの例が動作しないなど、5.0 ドキュメントはまだ
不完全なようなので、不安であれば 4.x にとどめておくほうがいいかもね。ともあれ。

4.2.7 から 4.9.3 に乗り換えたが、5.0.6 もやってみて「tooltips はいずれ使えなくなるぜぼうず」警告が出たので 4.9.3 で止めた、てこと。いいねぇ、ちゃんとドキュメントに全部書いてあるわ。ゆえに:

ところで、「Tabulator バージョン乗り換え」とは全然無関係に、「没時年齢」も表示したくなった。冗長データとして計算済データを作っておくのではなく、没年月日から計算で求めるフォーマッタで実現する場合、その計算は2つのフィールドを参照することになる。

記憶では以前 Tabulator で遊んでた数年前はもっとこういった実現のための機能を探すのに苦労してた記憶があるのだが、たぶんそのときの記憶が間違いでないなら、かなりドキュメントが使いやすくなってる。たぶん「Component Objects」みたいにまとまった記述は、以前はなかったと思うんだよなぁ。細かなパーマネントリンクがないという点だけは相変わらず不満なままだが、さすがにここまでちゃんとしてると、あまり文句を言わないでおいてあげようか、と、優しい気持ちになる。

やりたいことのための改造は「function _calcage」部分のみ:

ver 5、だったっけ?
細かな修正をしつつの ver 6、でしたっけ?
  1 # -*- coding: utf-8 -*-
  2 # require: python 3, bs4
  3 """
  4 「wikipedia声優ページ一覧」(など)を入力として、およそ世代関係を把握しやすい
  5 html テーブルを生成する。
  7 該当アーティストが情報を公開しているかどうかと wikipedia 調べがすべて一致する
  8 かどうかは誰も保証出来ない。正しい公開情報が真実である保証もない。という、元
  9 データそのものについての注意はあらかじめしておく。そして、wikipedia における
 10 ペンディング扱い(「要出典」など)やその他補足情報はこのスクリプトは無視している
 11 ので、「確実かそうでないか」がこの道具の結果だけでは判別出来ないことにも注意。
 12 (wikipedia 本体を読んでいる限りは、正しくない可能性がまだ残っている場合、
 13 そうであるとわかることが多い。)
 15 ワタシの目下の目的が「声優世代表のおとも」なので、「生年月日非公開/不明」が困る。
 16 なので、wikipedia が管理しようとしている「活動期間」を補助的に使おうと考えた。
 17 これが活用出来る場合は「生誕年=活動開始-20年くらい」みたいな推測に使える。
 19 この情報の精度には、当たり前ながらかなりのバラつきがあるし、要約の仕方も統一感
 20 がない。たとえば「田中ちえ美」の声優活動は最低でも「サクラクエスト」の2017年に
 21 始まっているが、当該ページ執筆者が「声優アーティスト活動開始」の定義に基いて
 22 「音楽活動の活動期間は2021年-」と記述してしまっていて、かつ、声優活動としての
 23 開始を記述していない。ゆえにこの情報だけを拾うと「田中ちえ美の活動期間は2021年-」
 24 であると誤って判断してしまいかねない。そもそもが「サクラクエスト」にてキャラク
 25 ターソングを出しているので、定義次第では「音楽活動の活動期間は2021年-」も誤って
 26 いる。また、「2011年」のように年を特定出来ずに「2010年代」と要約しているページ
 27 も多く、これも結構使いにくい。
 29 ので、「テレビアニメ」などの配下の「2012年」みたいな年ごとまとめ見出しの最小値を、
 30 活動期間の情報として補助的に拾ってる。
 32 活動期間は年齢の推測にも使えるけれど、「声優世代表のおとも」として考える場合は、
 33 生年月日と活動期間の両方が既知でこその面白さがある。たとえば黒沢ともよ、宮本侑芽、
 34 諸星すみれ、浪川大輔などの子役出身者の例。あるいは逆に「遅咲き」と言われる役者。
 36 なお、日本語版では不明となっているのに英語版には記載されていることがあり、この
 37 スクリプトはそれも拾うが、これがアーティスト自身の公開非公開選択の方針とはより
 38 ズレる可能性があることには一応注意。(日本語版では判明情報を本人方針尊重で隠して
 39 いるのに、英語版ではそれが届いていない、のようなこと。)
 40 """
 41 import io
 42 import os
 43 import sys
 44 import tempfile
 45 import shutil
 46 import ssl
 47 import re
 48 import json
 49 import urllib
 50 import urllib.request
 51 from urllib.request import urlretrieve as urllib_urlretrieve
 52 from urllib.request import quote as urllib_quote
 55 import bs4  # require: beutifulsoup4
 58 __MYNAME__, _ = os.path.splitext(
 59     os.path.basename(sys.modules[__name__].__file__))
 60 #
 61 __USER_AGENT__ = "\
 62 Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
 63 AppleWebKit/537.36 (KHTML, like Gecko) \
 64 Chrome/91.0.4472.124 Safari/537.36"
 65 _htctxssl = ssl.create_default_context()
 66 _htctxssl.check_hostname = False
 67 _htctxssl.verify_mode = ssl.CERT_NONE
 68 https_handler = urllib.request.HTTPSHandler(context=_htctxssl)
 69 opener = urllib.request.build_opener(https_handler)
 70 opener.addheaders = [('User-Agent', __USER_AGENT__)]
 71 urllib.request.install_opener(opener)
 72 #
 75 _urlretrieved = dict()
 78 def _urlretrieve(url):
 79     if url in _urlretrieved:
 80         return _urlretrieved[url]
 82     def _gettemppath(s):
 83         tmptopdir = os.path.join(tempfile.gettempdir(), __MYNAME__)
 84         if not os.path.exists(tmptopdir):
 85             os.makedirs(tmptopdir)
 86         import hashlib, base64
 87         ep = base64.urlsafe_b64encode(
 88             hashlib.md5(s.encode("utf-8")).digest()
 89         ).partition(b"=")[0].decode()
 90         return os.path.join(tmptopdir, ep)
 92     cachefn = _gettemppath(url)
 93     if os.path.exists(cachefn):
 94         res = cachefn
 95     else:
 96         try:
 97             res, _ = urllib_urlretrieve(url, filename=cachefn)
 98         except Exception:
 99             from urllib.request import unquote as urllib_unquote
100             print(url, repr(urllib_unquote(url)))
101             raise
102     _urlretrieved[url] = res
103     return res
106 def _from_wp_jp(actorpagename):
107     baseurl = "https://ja.wikipedia.org/wiki/"
108     pn = urllib_quote(actorpagename, encoding="utf-8")
109     fn = _urlretrieve(baseurl + pn)
111     result = {"wikipedia": actorpagename, "名前": [actorpagename.partition("_")[0]]}
112     with io.open(fn, "r", encoding="utf-8") as fi:
113         soup = bs4.BeautifulSoup(fi.read(), features="html.parser")
114         entr = soup.find("a", {"class": "interlanguage-link-target", "lang": "en"})
115         if entr:
116             result["wikipedia_en"] = entr.attrs["href"]
117         try:
118             categos = [
119                 a.text
120                 for a in soup.find("div", {"id": "mw-normal-catlinks"}).find_all("a")]
121         except Exception:
122             return result
123         try:
124             trecords = iter(
125                 soup.find("table", {"class": "infobox"}).find("tbody").find_all("tr"))
126         except Exception:
127             return result
128         tr = next(trecords)
129         result["名前"] += [
130             re.sub(r"\[[^\[\]]+\]", "", sp.text)
131             for sp in tr.find("th").find_all("span")]
133         actst = float("inf")
134         actst_rough = None
135         for tr in trecords:
136             th, td = tr.find("th"), tr.find("td")
137             if not th or not td:
138                 continue
139             k = th.text.replace("\n", "").replace(
140                 "誕生日", "生年月日").replace("生誕", "生年月日")
141             k = re.sub("身長.*$", "身長/体重", k)
142             if k in ("事務所", "レーベル"):
143                 k = "事務所・レーベル"
144             v = ""
145             if td:
146                 if td.find("li"):
147                     td = "\n".join([li.text for li in td.find_all("li")])
148                 elif td.find("br"):
149                     td = bs4.BeautifulSoup(
150                         re.sub(r"<br\s*/?>", r"\n", str(td)), features="html.parser").text.strip()
151                 else:
152                     td = td.text
153                 v = re.sub(
154                     r"\[[^\[\]]+\]", "\n", td).strip()
155                 if k == "活動期間":
156                     m = re.match(r"(\d+)年(代)?", v)
157                     if m:
158                         if not m.group(2):
159                             actst = min(float(m.group(1)), actst)
160                         else:
161                             actst_rough = m.group(0)
162                     continue
163                 elif k in ("生年月日", "没年月日"):
164                     m1 = re.search(r"\d+-\d+-\d+", v)
165                     m2 = re.search(r"(\d+)月(\d+)日", v)
166                     if m1:
167                         v = m1.group(0)
168                     elif m2:
169                         v = "0000-{:02d}-{:02d}".format(
170                             *list(map(int, m2.group(1, 2))))
171                     else:
172                         v = ""
173             v = re.sub(
174                 r"(、\s*)+", "、",
175                 "、".join(re.sub(r"\n+", r"\n", v).split("\n")))
176             if k in ("デビュー作", "事務所・レーベル", "共同作業者", "ジャンル",):
177                 v = "、".join(list(filter(None, [result.get(k), v])))
178             if k == "身長/体重":
179                 v = re.sub(r"\s*、\s*cm", " cm", v)  # なんで??
180             result[k] = v
181         for stt, sta in (("dt", {}), ("b", {})):
182             for dtt in [
183                     dt.text
184                     for dt in soup.find_all(stt, sta) if re.match(r"\d+年$", dt.text)]:
185                 actst = min(float(re.search(r"(\d+)年", dtt).group(1)), actst)
186         try:
187             result["actst"] = "{:04d}".format(int(actst))
188         except OverflowError:
189             if actst_rough:
190                 result["actst"] = actst_rough
191             else:
192                 result["actst"] = "0000"
193         if not result.get("生年月日"):
194             result["生年月日"] = "0000-??-??"
195         if not result.get("性別"):
196             if any([("男性" in c or "男優" in c) for c in categos]):
197                 result["性別"] = "男性"
198             elif any([("女性" in c or "女優" in c) for c in categos]):
199                 result["性別"] = "女性"
200             else:
201                 #print(result["名前"])
202                 result["性別"] = " "
203         result["性別"] = result["性別"][0]
204     return result
207 def _from_wp_en(result):
208     # 基本的に日本語版を信じ、欠落のものだけ英語版に頼ることにする。
209     if "0000" not in result["生年月日"]:
210         return result
211     try:
212         fn = _urlretrieve(result["wikipedia_en"])
213     except urllib.error.HTTPError:
214         return result
215     with io.open(fn, "r", encoding="utf-8") as fi:
216         soup = bs4.BeautifulSoup(fi.read(), features="html.parser")
217         try:
218             trecords = iter(
219                 soup.find("table", {"class": "infobox"}).find("tbody").find_all("tr"))
220         except Exception:
221             return result
222         for tr in trecords:
223             th, td = tr.find("th"), tr.find("td")
224             if not th or not td:
225                 continue
226             k_en = th.text.strip()
227             if k_en == "Born":
228                 if "0000" in result["生年月日"]:
229                     bd = td.find("span", {"class": "bday"})
230                     if bd:
231                         bd = re.sub(r"\[[^\[\]]+\]", "", bd.text)
232                         result["生年月日"] = bd
233     return result
236 def _from_wp(actorpagename):
237     result = _from_wp_jp(actorpagename)
238     if "wikipedia_en" in result:
239         _from_wp_en(result)
240     return result
243 if __name__ == '__main__':
244     def _yrgrp(ymd, actst):
245         y = 0
246         if ymd:
247             y, _, md = ymd.partition("-")
248             y = int(y)
249             if y and md < "04-02":
250                 y -= 1
251         return list(
252             map(lambda s: s.replace("0000", "????"),
253                 ["{:04d}".format(y), actst, ymd]))
255     actorpages = list(set(
256         map(lambda s: s.strip(),
257             io.open("wppagenames.txt", encoding="utf-8").read().strip().split("\n"))))
258     result = []
259     for a in filter(None, actorpages):
260         inf = _from_wp(a)
261         g = _yrgrp(inf.get("生年月日", ""), inf.get("actst", "0000"))
262         result.append((
263             g[0], g[1], g[2],
264             inf.get("没年月日", ""),
265             inf.get("性別", ""),
266             inf["wikipedia"],
267             ", ".join(inf["名前"]),
268             inf.get("血液型", "-"),
269             "、".join(list(filter(None, [inf.get("出生地", ""), inf.get("出身地", "")]))),
270             inf.get("愛称", "-"),
271             inf.get("身長/体重", "-"),
272             inf.get("事務所・レーベル", "-"),
273             inf.get("デビュー作", ""),
274             inf.get("共同作業者", ""),
275         ))
276     result.sort()
277     with io.open("actor_basinf.html", "w", encoding="utf-8") as fo:
278         coln = [
279             "by",  # 生誕年度
280             "as",  # 活動開始年?
281             "bymd",  # 生年月日
282             "dymd",  # 没年月日
283             "gen",  # 性別
284             "wp",  # wikipedia
285             "nm",  # 名前
286             "bld",  # 血液型
287             "bor",  # 出生地・出身地
288             "nn",  # 愛称
289             "tw",  # 身長/体重
290             "bel",  # 事務所・レーベル
291             "fst",  # デビュー作
292             "tea",  # 共同作業者
293             ]
294         print("""\
295 <html>
296 <head jang="ja">
297 <meta charset="UTF-8">
298 <link href="https://cdnjs.cloudflare.com/ajax/libs/tabulator/5.0.6/css/tabulator_site.min.css" rel="stylesheet">
299 <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/tabulator/5.0.6/js/tabulator.min.js"></script>
301 <!--
302 {}
303   -->
304 </head>""".format(__doc__), file=fo)
305         print("""\
306 <body>
307 <div style="margin: 1em 0em">
308 <select id="filter-gender">
309   <option value=""></option>
310   <option value="男">男性のみ</option>
311   <option value="女">女性のみ</option>
312 </select>
313 <select id="filter-alive">
314   <option></option>
315   <option>存命者のみ</option>
316   <option>死没者のみ</option>
317 </select>
318 </div>
319 <div id="actor_basinf"></div>
320 <script>
321 var filter_gender = document.getElementById("filter-gender");
322 function _update_genderfilter() {
323     let i = filter_gender.selectedIndex;
324     let v = filter_gender.options[i].value;
325     let eflts = table.getFilters(true);
326     for (let efi in eflts) {
327         let f = eflts[efi];
328         if (f["field"] == "gen") {
329             table.removeFilter(f["field"], f["type"], f["value"]);
330             break;
331         }
332     }
333     if (v) {
334         table.addFilter("gen", "regex", v);
335     }
336 }
337 filter_gender.addEventListener("change", _update_genderfilter);
338 var filter_alive = document.getElementById("filter-alive");
339 function _update_alivefilter() {
340     let i = filter_alive.selectedIndex;
341     let eflts = table.getFilters(true);
342     for (let efi in eflts) {
343         let f = eflts[efi];
344         if (f["field"] == "dymd") {
345             table.removeFilter(f["field"], f["type"], f["value"]);
346             break;
347         }
348     }
349     if (i == 1) {
350         table.addFilter("dymd", "=", "");
351     } else if (i == 2) {
352         table.addFilter("dymd", "!=", "");
353     }
354 }
355 filter_alive.addEventListener("change", _update_alivefilter);
357 function _dt2int(dt) {
358     function _pad(n) {
359         let ns = "" + Math.abs(n);
360         if (ns.length === 1) {
361             ns = "0" + ns;
362         }
363         return ns;
364     }
365     return parseInt(dt.getFullYear() + _pad(dt.getMonth() + 1) + _pad(dt.getDate()));
366 }
367 var nowi = _dt2int(new Date());
368 function _calcage(cell, formatterParams) {
369     var v = cell.getValue().replace(new RegExp("\-", "g"), "");
370     if (v.startsWith("????")) {
371         return "";
372     }
373     v = parseInt(v);
374     var result = "" + parseInt((nowi - v) / 10000);
375     result += "歳";
376     var d = cell.getRow().getCell("dymd").getValue().replace(new RegExp("\-", "g"), "");
377     if (d) {
378         result += " (";
379         result += parseInt((parseInt(d) - v) / 10000);
380         result += "歳没)";
381     }
382     return result;
383 }
386 var actor_basinf_data = """, file=fo)
387         json.dump(
388             [dict(zip(coln, row)) for row in result],
389             fo, ensure_ascii=False, indent=4)
390         print("""
391 var table = new Tabulator("#actor_basinf", {
392     "height": "800px",
393     "columnDefaults": {
394         /* 注意: 「tooltips」ではない。「tooltip」である。 */
395         "tooltip": true,
397         /* これはいつから使えたのかな? かつては「columnDefaults」の外にいたやつ。 */
398         "headerSortTristate": true,
399     },
400     "columns": [
401         {
402             "field": "by",
403             "title": "生誕年度",
404             "headerFilter": "input",
405             "headerFilterFunc": "regex",
406         },
407         {
408             "field": "as",
409             "title": "活動開始年?",
410             "headerFilter": "input",
411             "headerFilterFunc": "regex",
412         },
413         {
414             "field": "bymd",
415             "title": "生年月日",
416         },
417         {
418             "field": "bymd",
419             "formatter": _calcage,
420             "headerTooltip": "存命の場合は年齢そのもの。亡くなっている方の場合は「生きていれば~歳」。 "
421         },
422         {
423             "field": "dymd",
424             "title": "没年月日",
425         },
426         {
427             "field": "gen",
428             "title": "性別",
429         },
430         {
431             "field": "nm",
432             "title": "名前",
433             "headerFilter": "input",
434             "headerFilterFunc": "regex",
435         },
436         {
437             "field": "wp",
438             "title": "wikipedia",
439             "headerFilter": "input",
440             "headerFilterFunc": "regex",
441             "formatter": function (cell, formatterParams, onRendered) {
442                 let pn = cell.getValue();
443                 return "<a href='https://ja.wikipedia.org/wiki/" +
444                     pn + "' target=_blank>" + pn + "</a>";
445             },
446         },
447         {
448             "field": "bld",
449             "title": "血液型",
450             "headerFilter": "input",
451             "headerFilterFunc": "regex",
452         },
453         {
454             "field": "bor",
455             "title": "出生地・出身地",
456             "headerFilter": "input",
457             "headerFilterFunc": "regex",
458         },
459         {
460             "field": "nn",
461             "title": "愛称",
462             "headerFilter": "input",
463             "headerFilterFunc": "regex",
464         },
465         {
466             "field": "tw",
467             "title": "身長/体重",
468             "headerFilter": "input",
469             "headerFilterFunc": "regex",
470         },
471         {
472             "field": "bel",
473             "title": "事務所・レーベル",
474             "headerFilter": "input",
475             "headerFilterFunc": "regex",
476         },
477         {
478             "field": "fst",
479             "title": "デビュー作",
480             "headerFilter": "input",
481             "headerFilterFunc": "regex",
482         },
483         {
484             "field": "tea",
485             "title": "共同作業者",
486             "headerFilter": "input",
487             "headerFilterFunc": "regex",
488         },
489   ], 
490   "layout": "fitColumns",
491   "data": actor_basinf_data
492 });
493 </script>
494 </html>
495 """, file=fo)