PyAV で「Viewing the CaffeNet model's predictation and its target video at the same time. 」な動画を作る、の巻

ここ一ヶ月くらいのネタは元はと言えばこれが「目先の」ゴールだったりした。

2017-12-15 追記: 以下参照:

ダウンロードという行為そのものが youtube の利用規約に反することを知りませんでした。(なお、ダウンロードするだけで著作権法違反となる、という話ではない。)以下一応読めるようにはしておくけれど、出来れば読まないで。

2017-07-28追記: ここに書いてるコードは少し問題ありだけれどもそのままにしている。どう問題だったのかについてはこちらに書いておいた。

wavefile の扱いだったり、FFT だったり、そもそもがシンプルな画像処理(Pillow)だったり、そして ffmpeg だったり。これらは全て「機械学習にまつわるデータ処理のエクササイズ」、であった。

深層学習に限らず機械学習の分野は、個人的に「お世話になりそう」というところまでは何度も行ったのに、検証時間不足やらで結局提案や実現に至らず、要するにこれまで「やらずじまい」だったのね。ベイズ回帰程度な、実際に活用まで行ったのは。

てわけでもう何年も「やりたい」と思いながら深くやる機会も時間もなく、だけど時間も出来たことだしようやく本格的に遊び始めてみよう、てのがワタシの今の状態。丁度今深層学習がブームでもあるしね。てわけで、本まで買って勉強し始めたとこ。

インフラについては現状「評価云々」出来るレベルにはないので、ひとまず chainer で遊び始めている。

で、理解のための「入り口」としてはさ、「学習させるところから始める」ことではないと思ったのね、ワタシは。「学習済みの結果を使って予測させてみる」ことを実際に試みてみれば、「自分で全部やる場合のゴールのイメージ」をつかみやすかろうと。てわけで最初に選んだお題がこれ。この evaluate_caffe_net.py をチマチマ静止画相手に動かして按配をみていたんだけれども…。

実際「静止画相手」てのが結構大変で、「色んな静止画をお取り寄せる」ことがもう、あんまり理想的な勉強環境ではないのね。いやいや動画相手の方が手っ取り早いっしょ、と。(実際「学習させるデータ」としても、うまくすれば理想かもしらんし。)

そんな理由で白羽の矢を立てたのが PyAV。直接フレームを取り出せて、書き出しも出来る。だからフレーム単位に予測させて、その結果を動画に埋め込めるであろう、と。

てわけでやってみたのである。

evaluate_caffe_net.pyを実際に動かしてみればわかるんだけれど、モデルの読み込みに非常に時間がかかる。3分くらいかしら? caffenet model などは皆でよってたかって育てているモデルだから、凄まじくデカい。bvlc_reference_caffenet.caffemodel は 233MB。3分かかるのはこの大きさのせいだけではなかろうが、とにかくこのバッチスクリプトの構造のままでは、ワタシがやりたいことをやるのはむつかしい(特に試行錯誤を伴うので)。

なので、このバッチを単純化して CaffeNet model に限定したものを「サービス」化しておく:

predict_server.py

1 import sys 2 import logging 3 import struct 4 import SocketServer # python 2.7 5 from io import BytesIO, StringIO 6 from textwrap import TextWrapper 7 import json 8 9 import numpy as np 10 from PIL import Image, ImageOps 11 12 import chainer 13 import chainer.functions as F 14 from chainer.links import caffe 15 16 if __name__ == "__main__": 17 logging.basicConfig(stream=sys.stderr, level=logging.INFO) 18 19 # 20 chainer.config.train = False # All the codes will run in test mode 21 logging.info("Loading synset_words.") 22 categories = np.loadtxt('synset_words.txt', str, delimiter='\t') 23 logging.info("Loaded synset_words.") 24 logging.info("Loading mean image file.") 25 mean_image = np.load("ilsvrc_2012_mean.npy") 26 logging.info("Loaded mean image file.") 27 logging.info("Loading caffenet model.") 28 func = caffe.CaffeFunction("bvlc_reference_caffenet.caffemodel") 29 logging.info("Loaded caffenet model.") 30 in_size = 227 31 def predict(x): 32 y, = func(inputs={'data': x}, outputs=['fc8']) 33 return F.softmax(y) 34 start = (256 - in_size) // 2 35 stop = start + in_size 36 mean_image = mean_image[:, start:stop, start:stop].copy() 37 x_batch = np.ndarray((1, 3, in_size, in_size), dtype=np.float32) 38 # 39 txtwrap = TextWrapper(width=50, subsequent_indent=" " * 9).fill 40 # 41 42 def _resize_to_square(img, fill=0): 43 if img.width > img.height: 44 border = (0, (img.width - img.height) // 2) 45 elif img.width < img.height: 46 border = ((img.height - img.width) // 2, 0) 47 else: 48 return img.copy() 49 return ImageOps.expand(img, border, fill) 50 51 def _image_pred(img): 52 forpred = np.asarray(img.resize((256, 256))).transpose(2, 0, 1)[::-1] 53 forpred = forpred[:, start:stop, start:stop].astype(np.float32) 54 forpred -= mean_image 55 x_batch[0] = forpred 56 out = StringIO() 57 with chainer.no_backprop_mode(): 58 score = predict(np.asarray(x_batch)) 59 prediction = zip(score.data[0].tolist(), categories) 60 prediction.sort(cmp=lambda r, sn: cmp(r[0], sn[0]), reverse=True) 61 for rank, (score, name) in enumerate(prediction[:7], start=1): 62 cid, _, cname = name.partition(" ") 63 out.write(txtwrap(u"%5.1f%% | %s" % (score * 100, cname))) 64 out.write(u"\n") 65 return out.getvalue().encode() 66 67 class ChainerPredictorHandler(SocketServer.BaseRequestHandler): 68 def _get_img(self): 69 imgbytessize = struct.unpack("!I", self.request.recv(4))[0] 70 logging.info("imgbytessize={}".format(imgbytessize)) 71 # 72 bimg = BytesIO() 73 chunk_size = 1024 74 read = 0 75 while read < imgbytessize: 76 b = self.request.recv(chunk_size) 77 read += len(b) 78 bimg.write(b) 79 # 80 bimg.seek(0) 81 return Image.open(bimg) 82 83 def handle(self): 84 # protocol: 85 # client send size of image 86 # client send image bytes 87 # server send text of predictation 88 logging.debug("begin handle request.") 89 img = self._get_img() 90 # ---------------------------------------- 91 txt = json.dumps(( 92 _image_pred(img), 93 _image_pred(_resize_to_square(img)))) 94 # ---------------------------------------- 95 self.request.sendall(txt) 96 logging.info("send result {} bytes".format(len(txt))) 97 logging.debug("end handle request.") 98 99 HOST, PORT = "localhost", 8988 100 server = SocketServer.TCPServer((HOST, PORT), ChainerPredictorHandler) 101 logging.info("start service.") 102 server.serve_forever()

このサービスはソケットから「イメージのサイズ」と「イメージのバイト列」を受け取って、その予測結果を(2種類)返す。

evaluate_caffe_net.py を書き換えるだけではこうはならないが、「予測」については初心者向けの本を参考に書き換えた。

ごちゃごちゃしてるうちの一つ、「_resize_to_square」はワタシの素朴な疑問を試してみたくてやってる。つまり、モデルに合わせて (256, 256) にリサイズする必要があるんだけれど、「アスペクト比を維持しなくていいの?」てこと。だからアスペクト比を維持するのとしないのとでの違いを見てみたかった。「_resize_to_square」が具体的にどんな画像を作り出すのかはまぁ読めばわかるとも思うけれど、個人的に何度も必要になりそうな予感がしたので、ここに例を書いておいた。

ともあれ本題のクライアントを書く前に実験用クライアント:

hoge.py

1 import socket 2 import sys 3 import struct 4 from io import BytesIO 5 from PIL import Image 6 7 HOST, PORT = "localhost", 8988 8 9 # Create a socket (SOCK_STREAM means a TCP socket) 10 sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 11 12 try: 13 # Connect to server and send data 14 sock.connect((HOST, PORT)) 15 img = Image.open(sys.argv[0]) 16 out = BytesIO() 17 img.save(out, "PNG") 18 imgbytes = out.getvalue() 19 sock.sendall(struct.pack('!I', len(imgbytes))) 20 sock.sendall(imgbytes) 21 22 # Receive data from the server and shut down 23 import json 24 for txt in json.loads(sock.makefile('r').readlines()[0]): 25 print(txt) 26 finally: 27 sock.close()

例えばこんな出力:

1 68.6% | rapeseed 2 14.9% | maze, labyrinth 3 1.8% | stone wall 4 1.6% | picket fence, paling 5 1.0% | worm fence, snake fence, snake-rail 6 fence, Virginia fence 7 0.9% | lakeside, lakeshore 8 0.9% | fountain 9 10 64.5% | rapeseed 11 4.7% | hay 12 3.0% | lakeside, lakeshore 13 2.6% | stone wall 14 2.2% | fountain 15 1.9% | dishrag, dishcloth 16 1.8% | picket fence, paling

てわけで、これを元に、本題の「動画を入力にし、予測結果を動画にそのまま書き込む」なクライアント:

1 import socket 2 import sys 3 import struct 4 import argparse 5 import signal 6 import logging 7 import json 8 from io import BytesIO 9 from multiprocessing import Process, Queue 10 from Queue import Empty 11 12 from PIL import Image, ImageFont, ImageDraw 13 import av 14 15 def _run(args, q): 16 def _IntHandler(signum, frame): 17 q.put("done") 18 19 signal.signal(signal.SIGINT, _IntHandler) 20 21 logging.basicConfig(stream=sys.stderr, level=logging.INFO) 22 HOST, PORT = "localhost", 8988 23 24 # 25 26 fnt = ImageFont.truetype('couri.ttf', 26) 27 28 icntnr = av.open(args.inputpath) 29 ocntnr = av.open(args.inputpath + ".out.mp4", "w") 30 31 ivstrm = next(s for s in icntnr.streams if s.type == b'video') 32 iastrm = next(s for s in icntnr.streams if s.type == b'audio') 33 ostrms = { 34 "audio": ocntnr.add_stream(codec_name=iastrm.codec.name, rate=iastrm.rate), 35 "video": ocntnr.add_stream(codec_name=ivstrm.codec.name, rate=ivstrm.rate), 36 } 37 ostrms["video"].width = ivstrm.width 38 ostrms["video"].height = ivstrm.height 39 40 if args.start_sec: 41 seek_pts_v = int(args.start_sec / float(ivstrm.time_base) + ivstrm.start_time) 42 seek_pts_a = int(args.start_sec / float(iastrm.time_base) + iastrm.start_time) 43 iastrm.seek(seek_pts_a) 44 ivstrm.seek(seek_pts_v) 45 46 def _get_pred(img): 47 sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 48 sock.connect((HOST, PORT)) 49 out = BytesIO() 50 img.save(out, "PNG") 51 imgbytes = out.getvalue() 52 sock.sendall(struct.pack('!I', len(imgbytes))) 53 sock.sendall(imgbytes) 54 txt = sock.makefile('r').readlines()[0] 55 sock.close() 56 return json.loads(txt) 57 58 count = 0 59 for packet in icntnr.demux(): 60 for ifr in packet.decode(): 61 try: 62 r = q.get(block=False, timeout=1/500.) 63 if r: 64 ocntnr.close() 65 return 66 except Empty as e: 67 pass 68 69 typ = packet.stream.type 70 ifr.pts = None 71 if typ == 'video': 72 img = ifr.to_image() 73 tmpdctx = ImageDraw.Draw(img) 74 # -------------------------------------------- 75 if count % args.step == 0: 76 txts = _get_pred(img) 77 logging.debug(txts) 78 # -------------------------------------------- 79 x = 30 80 for txt in txts: 81 txtsz = tmpdctx.multiline_textsize(txt, fnt) 82 osd = Image.new("RGB", (txtsz[0] + 10, txtsz[1] + 10), "white") 83 dctx = ImageDraw.Draw(osd) 84 dctx.multiline_text((5, 5), txt, font=fnt, fill="black") 85 del dctx 86 img.paste( 87 osd, 88 box=(x, 30, osd.size[0] + x, osd.size[1] + 30), 89 mask=Image.new("L", osd.size, 192)) 90 x += txtsz[0] + 50 91 del tmpdctx 92 93 ofr = av.VideoFrame.from_image(img) 94 for p in ostrms[typ].encode(ofr): 95 ocntnr.mux(p) 96 if count % args.step == 0: 97 logging.info("count={}".format(count)) 98 count += 1 99 else: 100 for p in ostrms[typ].encode(ifr): 101 ocntnr.mux(p) 102 if args.count and args.count <= count: 103 ocntnr.close() 104 return 105 106 ocntnr.close() 107 108 109 if __name__ == '__main__': 110 parser = argparse.ArgumentParser() 111 parser.add_argument("inputpath") 112 parser.add_argument("--count", type=int, default=0) 113 parser.add_argument("--step", type=int, default=30) 114 parser.add_argument("--start_sec", type=int, default=0) 115 args = parser.parse_args() 116 117 q = Queue() 118 p = Process(target=_run, args=(args, q,)) 119 p.start() 120 p.join()

こちらは Ctrl-C で止めてもちゃんと動画がちゃんとするように、とか、シークとか、「何フレームおきに予測させるか」などのことでゴチャついてるが、要するにこういったことをしないと、「べらぼーな時間がかかる」がために、気軽な試行錯誤が出来なくなってしまう。なお、本日時点での PyAV のマスターブランチを使うとこのプログラムは動作しない。PyAV の(生半可な)紹介にはそこらへんの事情は書いておいたんで、同じことをしてみたい人は注意。

てわけで、一つだけ試みてみた:

ワタシの「素朴な疑問」についてはあんまし良くわかんないんだよねぇ。「cockroach」な部分なんかはアスペクト比維持の方が若干いいのかな、なんてのもあるけれど、全体では別にどっちでもよさげな感じもする。要はどんな入力を使って学習させているか、てことだと思うんだけれど、「アスペクト比にあまり依存しないように」なんてことしてるのかしら?

やってみて思ったんだけど、こうやって予測と入力を同時に見れるようにしとくと、こういう検証しやすいよね、てことね。例えば前処理の有用性とかを知りたい、なんて目的にも一発だろう。

あとチョロっと上で書いたけど、「学習(トレーニング)を動画で」も、ひょっとしたら悪いアプローチではないかもしれなくて、これは「字幕」(subtitile)に正解を書き込んでおくことで、なんかイケそうな気がする。一応 PyAV、subtitle を読むことは出来る(書きは出来ないけど)。無論その subtitile 編集は間違いなく手間だけれど、そもそも「手間なく学習させる術」なんてのはないんだから、その中ではかなり有望そうだなぁ、と、感覚的には思う。

~~それとさ、これを発展させてヒートマップなんかを作れたら面白いんだけどなぁ、と思っている。けど初学者にはこれは当然まだツラい。~~