新年挨拶動画について／宮﨑

2024年1月1日にDrunkenBirdの新年挨拶動画をYouTubeにアップしました。

動画を作りたいと言い出したのは僕で、理由は単純に新年挨拶をしておきたかったこと、もう一つはfaceswap(Deepfake)技術にチャレンジしたかった、この二つです。

言い出した当初は、もう少し複雑な動きの中で顔を変える映像を作ってみたかったんですが。1月1日まで1週間ほどしかなく、技術習得が未知数だったので突っ立ったままの3人の顔を変える初歩的なfaceswapに落ち着きました。
出来は見ての通りで、まだまだ荒い仕上がりなのですが、仕上がりを想定した素材の準備が今後制作する際の鍵かなと思いました。

ソフトを触ってみると仕組み自体はそこまで難しくないようでした。特に、僕が使用したソフトは数年前に配布使用されていたもので、仕組みは単純です。AさんBさんの顔を見比べ同じ形の顔を探して貼り付ける、そんな感じです。

ですが、時間がかかりました。
何処に時間が掛かるかというと元の顔とすり替えの顔の形をソフトに認識させることです。
ソフトは両顔の映像素材を1枚1枚の画像素材に変換し、そこに映っている顔をひとつずつどんな形をした顔なのか学習します。
Aさんの1番目の顔画像はBさんの52番目の顔に形が似てる、いや184番目の方が近いかと永遠と見比べます。
僕が使用したソフトの場合は文字通り永遠です。僕がもういいよと指示を出すまで永遠に作業を続けます。この作業は続けるほど精度は上がりますし、ある程度の精度にも結構時間がかかります。

ちなみに、ソフトには横顔が複雑なようです。だまし絵のように錯覚？してしまうようです。下記URLのように人間の目も錯覚することはありますよね。
https://karapaia.com/archives/52045762.html

ひとり1回のfaceswapに学習させた時間は約4時間です。正直もっと短くても良かったかもしれませんが、参考資料には一度に10万回の学習回数が推奨されていたので従いました。今回の場合、その回数に到達するのに僕のPCでは約4時間かかったという状況です。
PCは見事に暖房機器に変わります。夏の作業は冷却対策をしないと恐いかもしれません。

学習時間は元動画素材の尺に比例しますし、使用ソフトの仕組みからすり替え側の顔の素材も大量にあることが精巧さに繋がりますので、両顔の学習に時間がかかります。と言ってもソフトの作業としては同時進行ではあるのですが。

しかし、現在では最新ソフトやAIアプリですり替え側は1枚の顔写真で精巧なfaceswapを行うことも可能です。
時間もかなり早いです。やはり数年前のソフトからかなり進化しているようです。
ではなぜ、わざわざ古いソフトを使用したかというと、作業の自由性とすり替え顔の精巧性です。

AIアプリは素材の尺に制限があったり、微調整が出来なかったりするものが多いです。完成映像の解像サイズも制限があったりします。

また、一枚の写真からfaceswapを行う場合、当然写真素材に存在しない表情はAIが想像して作成します。
その表情の再現性にはAIの作家性が現れます。AIによって作家が違うんです。
そして現状アジア人のおじさんを大量に学習したAI作家は少ないです。みなさんも巷で見かけるAI作成の被写体は若い女性が多いのではないでしょうか。
AIに指定のおじさんの顔を作成させても、かなり近しいものは描けますが実際の人物に存在する微妙なノイズは排除されがちです。ホクロや、かすかな傷、肌質、歪みなどですね。「そこがいいんじゃない！」
それを教わっていないAI作家がまだ多いようです。欧米人種素材の学習はその辺も進んでいるような印象です。アジア系はまだ学習素材が乏しいのと需要が少ないようです。みんな可愛い女の子だけ見たいようです。

またfaceswapではなく写真をアニメ画風に変えたりと、想定したアプリの使用目的も違うと思います。
今回使用したソフトは基本的に大量の素材から近しいものを結びつけるので、すり替え側の顔がそのまま使用されます。現状特定の人物を指定する場合は単純なこの方法が精巧性に繋がりそうです。

なんだか大変な作業をした風に書きましたが。前述の通り今回は単純なfaceswapです。役者の顔を若返らせたり、特殊メイクのような変形をさせるのはCG技術になりまた別物です。そこはかなりハードルが高そうですが、勉強はしたいですね。