ボイスクローンのFish AudioとリップシンクのDzine

おはようございます、古田です。

SNSを自動化しようとしておりまして。

先に結論だけ書くと、テキストから「自分の声で喋っている動画」を、ほぼ喋らず・撮らずに作れる環境が整ってきた、という話です。

テキストだけならば自動投稿でなんとかなるんですが、ショート動画などの投稿、自分で編集するのめんどくさいんですよね。

自分で喋るのも録画するのもめんどくさい。

ならばテキストから作れないかということで色々と調べておりまして。

昔から色々と自分でできないかなーとか思いながら色々と使ってみたんですが、結局思った通りに行かなくて挫折の連続。

そんな中で見つけたのが、AI音声のFishaudioとAIリップシンクのDzineです。

AIの世界は流れが早いので、2025年12月28日時点でってことなんであしからず。

1ヶ月もかからず勢力図がガラッと変わってしまったりしてしまいますからね。

今回使っているAIの役割を先に整理すると、

  • 文字を「声」に変える『Fish Audio(フィッシュオーディオ)』
  • その声を「喋っている顔」に変える『Dzine(デザイン)』

という分担です。

ということでまずはAI音声のFishaudioから。

https://fish.audio/ja

そもそもAI音声は何をするんじゃいということなんですが、それそのまま、文字を読んでくれるってものです。

今までは、ゆっくりボイスなんかで結構抑揚とかが全然ないものが主流でしたが、最近のAI音声は本当にすごい。

文字をしっかりと読んでくれますね。

しかもボイスクローンというものがありまして、これは録音した音声から声をデータ化しそのまま文字を読み上げてくれたりするというもの。

ボイスクローンがまた素晴らしい。

試してみたのですが、本当に自分が話をしているように聞こえます。

自分の声は自分で話をしているのとは違う声に聞こえるのですが、他人から聞くと本当に似ていると。

一度試してみて欲しいです。

正直、自分の声を自分で聞くと違和感はあるのですが、他人から聞く分には「本人が喋っている」と言われても違和感が少ないレベルだと感じました。

そしてリップシンクのDzine。

https://www.dzine.ai

これも素晴らしい。

いまは他にもHeygenとかVeo3とか本当に色々と出てるので、好みで決めてもらえればいいと思うのですが、今のところこれが自分一番好みかなと思ってます。

精度や価格は日々変わる前提ですが、今触っている限りでは

  • 口の動きと音声のズレが少ない
  • 作業工程がシンプル

という点が、自分の用途には合っています。

Fishaudioで作った音声に、Geminiで作ったアバターをDzineで動かして動画を作る。

なんて素晴らしい。

テキストからしっかりと動画が生成可能です。

なお、現時点では「完全放置で量産」という段階ではなく、最後に人が確認する前提での運用を想定しています。

今のところ音声の生成→動画の生成とまだ人間の手が介入する部分があるのですが、これを人間の手が介入しなくても自動的に生成するシステムも開発しております。

集客用のSNSや広告用動画の自動投稿は数が勝負だと思います。

一つの動画を作っただけではなかなかヒットが出にくいので、こういった動画で検証をして、ヒットから需要のあるものをサービスとして展開していくのがいいかなと考えてます。

いずれは、テーマだけ人が決めて、投稿・検証・当たりの抽出までが自動、という形を現実にしていきます。