2025年5月、動画生成AIのHeyGen(ヘイジェン)はAvatar IV(アバターフォー)を公開。
Avatar IVで生成された、口の動きと音声が完全に一致する「ほぼ本物」のようなAIアバター動画は世界中に衝撃を与えました。

AIアバターを喋らせる技術は「リップシンク」と呼ばれています。
HeyGenのリップシンク技術は、動画生成AIのクオリティを一段階引き上げたように感じます。

この記事では、HeyGenをまだ使ったことのない初心者向けに、リップシンク動画の作り方をわかりやすく解説します。
先に流れを紹介すると、以下のステップで作り方を解説します。

  1. 画像生成AIで画像生成
  2. ChatGPTでセリフを生成
  3. 音声生成AIで音声データを生成
  4. HeyGenのAvatar IVでリップシンク動画生成

この流れで生成した動画はこちら↓

この記事を読みながら手を動かせば、早ければ15分ほどでリップシンク動画が完成します。
ぜひ参考にしてください!

HeyGenのAvatar IVとは?機能・仕組みを解説

はじめに、HeyGenのAvatar IVの機能・仕組みを解説します。

Avatar IVは簡単にリップシンク動画が作れる機能

まずは「リップシンクとは何か」を解説します。

簡単に言えば、リップシンク動画とは
「セリフや音楽に合わせて動画内の人物・キャラが喋る機能」
です。
Avatar IVは、このリップシンクで動く動画が簡単に作れる機能です。

じっさいにHeyGenのAvatar IVで生成された動画を見てみましょう。
動画生成AI界隈では世界トップクラスの人気の誇る有名クリエイターの作品です↓

音楽に合わせて自然に唇が動いていますね。
自然に動いているのは唇だけではありません。

  • 目・顔の表情
  • 手・体

なども自然に動いています。
もはや本物と区別が付かないレベルまで、AIが作った動画は進化していることがわかりますね。

無料会員が作れるのは1ヶ月に10秒動画3つまで

HeyGenで作れるリップシンク動画の長さを解説します。

HeyGenの無料会員が作れるリップシンク動画は最長で10秒。
動画生成できる回数は月間3回まで。
もし1回で2秒の動画を作ったとしても3回しか生成できないので注意してください。

有料会員になると1回で生成できる動画の秒数は60秒まで増えます。
1ヶ月間で生成できる動画の秒数も最大5分まで伸びます。
料金プランごとの違いは以下の比較表で確認してください。

HeyGenの4つの料金プラン比較表

HeyGenの料金や支払い方法についてはこちらで詳しく解説しています。
料金や決済などに関して、より詳細な情報が欲しい方はリンク先記事をチェックしてください。

リップシンク動画を作るには2つの素材が必要

HeyGenでリップシンク動画を作るには「写真(画像)」と「音声」が必要です。
それぞれ解説します。

① 喋らせたい画像・写真を用意する

Avatar IVは画像を動かすタイプの動画生成AIです。
プロンプトで動画を生成するタイプではないため、リップシンク動画を作るには写真を含む画像が必要です。

この記事では無料で使える画像生成AIを使って画像を作る方法も解説しますので、安心してください。

② 音声もしくは歌を用意する

HeyGenでは

  • 会話的な音声
  • 歌などの楽曲的な音声

この両方でリップシンク動画を作れます。
つまり、用意した音声や歌に合わせて画像が勝手に動いてくれるのです。

ただし、HeyGenには楽曲生成機能はありません。
音声生成機能はあります。
けれど、今のところ性能は他の人気音声生成AIよりも低めです。
HeyGenで声を作った場合、いわゆる「AIっぽい声」になってしまいます。

まるで本物の人間が喋っているようなリップシンク動画を作りたいなら、日本語の音声生成が得意なAIを作って音声データを用意してください。
無料でも使えるおすすめの音声生成AIはこのあと紹介します。

リップシンク動画に必要な素材を無料で入手する方法

ここからは、リップシンク動画を作るために必要な「画像」と「音声」の準備方法を説明します。
今回は誰でもすぐに試せる、無料で一番簡単な方法を紹介します。

① Imagen4で女性の画像生成

はじめに、喋らせたい人物の画像を画像生成AIを使って生成します。
ここで使うのは「Imagen4」。
Googleが運営する画像生成AIですね。

Imagen4は同じくGoogleが運営する「Whisk(ウィスク)」というサイトで無料で使えます。
こちらからWhiskにアクセスしてください。
そして、Googleアカウントでログインしてください。

Googleが運営するWhisk

上の画像の赤い枠の部分「ツールを開く」にアクセスしたら入力フォームにプロンプトを入れてください。
そうすればImagen4で画像が生成されます。
プロンプトは英語・日本語どちらもOKですが、今回は以下の英語プロンプトを使います。

プロンプト

A 30-year-old Japanese actress standing outdoors on a hot summer day.She is facing the camera and looking directly into the lens with a gentle smile. Her hair is tied up, and she is wearing a light floral-patterned yukata.The background shows soft sunlight filtering through green leaves and a quiet local street. Natural lighting, serene summer atmosphere, traditional yet fresh appearance.

Imagen4でプロンプトを入力

上のプロンプトで生成された女性がこちら↓

Imagen4で生成された日本人女性

生成された画像に納得できない場合、何度か同じプロンプトで試してみましょう。
それでも納得できない場合、少しプロンプトを変えるなどして対応してください。

良い画像が生成できたら画像をダウンロードしましょう。

Imagen4で生成された日本人女性の画像をダウンロード

② ChatGPTで喋ってもらうセリフを作成

もしAIに喋らせたいセリフが決まってない場合はAIに作ってもらいましょう。
決まっている場合は飛ばしてOKです。

セリフはChatGPTに作ってもらうと楽です。
今回は先ほど生成した女性が、道で偶然友達と会った、という設定で8秒ほどのセリフを作ってもらいます。
秒数を指定するのは、HeyGenでは無料会員は1回あたり最大10秒までしか動画を作れないからです。

使用したプロンプトは以下。

プロンプト

私はあなたに女優が喋る8秒くらいのセリフを作ってもらいたい。 30歳の女性が、道で偶然女友達と会ったときに実際に喋りそうなセリフを作って。

ChatGPTでHeyGenで喋らせたいセリフを作っている画面

このプロンプトで完成したのが以下のセリフです。

「えっ、久しぶり!こんなところで会うなんて、めっちゃびっくりなんだけど!最近は何してるの?」

このセリフをAIで音声化しましょう!

③ にじボイスで女性の音声生成

音声生成AIには

  • 人間が喋る音声(会話)を生成するもの
  • 音楽を生成するもの

この2種類があります。

この記事では会話を生成するAIを使います。
ここでは詳しく解説しませんが、もし音楽を生成したい場合はSunoがおすすめです。
もちろん無料で使えます。

セリフは、おそらく最も使いやすいであろうにじボイスで生成します。

音声生成AI「にじボイス」

使い方・手順はとても簡単。

  1. キャラの音声サンプルを確認
  2. 喋ってほしいキャラを選択
  3. セリフを入力して音声生成
  4. 音声をダウンロード

これだけでOKです。
下のキャプチャー画像を見ながら生成を進めると楽だと思います。

にじボイスでキャラクター選択 にじボイスでセリフを入力して生成

これで準備はすべて整いました。
HeyGenでリップシンク動画を作りましょう!

HeyGenのAvatar IVでリップシンク動画を作る流れ

HeyGenのAvatar IVでリップシンク動画を作るのはとても簡単。
画像や音声を準備する方が大変なくらいです(笑)
解説用のキャプチャー画像付きで、動画生成完了までの流れを解説します。

① 画像・音声をアップロード

まずはHeyGen公式サイトで会員登録してください。
Googleアカウントで簡単に登録できます。

会員登録したらトップ画面にある「Photo to Video with Avatar IV」をクリック。

「Photo to Video with Avatar IV」をクリック

次の画面では画像と音声をアップロード。

喋らせたい画像と音声をアップロード

② 表情・体の動きを指示する

あとは表情・体の動きを指示するだけです。

今回は
「speak briskly with a wave of the hand(手を振って爽やかに話す)」
という指示をしました。

HeyGenで体の動きを指示

「Enhance prompt」はAIがプロンプトをより適切に改善してくれる機能です。
基本的にはONにした方が良いです。
「Motion expressive」は動きの表現力を高める機能で、こちらもONが良いと思います。

設定が完了したら「Generate video」をクリックしてください。
動画の生成が開始されます。

③ リップシンク動画の完成

私の場合、生成を開始したら3分ほどで7秒の動画が完成しました。
出来上がった動画はこちら↓

評判通りの素晴らしいリップシンク動画ですね!
完璧に近い精度で唇と声が同期しています。
ただ、右手の動きが少し微妙・・・。
HeyGenのAvatar IVを使うときは、手が見えない動画の方がクオリティが上がるかもしれません。

今回は7秒の動画でしたが、しっかりと1クレジット消費されたのが確認できました。
残りの生成可能回数(残りクレジット)は画面左下で確認できます。

HeyGenの残りクレジット表示

生成された動画はダウンロード・商用利用OKです。
もちろん、SNSでのシェアも可能ですので、Xに投稿するのも良いですね!

HeyGenなら無料会員でも1ヶ月3回リップシンク動画を作れる

HeyGenのAvatar IVでリップシンク動画を作る流れの解説は以上です。

HeyGenなら無料会員でも1ヶ月で3回リップシンク動画を作れます。
合計で最大30秒の動画を作れる計算です。
まずは無料会員として、動画生成にチャレンジしてください。

有料プランへの課金はその後に検討すればOKです。
HeyGenの料金はこちらの記事で詳しく解説しています。
金額、支払い方法やクーポン情報が気になる方はぜひチェックしてください!

HeyGen基本情報
正式名称HeyGen(ヘイジェン)
企業所在地アメリカ
おもな機能動画生成、リップシンク
無料クレジットあり
最も安いプランの料金29ドル/1ヶ月
決済方法クレジットカード、その他
公式URLhttps://www.heygen.com/