Elevenlabs(イレブンラボ)で感情豊かなボイスを作ろうとしたとき、まず浮かぶのが「タグの設定」です。
もちろんタグは重要です。
でも、タグだけでは不十分です。
感情を最大限に引き出すには、タグを使う前の下準備や設定がカギになります。
この記事では
- タグ以外で感情をコントロールするテクニック
- タグを使った感情表現の方法
- 利用できるタグ一覧
- 自動で適切なタグを入れる方法
などを解説します。
記事を読めば、初心者でも自然で感情豊かなボイスが作れるようになるので、ぜひ参考にしてください!
この記事の動画版はこちら↓
Elevenlabsでボイスの感情をコントロールする方法
早速ですが、Elevenlabsで生成するボイスの感情をコントロールする方法を解説します。
今回紹介するテクニックは以下の6個です。
- 最新モデル「v3」を使う
- 表現したい感情とマッチしたキャラクターを選ぶ
- セリフの内容と感情をシンクロさせる
- タグを効果的に使う
- 感情の「文脈」を与える
- 安定性を「クリエイティブ」にする
どれも難しいテクニックではないので、すぐ実践できるはずです。
それぞれ解説しますね。
① 最新モデル「v3」を使う
最も重要なのはElevenlabsの最新モデルを使うことです。
2025年10月の段階だと「v3(ブイスリー)」ですね。
Elevenlabsは、2025年6月にリリースされたv3から日本語の読み上げレベルが格段に向上しました。
過去バージョンとはクオリティが全然違います。
バージョンごとのクオリティの違いは以下で聴き比べることができます↓
他にも、v3は表現できる「感情の深さ」がアップグレードされている、というメリットもあります。
より感情を上手く表現できるようになっているのです。
そもそも日本語の場合、v3を利用しないとエンタメやビジネスで利用できる水準に達しません。
Elevenlabsでナレーション等を作るときは、必ずv3を選択しましょう。
v3を選択する方法はとても簡単で、モデル選択画面でv3を選ぶだけです。
モデル選択画面の場所は下の画像を参考にしてください。
② 表現したい感情とマッチしたキャラクターを選ぶ
2つ目は「表現したい感情とマッチしたキャラクターを選ぶ」です。
クールな感情はクールなキャラに。
激しい感情は激しめのキャラに、という感じです。
キャラにマッチした表現の方が、声はずっと感情豊かになります。
例えば、クール系のキャラクターのボイスには怒り系の感情は適用されにくいです。
実際に、怒り系の感情を伴うセリフを
- クール系キャラ
- 元気系キャラ
この2つのキャラクターで生成してみました。
結果は下の動画で確認できます。
いかがでしょう。
元気系キャラの方が上手に表現できていると思いませんか?
このように、キャラクターによって同じプロンプトでも感情表現が大きく変わります。
それぞれのボイスがどんな特徴を持ってるかは、ボイスの説明文を読めばわかります(場所は下の画像を参考)。
表現したい感情によってキャラを使い分けてください。
③ セリフの内容と感情をシンクロさせる
ElevenLabsのAIは入力されたセリフから感情を読み取り、音声を生成します。
なので、セリフとシンクロしていない感情タグを入れても上手く表現できません。
例えば、さきほど使った
ふざけるなよ!これ以上俺の大事なものを踏みにじるなら、本気でぶん殴るぞ
このセリフには怒り系の感情が込められていますよね。
このようなセリフだと、タグで[cool]などを指定しても、冷静に読み上げることは難しいです。
逆に
あなたの作品は本当に最高!素晴らしいわ!私はあなたの大ファンよ!!
このようなセリフに喜びや興奮を表現するタグを入れると、かなり上手く表現できます。
セリフ自体に喜びや興奮の要素が含まれてるからです。
- セリフとタグが一致してるケース
- セリフとタグが一致していないケース
この2つを比べられる動画を作ったのでご覧ください。
セリフとタグの内容が一致してる方が感情表現が豊かだと感じたと思います。
さらに補足すると、セリフは短すぎると文脈を理解できず、感情表現も難しくなります。
上手く感情を捉えてもらえないときは、長めの文章で生成してみてください。
ElevenLabsの公式発表によると、英語の場合は250文字以内だと上手く生成できないことが増える、とあります(参考: ElevenLabs公式YouTube)。
日本語だと100文字以上を目安にすると良いかもしれません。
④ タグを効果的に使う
Elevenlabsでボイスに感情を与えるテクニックの4つ目は、「タグを効果的に使う」です。
タグは[happy]のように、[]の間に単語を入れて使用します。
使えるタグについては、のちほど一覧で紹介します。
ここではタグの基本的な使い方や、効果を高めるためのテクニックをいくつか解説します。
タグは上書きされるまで後ろのテキストに影響を与える
タグはタグの後ろのテキスト部分に影響力を与えます。
そして、タグの効果は異なるタグによって上書きされるまで継続します。
例えば、以下のようなタグを入れた場合、全文に[happy]というタグが適用されます。
[happy]やった…本当にやったんだ!信じ続けてよかった、夢じゃないよな?けど、おれ一人じゃここまで来られなかった。支えてくれたみんなに、ありがとう!
[happy]だけでなく、セリフの後半に感謝の気持ちを入れたいときは、 [grateful]というタグを入れます。
以下のような感じですね↓
[happy]やった…本当にやったんだ!信じ続けてよかった、夢じゃないよな?けど、おれ一人じゃここまで来られなかった。[grateful]支えてくれたみんなに、ありがとう!
このようなルールがあるので、タグを入れる場所には注意してください。
ただ、実際に使っていると生成したボイスの後半になるとタグの効果が薄れている、と感じることがあります。
その場合は同じタグを前半・後半に分けて使ってください。
そうすると後半部分にもタグの効果が期待できます。
タグは大文字・小文字どちらもOK
タグを入れる時、大文字にするべきか小文字にするべきか悩むと思いますが、どちらもOKです。
使いやすい方を入力してください。
タグは2個以上設定することも可能
タグは、以下のように複数組み合わせることが可能です。
[happy][loudly]あなたの作品は本当に最高!素晴らしいわ!私はあなたの大ファンよ!!
このような使い方は特定の感情を強化したい時におすすめです。
ただし、タグを増やしすぎたり、相反する感情を入れると逆効果です。
表現したい感情を強化できるような組み合わせにしましょう。
ちなみに、タグは3つでも十分に効果を発揮します。
実際に、以下のプロンプトで生成を試してみました。
「興奮」「大声で叫ぶ」「笑う」という3つの感情タグを使用しています。
[excited] [shouting] [laughing] まじで!?超ウケるー!!
結果はこちら↓
3つのプロンプトが上手に作用していますね。
似たような部分なのでお伝えしておくと、タグ内には複数の単語を入れられます。
例えば
- [American accent]
- [British accent]
- [pirate voice]
このように、単語が2語あっても適用されます。
感情表現タグよりも身体表現タグの方が効くこともある
ボイスの感情表現をコントロールしようとすると、つい
- [sad](悲しい)
- [happy](幸福)
- [angry](怒る)
のような感情を表すタグを使いたくなります。
けれど、このようなタグを使っても期待した効果がでないことがあります。
特に、タグとキャラクターの性格との一致度が低いと効果が薄いです。
そんなときにおすすめなのが、「身体表現」に関連するタグです。
体の動き、声の抑揚、息遣いなど、体の動きを表現する以下のようなタグを使うことで、より上手に感情を表現できるケースがあります。
身体表現タグの具体例はこちら↓
- [loudly](大きな声で)
- [sighs](ため息)
- [shouting](叫び)
- [low voice](低い声)
- [high voice](高い声)
実際に作った音声を聞いてみましょう。
以下の動画をクリックすると、
- 感情表現の[happy]タグ
- 身体表現の[shouting]タグ
この2つのタグそれぞれを使って生成した音声を確認できます。
おそらく、[shouting]の方が感情を表現ができている、と感じたと思います。
もちろん、感情表現と身体表現を組み合わせるのもおすすめです。
感情を大きく表現したいときは2個のタグを使ってみてください。
タグを効かせたいときは「v3に最適なボイス」を使う
タグを効かせるテクニックとして「v3に最適なボイス」を使う、という方法もあります。
「v3に最適なボイス」とは名前そのまま、Elevenlabsの最新モデル「v3」におすすめのボイスのことです。
ボイス選択画面で
「v3に最適なボイス」
を指定すれば、一覧で表示させることが可能です。
上手く表現できない時は、「v3に最適なボイス」に変えて試してみましょう。
⑤ 感情の「文脈」を与える
ここからは、タグ以外のテクニックに話を戻します。
5つ目は「感情の文脈を与える」です。
文脈を加えるだけで、ElevenLabsのボイスは驚くほど感情豊かになります。
文脈とは、簡単に言えばセリフを読み上げるキャラの状況や背景のことです。
小説の情景描写をイメージすると理解しやすくなります。
具体的には、以下のような記述です。
- キャラクターの体の様子(例:恐怖で震えている。喜んでジャンプしている。涙を手で抑えながらうなずく)
- キャラクターの話し方(例:怯えながらささやいた。近所に響きわたるような大声で叫んだ)
より具体的には、以下のようなプロンプトを入れると効果的です。
読み上げて欲しいセリフの前に文脈を描写しています。
彼女は喜びを抑えきれず、声を弾ませながら言った。[excited][laughs harder] えーーーー!本当にありがとう!
文脈なしと文脈ありでは、かなり感情表現が変わります。
ビフォア・アフターを確認できる動画を作ったので、ぜひチェックしてください。
この方法は感情表現にとても効果的です。
けれど、以下の2つの欠点があります。
- 文脈用の描写も生成されてしまう(音声カット等の手間が発生する)
- 文脈用の描写も生成されるので消費クレジットが増える
残りクレジットと相談しながらの利用がおすすめです。
⑥ 安定性を「クリエイティブ」にする
Elevenlabsのv3には「安定性」という項目があります。
安定性は以下の3つの中から選択できます。
- 堅牢(けんろう)
- ナチュラル
- クリエイティブ
ここで「クリエイティブ」を選択すると感情の表現力が増す、と公式が発表しています(参考: ElevenLabs公式YouTube)。
感情を強化したい時はクリエイティブにしましょう。
安定性を変える場所は下の画像を参考にしてください。
同じプロンプトで安定性の3パターンをテストしてみました。
わずかな違いですが、確かに「クリエイティブ」が最も感情が込められてる、と感じます。
ただ、プロンプト内に感情が込められていない場合は安定性を変えてもほとんど変化がありません。
私も平坦なナレーション風のセリフで試してみましたが、すべて同じようま感じでした。
なので、まずは安定性よりもプロンプト内の感情を重視してください。
Elevenlabsでボイスの感情をコントロールする6つのテクニックの紹介は以上です。
次は、自動でプロンプトに適切なタグを入れる方法を紹介します!
Elevenlabsのプロンプトに自動でタグを入れる方法
Elevenlabsでプロンプトに自動でタグを入れる方法は2種類あります。
タグに慣れていない方はここで紹介する方法を活用してください!
① v3の「Enhance」を使う
v3には「Enhance」という機能があります。
この機能、かなり素晴らしくて、タグなしのプロンプトを入れたあとにEnhanceボタンを押すだけで自動でタグを入れてくれます。
もちろん、プロンプトから感情を読み取るのも上手で、文脈に沿った適切なタグを自動で選択してくれます。
たとえば
ちょっと待って!ヤバい!嬉しすぎて呼吸できない!どうしよう!
このプロンプトに対してEnhance機能を使うと、以下のようなタグを付けてくれました。
[excited] ちょっと待って! [gasping] ヤバい! [hyperventilating] 嬉しすぎて呼吸できない! [panicked] どうしよう!
生成された音声はこちら↓
かなり良い感じですね!
Enhance機能のボタンの場所は以下です。
Enhance機能はElevenlabsを使い始めた人にかなりおすすめの機能です。
ChatGPTでセリフを作り、そのセリフにEnhanceをかければ、それだけで良いプロンプトが生成できます。
ぜひ活用してください!
② 自動タグ付けツール「Audio Tag Infuser」を使う
Elevenlabsとは関係のない外部の自動タグ付けツールを使う方法もあります。
人気があるのは「Audio Tag Infuser」です。
URLはこちら。
・Audio Tag Infuser
https://word.studio/tool/audio-tags/
このツールを使って作ったプロンプトは以下です。
[urgent] ちょっと待って! [panicked, rising excitement] ヤバい! [overjoyed, breathless] 嬉しすぎて呼吸できない! [frantic, almost laughing] どうしよう!
ElevenlabsのEnhance機能と比べると、かなり感情が強調されていますね。
ただ、「Audio Tag Infuser」は無料会員が利用できる回数が少ないです(1・2回)。
よって基本的には有料ツールとなっています。
なので、よほどの理由がない限りは完全無料で何回でも使えるElevenlabsのEnhanceの方がおすすめです。
Elevenlabsで感情表現のコントロールに利用できるタグ一覧
最後に、感情表現のコントロールに利用できるタグ一覧を以下の分けて紹介します。
タグの右側には日本語訳もつけています。
もちろんタグはコピペOKですので、自由にご利用ください。
※タグ一覧は随時追加していく予定
- ポジティブな感情表現タグ
- ネガティブな感情表現タグ
- 身体表現タグ
- キャラクターの性格表現タグ
- キャラクターの訛りで使えるタグ
- 効果音を含むその他のタグ
ポジティブな感情表現タグ一覧
- [excited]:興奮
- [joyful]:喜び
- [happy]:幸福
- [brave]:勇敢な
- [relieved]:安心した
- [satisfied]:満足した
- [eager]:待ちきれない様子
- [thrilled]:わくわくする
- [surprised]:驚く
ネガティブな感情表現タグ一覧
- [panicked]:パニックになった
- [confused]:混乱した
- [angry]:怒り
- [rageful]:激怒
- [uncertain]:自信がない・確信が持てない
- [sad]:悲しみ
- [annoyed]:いらいらして迷惑そう
- [frustrated]:いらいらする・欲求不満
- [regretful]:後悔
- [tired]:疲れた
身体表現タグ一覧
- [shocked]:びっくりした(強い衝撃を受けた)
- [gasp]:息を飲む(驚き・恐怖)
- [tensed] または [tense]:緊張する
- [hesitant]:ためらいながら話す
- [laughs]:楽しげに話す(笑い声を含む)
- [laughs harder]:激しく笑う
- [chuckles]:くすくす笑う(控えめな笑い)
- [cry]:泣く
- [tear up]:涙ぐむ(涙を浮かべる)
- [wail]:泣き叫ぶ(大声で泣く)
- [breathing]:息づかい(息を吸う・吐く音)
- [hyperventilating]:過呼吸になる
- [sighs]:ため息をつく
- [heavy sigh]:深いため息をつく
- [cough soft]:軽く咳をする
- [yawn]:あくびをする
- [hmm]:考え込む/うなずくニュアンスの「ふむ」
- [clucking tongue]:舌打ちをする
- [quietly]:静かに(声のトーンを落として)
- [loudly]:大きな声で
- [low voice]:低い声で話す
- [high voice]:高い声で話す
- [shouting]:叫ぶ
- [shriek]:悲鳴を上げる(鋭く高い声)
- [quickly]:テンポが速くなる/早口で話す
- [mumble]:ぶつぶつ言う(はっきりしない声で)
- [stammers]:口ごもる(どもる)
- [singing]:歌うように話す/歌を歌う
- [narration]:ナレーション風に話す
- [dramatic tone]:ドラマチックなトーンで話す
- [pause]:話を止める(沈黙する)
- [whispering]:ささやく
キャラクターの性格表現タグ一覧
- [thoughtful]:思慮深い(考えながら話す、内省的)
- [serene]:穏やか(心が静かで落ち着いた状態)
- [calm]:冷静(感情を乱さず落ち着いている)
- [cheerful]:元気が良い(明るく陽気なトーン)
- [caring]:思いやりのある(相手を気づかうトーン)
- [compassionate]:情け深い(深い共感や慈悲を込めたトーン)
キャラクターの訛りで使えるタグ一覧
- [kansai dialect]:関西弁
- [kyoto dialect]:京都訛り
- [pirate voice]:海賊のような話し方
- [french accent]:フランス語訛り
- [american accent]:アメリカ英語訛り
- [british accent]:イギリス英語訛り
効果音を含むその他のタグ一覧
- [crowd woo]:群衆の歓声(「ウォー!」という盛り上がり)
- [explosion]:爆発音
- [gunshot sound]:銃声
