ChatGPTで有名なOpenAIが音声生成AI「OpenAI.fm」をリリースしました。
OpenAI.fmには
- (2025年5月の段階では)無料で使える
- 日本語でも自然な音声が作れる
という素晴らしい特徴があります。
じっさいにOpenAI.fmで生成した音声はこちら↓
今のところ細かい調整がすこし難しいですが、使いこなせれば大活躍間違いありません。
この記事では、初心者向けにOpenAI.fmの使い方や音声を生成するコツを解説します。
OpenAI.fmができること&特徴を初心者向けに解説
はじめにOpenAI.fmを使ってできること、サービスの特徴を解説します。
OpenAI.fm基本情報 | |
---|---|
正式名称 | OpenAI.fm |
企業所在地 | アメリカ |
おもな機能 | テキストから音声生成 |
料金 | 無料 |
公式URL | https://www.openai.fm/ |
文字(テキスト)の音声化
OpenAI.fmはTTS(Text To Speech)、つまり文字を音声化できるAIです。
たとえば、マイクロソフトのワードを使って仕事に関連する文章を数百文字書いたとします。
OpenAI.fmを使えば、その文章をすぐに音声化できます。
もちろんChatGPTなどで生成したテキストも音声化できます。
テキストデータなら基本的に何でも生成できますが、OpenAIのサービスなのでアダルト系の文字は音声化できません。
どんな内容でも音声化できる訳ではないので注意してください。
プロンプトを使った音声調整
OpenAI.fmの大きな特徴の一つがプロンプトを使った音声調整です。
OpenAI.fmではプロンプトを入力するだけで(AIが生成した)話し手の声の
- 人格
- 感情
- 抑揚
- 間の取り方
などを調整できます。
文字によって音声の細かい表現を調整できるのがOpenAI.fmの最大の売りです。
【他の音声生成AIとの比較あり】日本語でもかなり自然に話せる
これまで海外の音声生成AIは日本語の読み上げが苦手なものが多かったです。
でもOpenAI.fmは日本語でもかなり自然です(英語はもっと自然)。
他の音声生成AIを使って生成した音声とOpenAI.fmのものを比較してみましょう。
ここでは、日本語が得意な音声生成AIとして人気のにじボイスと比較します。
先に紹介するのはにじボイスの音声です↓
つぎはOpenAI.fmで生成した音声です↓
ここでは優劣は述べませんが、いかがでしょう。
OpenAI.fmを使えば、基本的な設定だけでこれだけ自然な音声を生成できるのです。
生成された音声はWAV形式でダウンロード可能
OpenAI.fmをつかって生成した音声はWAV形式でダウンロードできます(FreeConvertを使えばMP3に変換できます)。
URLを発行して、音声やプロンプトのシェアもできますので、利用目的に応じて使い分けてください。
OpenAI.fmの使い方を画像付きで解説
ここからはOpenAI.fmの使い方を解説します。
OpenAI.fmでは以下の3つのステップで音声を生成します。
- 「VOICE」の選択
- プロンプトの入力
- 「SCRIPT」の入力
それぞれキャプチャ画像付きで解説します。
① 「VOICE」で声のタイプを選ぶ
「VOICE」は声のタイプを選択する項目です。
私が確認したタイミングでは以下の9つから選択可能でした。
- Alloy(調和)
- Ash(悲しみ)
- Ballad(叙情的)
- Coral(温かみ)
- Echo(反響・余韻)
- Fable(幻想的)
- Onyx(重厚・威厳)
- Nova(情熱)
- Sage(賢明)
- Shimmer(煌めき・感動)
生成したい音声のタイプから逆算してVOICEを選びましょう。
のちほど解説しますが、男性っぽい音声を作るなら「Onyx」、女性らしい音声は「Sage」が向きます。

② テンプレートもしくはテキストでプロンプト入力
つぎはテキストでプロンプトを入力する方法を紹介します。
OpenAI.fmでは「プロンプトタグ」という項目を指定し、それに沿ってプロンプトを入力するのがオーソドックスな方法です。
プロンプトタグには
- Affect/Personality(キャラクター設定)
- Emotion(言葉にこめる感情表現)
- Delivery(口調の設定)
などの項目があります(設定可能な項目は全部で10個以上)。
これらをプロンプトで設定すると以下のような感じになります。
Affect/personality: A cheerful guide
Tone: Friendly, clear, and reassuring, creating a calm atmosphere and making the listener feel confident and comfortable.
Pronunciation: Clear, articulate, and steady, ensuring each instruction is easily understood while maintaining a natural, conversational flow.
Pause: Brief, purposeful pauses after key instructions (e.g., “cross the street” and “turn right”) to allow time for the listener to process the information and follow along.
Emotion: Warm and supportive, conveying empathy and care, ensuring the listener feels guided and safe throughout the journey.

プロンプトは日本語にも対応してますが、ゼロから作るのはけっこう面倒です。
そこで、おすすめなのがChatGPT拡張機能の「FM Voice Prompter」。
YouTubeチャンネル「KEITO【AI&WEB ch】」を運営するKEITOさんが開発したサービスです。
たとえば、FM Voice Prompterで
「女性アナウンサー風」
と入力するだけで以下のプロンプトが生成されます。
Voice Affect: 落ち着いた品のある声で、聞き手に安心感を与える
Tone: 明瞭で親しみやすく、ややフォーマルなトーン
Pacing: 基本は一定のテンポで滑らかに話し、重要な情報の前後ではややゆっくりめ
Pronunciation: はっきりと発音しつつ、抑揚をつけて自然な流れを作る
Pauses: 文の切れ目や重要な情報の前に適度な間を入れ、聞き取りやすさを向上
Dialect: 標準的な日本語(共通語)、イントネーションは自然で流麗
Delivery: 上品で落ち着きのある語り口、聞き手を引き込む穏やかな話し方
Phrasing: 簡潔かつ分かりやすい表現を心がけ、専門用語がある場合は適宜説明を加える
これをそのままOpenAI.fmに貼り付けばプロンプト入力が完了する、という優れものです。
日本語のまま使ってもOKですが、英語に翻訳しても利用可能です。
とても便利ですのでKEITOさんのツールを活用してください。

ちなみにKEITOさんはOpenAI.fmの使い方に関する動画も公開しています。
初心者の参考になると思うので、時間がある時はこちらのOpenAI.fm解説動画もチェックしておきましょう。
③ SCRIPTでセリフを入力して音声生成
あとは読み上げて欲しいテキスト(最大999文字)を「SCRIPT」に入力しPLAYボタンを押すだけです。
早ければ1秒以内に音声が生成されます。

ここでは特に注意点はありませんが、補足説明するとテキストでは「タグ」を設定できます。
「タグ」とはプロンプト内に特定の表現を指定したり、挿入できる機能です。
たとえば、以下のようにテキスト内に<laugh>を挿入すると笑い声が入ります。
「こんにちは!今日は良い天気ですね!<laugh>」
このように単語を<>で挟めば、それに沿った音声を生成してくれます。
けれど、タグ機能は今のところ動作がかなり不安定で、固まったり思った通りの反応をしてくれないことが多いです。
こんごは改善されるでしょうが、今のところは
「こんな機能があるんだなあ」
くらいで良いかなと思います。
OpenAI.fmで音声生成する時の注意ポイント
OpenAI.fmを利用する時の注意ポイントをいくつか紹介します。
① 生成される音声はガチャ的要素がある
OpenAI.fmは同じプロンプト・同じセリフでも生成される度に音声のトーンが変わります。
なので、もし狙い通りに音声が生成できなくても同じプロンプト・セリフで何回か生成してください。
無料ですので、何回かチャレンジしてガチャが成功するのを待ちましょう。
② 同じ音声を再度生成することはできない
OpenAI.fmを使っていて理想通りの声が生成できたとします。
その時は
- 音声データのダウンロード
- URLの保存
このどちらかの方法で、しっかり保存しておきましょう。
同じ設定・プロンプト・セリフがあっても音声を再現することはできません。
生成されたデータ履歴保存機能もありません。
しっかりと保存してください。

③ うまく文字を読めないこともある
まだサービスをリリースしたばかりということもあり、OpenAI.fmはやや不安定です。
具体的には
- 数字を読み間違える
- 日本語に英語を混ぜると発音が不安定になる
こんな現象が起こることがあります。
ただ、英語に関してはすべてカタカタにすれば問題は解決するので、うまく読んでもらえない時はカタカナを利用してください。
④ 文章の途中で音声が終わることがある
OpenAI.fmは1回で999文字まで生成できますが、長くなると音声が途中で途切れることがあります。
この場合は
- 再度生成する
- 文字を短くして生成する
などで対応してください。
⑤ 日本語の音声は男性的な低音に寄りやすい
注意点の最後は「日本語の音声は男性的な低音に寄りやすい」です。
理由はよくわかりませんが、OpenAI.fmが生成する日本語の音声は英語よりも低音になりやすいです。
つまり、男性的な音声が生成されやすいのです。
この問題の解決方法についてはこの後解説しますね。
OpenAI.fmで女性の音声を生成するコツ
OpenAI.fmには
- 音声の性別を選択できない
- 日本語だと低音になりやすい
という特徴があります。
よって、男性と比べると女性の声は生成しにくいのですが、女性寄りの声を生成する方法がありますのでいくつか紹介します。
【重要】VOICEは「Sage」を選ぶ
いちばん大事なのはVOICEの選択です。
もし女性らしい高い声を生成したいなら「Sage」を選んでください。
当サイトが検証したところ、VOICEは以下の3つを選択した時に女性らしい声が生成されやすかったです。
- Sage
- Nova
- Shimmer
そして、この中ではSageが最も女性らしい声が生成される確率が高かったです。
逆にもっとも男性らしい声が生成されやすかったのは「onyx」です。
onyxは「重厚、威厳」という意味で、言葉の意味通り男性らしい低音が表現できます。
VIBEは「Cherrerleadr」か「Calm」がおすすめ
手軽に女性らしい声を生成したいなら「VIBE」で
- Cherrerleadr
- Calm
を選択してください。
とくに、Cherrerleadrは若い女性っぽい声になる確率が高いです。
「プロンプトをわざわざ入力するのが面倒・・・」
という人はCherrerleadrはかCalmを選びましょう。
プロンプトでは「Personality/affect」を指定する
最後はプロンプトです。
プロンプトは「Personality/affect」の設定が大きな影響を与えます。
もし女性の声を生成したいなら以下のようなプロンプトを入力してください。
- Personality/affect:アニメの女性キャラクター、年齢は20歳。声はかなり高い
- Personality/affect:女性アナウンサー、年齢は28歳
VOICEで「Sage」を選択した上で「Personality/affect」を女性らしい設定にすれば、かなり高い確率で女性の声が生成されます。
OpenAI.fmはどんなことに活用できる?
最後に、OpenAI.fmが使えそうな仕事・趣味の活動を簡単に紹介します。
すぐにでも使えそうなのが顔出し無しでのYouTube配信です。
顔と声の両方をネットに出したくない人にとって、自然な日本語が話せるOpenAI.fmはとても有難い存在です。
企業の求人募集動画や商品説明動画のナレーションなどでも活用できそうですね。
Kindleで個人出版してる人なら、OpenAI.fmを使えば本をAudibleにすることができます。
Audibleにすれば本を手に取ってくれる人が増えるので収入アップに貢献するはずです。
日本を訪れる外国人を対象とした仕事をしている場合、日本語の音声ガイドなどを簡単に英語化できます。
作りたいときにすぐ音声データを作れるので、何か困ったことがあったら迅速に対応できるようになります。
他にも
- 英語のリスニングの勉強(テキストの文章を音声化するなど)
- 仕事でよく話す内容を音声データ化する
- Hedraなどの動画生成AIと組み合わせ、AIアバター動画を生成
などの活用方法があります。
下の動画は私が生成した動画です。
動画生成AIとOpenAI.fmのような音声生成AIを組み合わせると、このような動画を簡単に作ることができます。
ふだんあまり気になりませんが、私たちはたくさんの音声に囲まれて暮らしています。
それらの音声の多くはOpenAI.fmで作れるのではないでしょうか。
かなり大きな可能性を秘めてると思うので、ぜひ仕事やプライベートでOpenAI.fmを活用してください!