AI音声を使ってみてわかったこと。Aivis Speechを選んだ理由

この記事の要点

制作初速を上げるためのAI音声採用：初のUdemy講座作成にあたり、生身の録音に伴う録り直しやノイズ対策の負担を減らし、とにかく「まず1本完成させること」を最優先してAI音声の導入を決めた。
作業フローに合致したAivis Speech：無償かつ商用可の候補（Gemini、VOICEVOX）の中から、過剰な多機能さよりも「制作の流れを止めない使いやすさ」と、イメージに合う古山キリヲ氏の声質を理由にAivis Speechを選定。
台本作成と動画時間想定の難しさ：文字で読むと自然でも、音声化すると動画時間が想定の半分ほどになってしまう問題に直面し、話速や間の取り方を細かく調整するリテイク作業を通じて台本作りの重要性を学んだ。
「伝える形」に整えるのは人間の役割：AI音声のおかげで「しゃべる負担」やリテイクの手間は劇的に減ったものの、聞き取りやすいテンポや抑揚など、最後に「伝わる形へ整える負担」は依然として人間がチェックする必要あり。

今回は、自分が使っているAI音声について書いてみます。

最近は、動画や講座、情報発信まわりでAI音声が使われている場面がかなり増えてきました。
自分もUdemy講座を作る流れの中で、音声をどうするかを考えるようになりました。

自分の声をそのまま使う選択肢もあります。
ただ、自分の場合はまず

作業しやすいこと
修正しやすいこと
台本ベースで進めやすいこと
今のAI音声はどこまでできるのか知りたい（興味）

を優先したかったので、AI音声を使う方向で考えてみました。
最後の興味が一番強いかもしれません。

音声の候補として考えたのは、

Gemini speak generation
VOICEBOX
Aivis Speech

あたりです。

その中で、今はAivis Speechを使っています。

今回は、なぜAI音声を使おうと思ったのか、候補をどう見たのか、最終的にAivis Speechを選んだ理由、実際の使い方まで整理してみます。

なぜAI音声を使おうと思ったのか

きっかけは、Udemy講座を作ろうと思ったことでした。

スライドだけでは講座として成立しにくいので、当然ながらナレーションが必要になります。
そこで最初に考えたのは、

自分でしゃべるか
AI音声を使うか

の2択でした。

自分でしゃべる方法も悪くはないと思います。
ただ、実際にやるとなると、

録り直しが発生しやすい
言い間違いの修正が面倒
テンポや間の調整が大変
そもそも音声収録に慣れていない

というハードルがあります。

特に自分は、最初の講座作成そのものが初めてだったので、
まずは講座を完成させることを優先したかったんですよね。

そう考えると、台本を作って、それを音声化できるAI音声はかなり相性が良さそうだと思いました。

生身の音声の場合は、収録用のマイク、録音スペース、周囲の音やノイズ音チェックなど
AI音声とはまた違った点で考慮は必要です。

ちなみに、Udemyでは機械音声やTTS（読み上げ機能）の利用はOKです。
AI利用の場合は承諾書が必要なので、当然商用可である必要があります。

最初に候補として見たAI音声

AI音声といっても、実際にはいろいろあります。
その中で、自分が候補として見たのは、Gemini speak generation、VOICEBOX、Aivis Speechでした。

ここでは厳密な比較というより、
自分がどう見たかをベースに書きます。
基本的には無償で商用可で制限が少ないサービスを候補とました。

Gemini speak generation

まず気になったのはGeminiまわりです。

普段からAI系の流れで触れることも多いので、音声生成も自然と気になりました。
AI全体の流れの中で見ればかなり今っぽいですし、今後の広がりもありそうだと思いました。
なんせGoogleですからね。

ただ、自分がその時に欲しかったのは、
「AI音声そのものの将来性」より、
今この講座作りの実作業にどう乗るか
でした。

なので、興味はあったものの、自分の用途ではもう少し制作寄りに見たくなりました。
というか、試用するにしても「使いづれぇ」というのが率直な感想です。

VOICEBOX

次に候補に入りやすかったのがVOICEBOXです。

知名度もありますし、AI音声に少し興味を持つと、一度は目に入る存在だと思います。
情報も多く、触っている人も多いので、安心感があります。

最初の候補として入るのはかなり自然だと思いました。

Youtubeのずんだもんの声もこのサービスを使っていると思います。
クレジット表記すれば無償利用可ですが、Udemyに合う声質か？というのが判断ポイントでした。

プラットフォームによって使い分けるのが良いと思っています。

Aivis Speech

最終的に使っているのがAivis Speechです。

理由を一言で言うと、
自分のやりたい作業フローに一番しっくりきた
からです。

もちろん、完璧に全部比較して一番すごいものを選んだ、という感じではありません。
それよりも、

今の自分の用途に合うか
作業が前に進むか
講座制作の流れに乗せやすいか

を重視して、Aivis Speechに落ち着いた感じです。

最終的にAivis Speechを選んだ理由

Aivis Speechを選んだ理由はいくつかありますが、
一番大きいのは、
「今の自分がやりたいことにちょうどよかった」
ということです。

AIツールって、機能の多さや話題性に目が行きがちですが、実際のところ大事なのは
使う人の目的に合うかどうか
だと思っています。

自分の場合、必要だったのは

台本をもとに音声を作ること
修正しながら講座に合わせること
まず一本作り切ること

でした。

その意味で、Aivis Speechはかなり自分の用途合っていました。

特に、自分は最初の講座制作でかなり試行錯誤していたので、
高機能かどうかより、
制作の流れを止めないこと
の方が大事だったんですよね。

それに、最初から理想の音声環境を完璧に揃えるより、
まず実際に一本作ってみて、どこが不便かを知る方が次につながると思っていました。

そういう意味でも、Aivis Speechはちょうどよかったです。

そして、古山キリヲさんのボイスが自分のイメージする声に近かったというのも大きなポイントです。↓↓

https://hub.aivis-project.com/aivm-models/47e53151-a378-46f3-abee-ce13aa07feb1

実際にはこんな流れで使っている

今の自分の使い方は、かなりシンプルです。

ざっくり言うと、

AIに台本のたたき台を作ってもらう
自分で台本を修正する
Aivis Speechで音声化する
スライドや動画に合わせる
長さや間を見て再調整する

という流れです。

この流れをやってみてわかったのは、
AI音声を使うとはいえ、
台本の質がかなり重要
だということです。

最初は、文章として読めば十分でも、
音声にすると短すぎたり、逆に不自然だったりすることがありました。

実際、自分が最初に講座を作った時も、
文章と動画時間の感覚が全然合っておらず、
思ったより動画が短くなってしまいました。

台本のたたき台を作ってくれた際に、想定動画時間もAIが書いてくれてましたが、
大体その半分ぐらいの時間です。

そのため、

話速を見直す
間を長めに取る
台本を修正する
音声を差し替える

というリテイクがかなり発生しました。

でも逆に言えば、
この流れを一度経験したことで、
台本から動画時間を想定する感覚
が少し掴めたのは大きかったです。

使ってみて良かったところ

実際に使ってみて良かったと感じたのは、まず
録り直しの負担が減ることです。

自分の声で全部やると、
言い間違い、読み直し、テンポ調整などでかなり手間がかかります。

でもAI音声なら、台本を修正して再出力する形なので、
少なくとも「また最初からしゃべり直す」みたいな負担はかなり減ります。

次に、
台本ベースで考えられることも良かったです。

自分は文章を書くこと自体はそこまで苦ではないので、
まず文章で整理してから音声にする流れは相性が良かったです。

あと、やはり
発信や講座制作の初速が上がる
のは大きいです。

最初から全部手作業で完璧にやろうとすると、どうしても重くなります。
でもAI音声を使うことで、少なくとも「形にする」までのハードルはかなり下がると感じました。

Udemyの動画講座作成経験者が1～2カ月はかかると言っていたのですが、
自分の場合はリテイク含めて2週間です。
だいたい1日あたり5～10時間の作業だったので、
1日あたりにかけられる時間によっても期間は変わりそうですが・・・

逆に気になったところ

もちろん、良いことばかりではありません。

実際に使ってみて思ったのは、
AI音声さえ使えば全部解決するわけではない
ということです。

たとえば、

間の取り方
テンポ
抑揚
台本の読みやすさ

このあたりは、やはり人が調整しないと不自然になりやすいです。
また調整しても、抑揚が完璧に調整できないのはツールが原因か、自分の調整力が足りないのか・・・
人間が会話するのと比べると、若干の違和感はある気がします。

つまり、AI音声を使うと、
「しゃべる負担」は減るけれど、
「伝わる形に整える負担」は残るんですよね。

ここを雑にすると、
ただ音声が流れているだけの講座になりやすい。

なので、
AI音声はかなり便利だけれど、
最後に伝わる形へ整えるのは人の仕事
だと感じています。

AI音声はこんな人に向いていると思う

使ってみた感覚では、AI音声はこんな人に向いていると思います。

動画や講座を作ってみたい人
自分の声を出すのに少し抵抗がある人
台本ベースで進めたい人
まずは発信の初速を上げたい人
修正しやすい形でナレーションを作りたい人

逆に、

最初から細かい感情表現までこだわりたい
話し方の個性も含めて出したい
自分の肉声そのものに価値がある

という場合は、自分の声を使う方が向いていることもあると思います。

今の自分にはAivis Speechが合っている

いろいろ書いてきましたが、今のところ自分にはAivis Speechが合っています。

それは、
「一番すごいから」というより、
今の自分の用途にちゃんと噛み合っているからです。

講座制作
動画化
台本からの音声化
修正しながら前に進めること

このあたりを考えると、今はかなりちょうどいいです。

もちろん、今後別のAI音声に移る可能性はあります。
AIまわりは変化が早いので、その時その時で合うものも変わると思います。

でも、現時点では
まず使ってみる、まず一本作る
という意味で、Aivis Speechはかなり役立っています。

あと個人的に考えているのは、自分の声をベースにAI音声を作ってもいいかもしれない。
そうすればリテイクもやりやすいし、品質も一定水準を保ちやすいのかなと。

最後に

AI音声をどうするかは、実際に動画や講座を作る際にかなり悩むポイントだと思います。

自分も、Gemini speak generation、VOICEBOX、Aivis Speechあたりを見ながら、
最終的に今はAivis Speechを使っています。

使ってみて思うのは、
AI音声は魔法の道具ではないけれど、
制作の初速を上げる道具としてはかなり強い
ということです。

特に、

台本で整理する
修正する
まず形にする

という流れと相性がいいです。

今後も講座や動画を作る中で、また感じたことがあれば書いていきたいと思います。

それにしても、だいぶ機械音声っぽい感じは無くなってきているんですね。
これはAI音声？という意識が常に無いとあまり分からなくなってきているかもしれない。
意識することで初めて気づくこともあるものですね。

新しい発見は刺激になって好きです。

: AIは本業でどう使えるのか。実務補助と発信補助として活かす方法
この記事の要点人間の「思考の前後」を軽くする道具：AIを「全部任せる魔法」ではなく、文章の叩き台作成、長文の要約・整理 ...