開発が進む「声」の活用。進化する音声合成技術は声紋認証を突破できるのか？

2026年2月9日 CTI, お役立ち, コラム, コールセンター, ツール連携, マーケティング, 効果検証, 開発秘話

パスワードに代わる認証技術として注目されている「声紋認証」。
文字通り、人の“声”をもとに本人確認を行う生体認証技術です。

IDやパスワードと比べて入力の手間が少なく、電話や音声UIと親和性が高いことから、金融・コールセンター・スマートデバイスなど幅広い分野で実用化が進んでいます。
指紋や顔認証、虹彩認証と並ぶバイオメトリクス技術のひとつとして、すでに現実的な選択肢となりました。

一方で、生体情報を扱う技術には常にリスクが伴います。
認証技術が進化するのと同時に、「生成する技術」もまた急速に進歩しているからです。

高解像度カメラによる指紋偽装リスクが話題になったように、
音声分野でもAIによる高精度な音声合成が一般化しつつあります。実際、海外ではAIで合成された上司の声を使った送金詐欺が発生しており、
「聞き分けられないレベルの音声」が現実の脅威になっています。※記事参照元　

では現在の音声合成技術は、声紋認証を突破できるほどの精度に達しているのでしょうか。

◆実際に音声合成アプリ「コエステーション」を検証
◆レベル2の音声が完成　その精度は
◆音声合成の精度向上、音声認証を突破してしまうリスクはどうなる？
◆開発途上の技術　どんなポテンシャルを秘めているの？
◆電話の「声」を正しく活かすために

◆実際に音声合成アプリ「コエステーション」を検証

今日では指紋と同じように、声でも個人を特定できる技術が向上しました。

時間軸と声の周波数（高低）をグラフ化すると模様が出来上がるのですが、この特徴こそが声紋とされます。

多少の雑音や、外部環境にも左右されにくく電話を用いた場合でも認証が可能となるのが他の生体認証との大きな違いとされています。

ただし、録音した音声を見破れるか、電話の向こうで脅された状態で声を発していないかを見破られるのかなど、運用に懸念要素があるのも事実です。

また、声紋を手掛かりに本人の声を生成する音声合成技術の開発は様々な企業で取り組まれています。

音声合成技術をもつ東芝の子会社（東芝デジタルソリューションズ）とエンターテイメントを得意領域とするエイベックスが手を組み立ち上げた新会社からリリースした「コエステーション」はメディアや堀江貴文さんにもとりあげられ注目を集めています。

音声合成技術と声紋認証技術は音声関連技術の両輪です。

合成された音声が本人にそっくりであっても認証技術はそれを見抜けなければなりません。

どんなにそっくりの音声を再現できるのか、早速でんとら編集部でもダウンロードしてみました。

複数回、指定されたテキストを読み上げを行うことで「コエステーション」のAIが学習していきます。

読み上げを多く行うほど音声のレベルがアップしてより精度の高い音声合成を行えるようになっています。

若干手間はかかりましたが、無事読み上げも終わり音声の生成に入っていきます。

1時間から数日とありましたがさほど時間を要さず完了したようです。

早速聞いてみます。

・・・

う～ん　正直、そこまで似ていない気がします。

しかし、あくまで人間が聞いたときに似ていないのであって機械の声紋認証を突破するツボを押さえた合成音声になっているのかもしれません。

マックスでレベル5まであります。

現在、レベル1の音声なのでもう少し読み上げを行い精度を高めてみます。

次のランクであるレベル2に達するまでは50文の読み上げを行わなくてはなりませんが検証のために行っていきます。

なかなかに、根気のいる作業です。

◆レベル2の音声が完成　その精度は

1時間も待たず、音声が完成したので汎用的なフレーズを読み上げさせてみます。

・・・

レベル1とは違い、かなり本人の声色に似ています。

実際、部内で聞いてみたところ、「似ている」との反応が得られました。

さらに3段階の精度向上が行えるとなれば相当な期待が持てます。

厳しいことを言うと、言葉の切れ目やイントネーションの問題からフレーズによっては不自然さを感じる部分もあります。

また、喜び、怒り、悲しみといった感情によって抑揚に変化を加えられたり話す速さ、高さ、大きさも調整が加えられます。

性別を切り替えたり、年齢を調整し未来の自分の声を聞くというエンターテイメント色の高い機能も備わっていてアプリとしての遊び心がふんだんに盛り込まれていて楽しめそうです。

手動で調整を加えてみましたが、本人の声からはややかけ離れていくような印象があります。

しかしご愛嬌です。

◆音声合成の精度向上、音声認証を突破してしまうリスクはどうなる？

コールトラッキングサービス「コールトラッカー」を提供しているコムスクエアの開発チームの協力のもと音声認証のプロトタイプをお借りして実験を行いました。

本人とみなす閾値（しきいち）を調整できるので、セキュリティの強度を調整することができます。

当然ながら、厳格にすればするほど本人であってもはじかれてしまう可能性がありますし、緩くすれば似ている声色を本人と認識してしまうことになります。

まずは音声合成した音声を正解データにして、認証鍵をかけてみました。

本人の声で文言を読み上げ、開錠できるでしょうか。

開発担当者の推奨設定50％に設定してテストを行ってみました。

類似度は35.9％ということで認証を突破することはできませんでした。

では逆に、本人の声を正解データにして認証鍵をかけて合成音声で開錠を試みるとどうでしょうか。

結果は33.27％。本人と断定することはなく最初のテストと同じような類似度となりました。

最後に、本人の声で認証鍵をかけて、本人の声で開錠してみます。

結果は71％以上の数値を示し本人と断定されました。

正しく判断されたという結果は得られましたが正直なところ本人であれば90％以上を示すと思っていたので案外低い数値だなという印象を受けました。

◆開発途上の技術　どんなポテンシャルを秘めているの？

例えば、家の施錠や口座の引き出しなど財産を脅かす可能性がある分野への導入は単体ではハードルが高いような印象があります。

そこで暗証番号と声紋など、組み合わせることでセキュリティーを高めることができます。

そのほかにも予約の本人確認や、端末の本人認証、暗証番号を忘れてしまった時の再設定などはスピーディーに認証を行える方法としてニーズが広がるかもしれません。

また、自動運転の注目も高まっていますが、個人的には「モビリティカー」の共通カギとして「声」が採用される可能性は高いというイメージがあります。

個人の声紋に様々な情報が紐づくことでシームレスに「AIによるショートカット」の恩恵が期待できます。

運転中に音声で指示を出すことができれば両手も塞がりませんし、目的地の地図情報やナビゲーション、経路のサジェスト、運転中でも会話による相談が容易に行えそうです。

「来週は結婚記念日だから、彼女の欲しがっていたアウトドアダウンジャケットをプレゼントしたいんだ」

この時、モビリティカーに搭載されたAIは声の持ち主を特定し、同時に奥様の趣味嗜好を踏まえて在庫のある売り場をピックアップして知らせてくれたら便利ですね。

個人の声紋をキーにしたコマンドで、パーソナライズされた選択肢が瞬時に手に入るとしたらあれこれ考える必要もありません。

また、以前でんとらでも扱ったように特殊詐欺対策として登録のある声紋（家族など）以外は住人に接続しないなどの工夫は社会的にも意義高い仕組みだと思います。

物理的な鍵には紛失の際の開錠に手間がかかります。

紛失リスクの低い生体認証技術は、手軽さゆえ様々なサービスに実装されていくと思いますが、セキュリティーリスクもセットで考えていかねばなりません。

しかしながら、「開けゴマ」のように合言葉で鍵の開け閉めが行える世界は子供にとっても手軽で夢のある世界です。

「声」を鍵にしたサービスが身の回りにあふれ、さらなる便利さが手に入るようになるのはそう遠くない未来かもしれません。

◆電話の「声」を正しく活かすために

音声技術が高度化する一方で、「どの電話が、どんな成果につながったのか」を正確に把握する重要性も高まっています。
コールトラッカーは、電話の発生元や通話内容、成果を可視化し、広告効果や業務改善に役立てられるコールトラッキングサービスです。
人の声を活かす時代だからこそ、電話を“感覚”ではなく“データ”で捉えることが、ビジネスの精度を大きく左右します。