開発が進む声の活用。進化する音声合成技術は声紋認証を突破できるのか検証してみた

合成音声と声紋認証

パスワードの代わりに用いられる技術として注目される「声紋認証」を耳にしたことがあるでしょうか?

 

文字通り、人物の声から生体認証を行える技術のことです。

 

IDやパスワードよりもスピーディかつ正確に認証を行えるのが特徴で、すでに実用レベルまで研究が進んでいます。

 

また声や指紋などのバイオメトリクスを利用する生体認証のほかにも、目の虹彩模様を利用した虹彩認証の技術などが注目を集めています。

 

人々の暮らしを豊かにするための技術ですが、一歩間違えると犯罪にも悪用されかねない危うさを秘めているのも事実です。

 

たとえ双子であっても全く同じDNA、同じ声紋、同じ指紋は持ち合わせないので強固な認証手段として開発が進められてきましたが認証の技術が進化してきたように「生成する技術」も進歩を遂げています。

 

カメラの解像度が向上したことにより写真から指紋を偽装できてしまう可能性があるという話はワイドショーでも取り上げられ話題になりました。

 

写真に写る際の定番ポーズであるピースサインはセキュリティの観点から危ない!というような噂が流れていたのも記憶に新しいと思います。

 

2000万画素以上の写真でのピースサインは盗難・偽造のリスクがあり危険と言われています。

 

いまや指紋認証技術はスマホのログインやドアロックにも使われており、偽装されてしまえば実害が及ぶのは想像に難くありません。

 

イギリスのエネルギー企業では、上司から電話で振込の指示があり従ったところ実はAIで作られた合成音声だったという詐欺も起きています。※記事参照元 

 

良い、悪いの問題ではなくすでに「そっくりにつくる技術」は容易に見破れないレベルまで向上しているのです。

 

◆「コエステーション」を実際にダウンロードしてみた

今日では指紋と同じように、声でも個人を特定できる技術が向上しました。

 

時間軸と声の周波数(高低)をグラフ化すると模様が出来上がるのですが、この特徴こそが声紋とされます。

 

多少の雑音や、外部環境にも左右されにくく電話を用いた場合でも認証が可能となるのが他の生体認証との大きな違いとされています。

 

ただし、録音した音声を見破れるか、電話の向こうで脅された状態で声を発していないかを見破られるのかなど、運用に懸念要素があるのも事実です。

 

また、声紋を手掛かりに本人の声を生成する音声合成技術の開発は様々な企業で取り組まれています。

 

音声合成技術をもつ東芝の子会社(東芝デジタルソリューションズ)とエンターテイメントを得意領域とするエイベックスが手を組み立ち上げた新会社からリリースした「コエステーション」はメディアや堀江貴文さんにもとりあげられ注目を集めています。

 

音声合成技術と声紋認証技術は音声関連技術の両輪です。

 

合成された音声が本人にそっくりであっても認証技術はそれを見抜けなければなりません。

 

どんなにそっくりの音声を再現できるのか、早速でんとら編集部でもダウンロードしてみました。

こえすてA

複数回、指定されたテキストを読み上げを行うことで「コエステーション」のAIが学習していきます。

 

読み上げを多く行うほど音声のレベルがアップしてより精度の高い音声合成を行えるようになっています。

 

若干手間はかかりましたが、無事読み上げも終わり音声の生成に入っていきます。

 

1時間から数日とありましたがさほど時間を要さず完了したようです。

 

こえすてB

早速聞いてみます。

・・・

う~ん 正直、そこまで似ていない気がします。

 

しかし、あくまで人間が聞いたときに似ていないのであって機械の声紋認証を突破するツボを押さえた合成音声になっているのかもしれません。

 

マックスでレベル5まであります。

 

現在、レベル1の音声なのでもう少し読み上げを行い精度を高めてみます。

 

次のランクであるレベル2に達するまでは50文の読み上げを行わなくてはなりませんが検証のために行っていきます。

なかなかに、根気のいる作業です。

 

◆レベル2の音声が完成 その精度は

1時間も待たず、音声が完成したので汎用的なフレーズを読み上げさせてみます。

 

・・・

 

レベル1とは違い、かなり本人の声色に似ています。

 

実際、部内で聞いてみたところ、「似ている」との反応が得られました。

 

さらに3段階の精度向上が行えるとなれば相当な期待が持てます。

 

厳しいことを言うと、言葉の切れ目やイントネーションの問題からフレーズによっては不自然さを感じる部分もあります。

 

また、喜び、怒り、悲しみといった感情によって抑揚に変化を加えられたり話す速さ、高さ、大きさも調整が加えられます。

 

性別を切り替えたり、年齢を調整し未来の自分の声を聞くというエンターテイメント色の高い機能も備わっていてアプリとしての遊び心がふんだんに盛り込まれていて楽しめそうです。

 

手動で調整を加えてみましたが、本人の声からはややかけ離れていくような印象があります。

しかしご愛嬌です。

 

続きを読む<◆音声合成の精度向上、音声認証を突破してしまうリスクはどうなる?>

 952 total views,  20 views today

この記事を書いた人
ビジネスシーンにおける電話の役割は実に多種多様。 電話にまつわる”あれこれ”をお届けしていきます。