Skyway Walkers

SkyWayを使ったサービスを個人開発しています

Googleドキュメントの音声入力と、Web Speech APIの音声入力の比較検証

こんにちは。iwatendoです。

 Googleドキュメントで音声入力ができる事は有名だと思いますが、自作した音声入力チャットツール(Talk To CSV)に比べて、どれくらいの音声入力での変換精度に違いがあるか検証してみました。

 「Talk To CSV」は Web Speech API を利用したサービスです。ブラウザがGoogle Chromeであれば無料で利用できるAPIであり、有料の音声入力APIに比べて変換精度は低いのではないかと考えられるのですが、同じく無料で利用できるGoogleドキュメントと比較して違いがあるか気になった為です。

 入力環境が違う場合、公平な比較ができない為、同一のPC、同一のマイク、同一の入力での比較を行います。単純にGoogleドキュメントとTalk To CSVを2つを起動して音声入力するだけの話なのですが、実は普通の起動方法ではこの検証はできません。

 例えば、別々のGoogleドキュメントを複数のタブで起動して同時に音声入力しようとしても、2つ目の音声入力をONにすると、1つ目の音声入力がOFFになってしまいます。これと同様に、Web Speech APIを利用した音声入力ができるサイトは同時に音声入力ができません。「Talk To CSV」もそうなのですが、エラー処理がしっかりと実装されていない為か、どちらの音声入力もできなくなるケースが多いようです。

 更には、Googleドキュメントの音声入力と、Web Speech APIを利用した音声入力可能なサイトも同時に音声入力ができないようです。

 但し、複数のGoogle Chromeを別設定で起動させている場合は、同時に音声入力が可能なようです。例えばWebサービスの開発者であれば、VSCodeを利用されている人も多いと思いますが、Debugger for Chromeで起動したChromeと、通常起動したChromeの2つを利用すれば同時に音声入力が可能となります。

 その他の方法として、起動オプションを設定する事で比較的簡単に、Google Chromeの複数設定が可能となります。詳細については以下のサイトが参考になります。

・Google chromeで複数アカウントを使う方法 | パソコン工房 NEXMAG

・Chromeを複数(多重)起動する方法(ユーザごとに別設定のプロファイルを作成) | ぱーくん plus idea


 今回は上記サイトを参考にして、別設定のプロファイルを作成した状態でGoogleドキュメントとTalk To CSVの同時音声入力検証を行いました。

 また、マイクにはaudio-techicaのモノラルピンマイクを使用しました。

f:id:iwatendo:20200613064416j:plain

 

検証動画 

www.youtube.com

 Googleドキュメントの音声入力には何が使われているか不明なのですが、上記の比較検証結果を見た感じでは、ほぼ同じような変換がされているような印象を受けました。

 若干の差異はありますが、個人的には、ほぼGoogleドキュメントの音声入力と同等の変換精度があると言えるのではないか、と思っています。

 

※「Talk To CSV」についての詳細は以下の記事に書いてあります。

iwatendo.hateblo.jp

 

それではまた。