音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました
現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。(現状だと英語のみ対応というケースが多い気がします)
そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。
※2020/06/08 追記:サービスの名前変更しました。
使い方は簡単です。音声通話やビデオ通話をしている状態で
- 「Talk To CSV」にアクセス(簡易チャットルームが作られます)
- 上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。
(招待URLは起動のだびに毎回変わる事に注意してください) - 音声通話やビデオ通話の参加者に、そのURLを伝えます。
- 参加者全員にGoogle Chromeで、そのURLを開いて貰います。
- 開いて貰った後、一番左下の「音声認識OFF」をクリックしてONにします。
これだけで、各メンバーが喋った内容がテキストに変換されていきます。
起動した人の画面
起動した人は
- 接続している人数が分ります。
- 会話(チャット)ログがブラウザに記録されます(IndexedDBに保存)
- 会話(チャット)ログをCSVに出力できます。
- 会話(チャット)ログをブラウザから消去できます。
招待された人の画面
招待された側は、上部のメニュー部分は表示されません。
※CSV出力やメッセージクリアは招待された側は、現状できません。
音声認識について
Google Chromeに搭載されている Web Speech Api を使用しています。変換精度については、恐らく有料の音声認識サービスに比べて低いと思われます。他の音声認識サービスと比較したわけではありませんが、正しく変換できない事も多い印象です。
ゆっくり、はっきりと喋ると、ちゃんと認識される印象なんですが、実際の会議等で使用した場合には、実用レベルの変換がされるかどうか何とも言えないところです。
ですが、何も無いよりは、議事録作成が楽になるのではないかと思っています。
技術的な話
このサービスは、NTTコミュニケーションズのSkyWayを使用しています。
SkyWayはビデオ通話だけでなく、DataChannelと呼ばれる機能でデータ通信も可能です。このサービスはSkyWayのDataChannelを利用し、P2Pでのデータ通信を実現しています。また、会話ログはブラウザのデータベース(IndexedDB)に保存されます。
その為、会話(チャット)ログはNTTコミュニケーションズにも、私の公開サーバーにも保持されませんので安心して利用可能です。
※また、私自身も利用している人の会話ログが傍受できない仕組みとなっています。
それでは。