カテゴリ一ブログ開発

2019-05-14 #音声認識 #音声合成 #WebSpeechAPI #Javascript

こんにちは。
普段は音声に関わる開発をしていることが多いです。

Astersik, Amazon Connect, twilio, Google Speech API…などなど。
仕事をしていて思うのは、普段は意識していなくてもいろいろなところに音声の技術は使われているんだなーということです。

昨今はWebサービスやスマホのアプリケーションから音声認識や音声入力を行うということは当たり前になってきています。
Googleの日本語版音声検索にいたっては、なんとリリースされてから10年も経つというから驚きです！
音声の技術というのはどんどん身近なものになっています。

今回のブログでは、おそらく最も簡単に音声認識・音声入力を扱うことができる、
Web Speech APIについて紹介したいと思います。
実装の簡単さに対しての認識精度の高さにびっくりすると思います！

1 まずは実際に動かしてみよう
2 Web Speech APIとは？
3 ソースコードを見る
- 3.1 HTML部分
- 3.2 JavaScript部分
4 おわりに

まずは実際に動かしてみよう

以下のサンプルで実際に動きを見てみてください。

「音声入力でGoogle検索開始！」ボタンをクリックすると音声入力及び自動でGoogle検索が行われます。
下の「status」は現在の状態を表しています。

※Chromeのみしか対応していません

status: stop

Web Speech APIとは？

Webページ上で音声認識、音声合成を利用することができるJavascriptのAPIです。

サーバーベースでもクライアントベースでも、APIを埋め込むことで音声認識、音声合成のどちらも利用することができます。
今回のデモで利用しているのは音声認識のAPIのみです。

内部ではGoogleのCloud Speech APIが動いているようですが、参照したページでは記載がありませんでした。
ブラウザ対応状況は、音声認識はCromeしか対応していませんが、音声合成が多くのブラウザで対応しているようです。

参照：Web Speech API

ソースコードを見る

HTML部分

<div style="border:1px solid #000;">
  <div id="result_text"></div>
  <form name="googleform" target="newtab" action="http://www.google.co.jp/search" method="GET" style="display:none;">
    <input type="hidden" name="hl" value="ja">
    <input type="hidden" name="q" id="search_param" maxLength="255" size="30">
  </form>
  <input type="submit" id="start_recognition" value="音声入力でGoogle検索開始！" style="color:#000; background-color:#ff9b00cf;">
</div>
<br>
<div id="status">
status: stop
</div>

</form>

</div>

<br>

status: stop

</div>

HTMLでは認識結果を表示する枠組と、Google検索を行うフォームの定義のみを行っています。

submitボタンがformタグの外にあるのは、submitボタンのデザインを使うために利用しているだけです。
このボタンを押してもformが直接submitされるわけではありません

JavaScript部分

<script type="text/javascript">
  var speech_count = 0;
  document.getElementById("start_recognition").onclick = function vr_function() {
    var result_text = document.getElementById('result_text');
    while (result_text.firstChild) {
      result_text.removeChild(result_text.firstChild);
    }
    SpeechRecognition = webkitSpeechRecognition || SpeechRecognition;
    const recognition = new SpeechRecognition();
    recognition.lang = 'ja';
    recognition.interimResults = true;
    recognition.continuous = true;
    recognition.onresult = function(event) {
      var results = event.results;
      if (document.getElementById('interim_result') == null) {
        var interim = document.createElement('d' + 'iv');
        interim.setAttribute('class', 'results');
        interim.setAttribute('id', 'interim_result');
        document.getElementById('result_text').appendChild(interim);
      }
      for (var i = event.resultIndex; i < results.length; i++) {
        if (results[i].isFinal) {
          speech_count++;
          result_line = "<font size='4'>" + results[i][0].transcript + "</font>";
          document.getElementById('interim_result').innerHTML = result_line;
          document.getElementById('interim_result').setAttribute('id', 'result' + speech_count);
          document.getElementById('search_param').setAttribute('value', results[i][0].transcript);
          document.googleform.submit();
          document.getElementById('status').innerHTML = "status: searched!";
          recognition.stop();
          return;
        } else {
          document.getElementById('interim_result').innerHTML = "<font size='4' color='gray'>" + results[i][0].transcript + "</font>";
          flag_speech = 1;
        }
      }
    }
    document.getElementById('status').innerHTML = "status: recording...";
    recognition.start();
  }
</script>

var speech_count = 0;

document.getElementById("start_recognition").onclick = function vr_function() {

var result_text = document.getElementById('result_text');

while (result_text.firstChild) {

result_text.removeChild(result_text.firstChild);

}

SpeechRecognition = webkitSpeechRecognition || SpeechRecognition;

const recognition = new SpeechRecognition();

recognition.lang = 'ja';

recognition.interimResults = true;

recognition.continuous = true;

recognition.onresult = function(event) {

var results = event.results;

if (document.getElementById('interim_result') == null) {

var interim = document.createElement('d' + 'iv');

interim.setAttribute('class', 'results');

interim.setAttribute('id', 'interim_result');

document.getElementById('result_text').appendChild(interim);

}

for (var i = event.resultIndex; i < results.length; i++) {

if (results[i].isFinal) {

speech_count++;

result_line = "<font size='4'>" + results[i][0].transcript + "</font>";

document.getElementById('interim_result').innerHTML = result_line;

document.getElementById('interim_result').setAttribute('id', 'result' + speech_count);

document.getElementById('search_param').setAttribute('value', results[i][0].transcript);

document.googleform.submit();

document.getElementById('status').innerHTML = "status: searched!";

recognition.stop();

return;

} else {

document.getElementById('interim_result').innerHTML = "<font size='4' color='gray'>" + results[i][0].transcript + "</font>";

flag_speech = 1;

}

document.getElementById('status').innerHTML = "status: recording...";

recognition.start();

}

</script>

長いですが、大半はDOM操作になっています。

主要な部分は、

8 ~ 12行目　SpeechRecognitionクラスのインスタンスのセットアップ
13行目　認識結果が返ってきたときのイベントをキャッチするファンクション
22行目　認識結果が認識終了結果なのかのチェック
39行目　実際に認識を開始するポイント

となっています。

WordPressの投稿に直接埋め込むために空行をなくしたり、divタグを明記しないようにしています。

おわりに

このように、Web Speech APIを利用すれば、JavaScriptだけで音声認識、音声合成をシステムに組み込むことができます。

とても簡単に使えて組み込めるのがいいですね！

音声のインターフェースを組み込むことでユーザーの操作の幅が広がり、UXの改善にもつながるのではないでしょうか。
ぜひ一度トライしてみてください！

ではでは～。

この記事を書いた人
最近の記事

西山一平

ギークフィード9年生です。

西山一平 (全て見る)

組織内のIPv4アドレス（EIP）を自動通知してコスト削減する - 2024-12-03
組織内のAWSコスト最適化のためにやっている7つのこと - 2024-12-01
Amazon Connect Contact Lens + iPaaSで生成AI活用＆他サービス連携を簡単に実現！– Amazon Connect アドベントカレンダー 2024 - 2024-12-01
AWS Step Functionsの基本を再学習しました - 2024-09-23
Amazon SESでバウンスメールを管理する - 2024-07-07

【採用情報】一緒に働く仲間を募集しています

2019-05-14 #音声認識 #音声合成 #WebSpeechAPI #Javascript

【Web Speech API】ブラウザの音声認識・音声入力を使ってGoogle検索をしてみよう！

まずは実際に動かしてみよう

Web Speech APIとは？

ソースコードを見る

HTML部分

JavaScript部分

おわりに

【採用情報】一緒に働く仲間を募集しています

エンジニア募集

Asterisk13CLI_チートシート

CentOS7_チートシート

カテゴリー

月別で見る

投稿者から見る

サイト内検索

【Web Speech API】ブラウザの音声認識・音声入力を使ってGoogle検索をしてみよう！

まずは実際に動かしてみよう

Web Speech APIとは？

ソースコードを見る

HTML部分

JavaScript部分

おわりに

【採用情報】一緒に働く仲間を募集しています

関連投稿

取引先から最短距離にいる担当者へメール通知する仕組みをSalesforce Apexで実現してみた〜後編〜

取引先から最短距離にいる担当者へメール通知する仕組みをSalesforce Apexで実現してみた〜前編〜

Amazon PollyのSSMLを使って日本語のイントネーションを自然にする

AWS Card Clashがマルチ対戦可能になっていたり進化していた

Next.jsアプリケーションをAWS App Runnerにデプロイする実践ガイド

2ヶ月で全取得したAWS認定を2ヶ月以内に再認定＆取得し直す

エンジニア募集

Asterisk13CLI_チートシート

CentOS7_チートシート

カテゴリー

月別で見る

投稿者から見る

サイト内検索