モビットの審査サイト、 モビットの審査比較サイトのお得な情報、 モビットの主婦情報、 モビットの低金利情報など、 モビットに関することの申込み情報サイト。
一番  通常  過去  支払う  満足  生年月日  リボルビング  スタンス  テレビ  相当  モバイル  到着  長崎  借り入れ  相違  返済  振替  多い  公式  初回 

音声とは?/ モビット

[ 430] 音声認識 - Wikipedia
[引用サイト]  http://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98

音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
音声認識では、統計的手法が良く用いられている。これは大量の発話を記録した学習用データから音声の特徴を学習し、入力された音声信号とそれらの特徴と照らし合わせながら、最も尤もらしい言語系列を認識結果として出力する手法である。
一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。例えば、「あなた (a n a t a)」という発声の直後には、「が (g a)」や「は (w a)」などの発声が続く確率が高い、などの制約である。言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられる。
動的時間伸縮法(Dynamic time warping)は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムである。例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩いても、さらには歩行の画像を早送りしてもスロー再生しても一定のパターンが存在する。DTW は音声だけでなく動画などの任意の時系列のデータに適用可能である。音声認識においては、発声速度がどうであっても一定のパターンを検出するために使われていた。従って、比較のための標準パターンが必要であり、認識できる語彙は限定される。
音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデルが適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。
また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一(最大)係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。
以上は、隠れマルコフモデルをベースとした音声認識に共通する概念である。最近の音声認識システムはそれに加えて、様々な性能向上のための技法を組み合わせている。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLN) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。
個人向けに市販されている音声認識ソフトでは、雑音のない静かな部屋などで、ユーザーがいくつかのコツを知っていれば十分実用的な認識率を示す。ただし屋内であっても複数の人間がいる会社や、屋外などの騒音のある環境では認識が困難である。また、複数の話者による発声や、音声認識向けと意識していない発声(たとえばインタビューや会議など)を認識するのは困難である。企業・組織向けでは、会議などでの議事録として使える、より高度なソフトも販売されている。
話者を限定して、事前にトレーニングを行う方式の音声認識システムでは、98%から99%の認識率が達成できるとされている(理想的な環境の場合)。語彙を限定し、トレーニングを必要としないシステムでは、不特定多数の話者の音声を認識できるが、語彙が少ないため、あらゆる状況に適用できるわけではない。

 

戻る

モビットの審査サイト、 モビットの審査比較サイトのお得な情報、 モビットの主婦情報、 モビットの低金利情報など、 モビットに関することの申込み情報サイト。