完璧な音声認識は、コンピューティングの聖杯の一つです。長年SF映画で実現されてきたように、コンピューターは私たちが話した内容を正確に、スペルや句読点も正確に書き起こせるべきではないでしょうか? 実は、音声認識ソフトウェアはコンピューティングの世界では目新しいものではありません。Windowsユーザーは長年、Nuanceの優れたDragon Naturally Speakingを活用してきました。Macでは、このソフトウェアが十分に優れたものになったのは、ここ数年のことです。MacSpeechがNaturally Speakingエンジンのライセンスを取得し、その後Nuanceに買収され、MacSpeechアプリがDragon Dictateに改名されたためです。
しかし、音声認識ソフトウェアで何ができて何ができないかを理解することが重要です。普通に話せば、魔法のようにテキストに変換されるという段階にはまだ至っていません。私は15年以上、ディクタフォンに口述筆記し、音声認識ソフトウェアも使ってきました。私にとって、口述筆記はタイピングより速いわけではありませんが、よりリラックスできると感じることがよくあります。タイピングが速い人にとっては、口述筆記の方が速いかもしれませんし、特定の身体障害や怪我のある人にとっては、口述筆記は不可欠な技術です。
iPhone 4Sと第3世代iPadの発売により、Appleは数百万のiOSユーザーにシンプルな音声ディクテーションを提供しました。そしてOS X 10.8 Mountain Lionのリリースにより、MacユーザーもDragon Dictateを購入せずに音声ディクテーションを利用できるようになりました。Appleの内蔵音声ディクテーション機能で満足できるかどうか、あるいはDragon Dictateのフル機能が必要かどうかは、このソフトウェアをどのように活用するかによって大きく異なります。
(音声ディクテーションと音声コントロールには違いがあることは注目に値します。音声ディクテーションでは、話した内容が、入力したのと同じようにテキストに変換されます。音声コントロールでは、コマンドを話すとコンピュータまたは iOS デバイスがそれに反応します。iPhone 4S では、これが音声ディクテーションと Siri への話しかけ方の違いです。また、Mountain Lion の Mac では、システム環境設定の「ディクテーションと読み上げ」パネルの新しい音声ディクテーション機能と、現在「アクセシビリティ」環境設定パネルにある、長年提供されている「読み上げ可能な項目」機能の違いです。)
音声認識について理解すべき最も重要な点は、コンピューターは私たちの言葉を理解できないということです。コンピューターは私たちが口にした言葉を理解できるかもしれませんが、その意味や文脈を全く理解できません。そのため、ディクテーションでは、意図を伝えるために特別な技術を駆使する必要があります。
さらに、音声認識ソフトウェアは静かな環境で最も効果的に機能します。外部のノイズによって、書き起こしがシュルレアリスムの詩人の作品のように聞こえてしまう可能性があるからです。幸いなことに、ノイズキャンセリングマイクという技術が背景ノイズを除去し、より純粋な音声をMacに届けてくれます。これにより、騒がしいオフィスでもディクテーションが可能になります。
話し始める— これまでディクテーション ソフトウェアを使用したことがない場合は、Apple が iOS と Mountain Lion にディクテーション ソフトウェアを実装した基本操作が極めて簡単であることが分かるでしょう。
iOSでテキストを入力するには、入力可能な場所をタップしてオンスクリーンキーボードを表示します。スペースバーの左側にあるマイクボタンをタップして発声し、話し終わったらもう一度タップします。マイクボタンを長押しして、話し終わったら指を離すこともできます。挿入ポイントに書き起こされたテキストが表示されます。
Mountain Lion では、書き起こしたテキストを表示したい場所に挿入ポイントを置き、Fn (ファンクション) キーを 2 回押してディクテーションを開始し、話し始めます。(挿入ポイントがない場合は、Mountain Lion は Fn キーを 2 回押すとビープ音を鳴らすだけです。) iOS と同様に、話し終わったことを Mountain Lion に知らせるには、もう一度 Fn キーを押します。または、2 回目の呼び出しで Fn キーを押したままにしておけば、終わったらキーを離すことができます。または、
表示されるディクテーション バルーンの [完了] ボタンをクリックすることもできますが、手がキーボード上にある場合は不自然な操作に思えます。最後に、Return キーを押して、Mac に言ったことを処理するよう指示します。(2 回押すキーは、システム環境設定の [ディクテーションとスピーチ] パネルで変更できます。)
10のテクニック— ディクテーションをより効率的かつ効果的に行うためのテクニックがいくつかあります。iOSとMountain Lionに搭載されているAppleのディクテーション機能は、Dragon Dictateのようなソフトウェアとは異なり、ユーザーのディクテーション内容を学習しないため、特に重要です。最良の結果を得るには、以下のルールに従ってください。
- ゆっくり、落ち着いて、はっきりと話しましょう。ニュースキャスターになってニュースを読んでいるつもりで話しましょう。
-
話す前に、何を言うかよく考えてください。話す時にためらえばためらうほど、ソフトウェアがあなたの意図を理解しにくくなります。
-
ディクテーションは短い文やフレーズで行いましょう。ただし、完全な文や節をディクテーションするようにしてください。これは特にAppleのディクテーション機能で重要です。Appleのディクテーション機能は長い文を処理できるように設計されておらず、30~40秒しか聞き取れません。これは、「完了」ボタンをタップまたはクリックするか、時間切れになると、ディクテーションした音声がリモートサーバーに送信され、処理されてからテキストとして返されるためです。一方、Dragon Dictateはすべての処理をMac上で行うため、少しの間中断してもテキストを処理し、入力して、ユーザーが続けるまで待つことができます。
-
ディクテーションを頻繁に行う場合や、騒音の多い環境にいる場合は、独立型マイクを使用してください。iOSデバイスとMacの両方で、内蔵マイクは基本的な用途には十分ですが、ノイズキャンセリング機能がないため、周囲の騒音があるとうまく機能しない可能性があります。ただし、iPhone 4Sと第3世代iPadでは、内蔵マイクを口元に近づけることで認識率が大幅に向上します。
-
すべての句読点を読み上げます。「カンマ」「ピリオド」「ドル記号」「パーセント記号」「度記号」などです。「改行」と言えばReturnキーを1回押した状態、「改段落」と言えばReturnキーを2回押した状態(空白行の挿入)をシミュレートします。
-
所有格を表すには「アポストロフィ」を発音します。例えば、「I am going to Ahab apostrophe s cabin period」は「I am going to Ahab's cabin.」と発音されます。
-
単語や略語を綴るには、文字を一つずつゆっくりと発音してください。Appleのディクテーション機能は、すべて大文字で入力することを前提としていることが多いため、不要なスペースを避けるために、すべての文字を同じリズムで発音すると効果的です。Dragon Dictateをお使いの場合は、プログラムにスペルモードを設定して、文字だけを認識させるように指示できます。
-
iOSでは、大文字にしたい単語の前に「cap」と発音することで、単語を大文字にすることができます。例えば、「I'm going to buy some Clothes at cap the cap gap」と発音すると、文末に「The Gap」が付きます。しかし奇妙なことに、リモートサーバーはおそらく同様の、あるいは全く同じ認識コードを実行していると思われるため、この手法はMountain Lionでは機能しません。Appleがバックエンドを改良し、この方法で任意の大文字化を可能にすることを期待しています。
-
Dragon Dictateとは異なり、iOSおよびMountain Lionのディクテーション機能では音声による間違いの修正はできません。そのため、文章が間違っている場合は、キーボードから編集するか、削除して最初からやり直す必要があります。
-
定期的に水分を摂りましょう。口や喉が乾くと声が違って聞こえ、ソフトウェアが正確に音声を録音しにくくなります。
-
ボーナスのヒントとして、メールを音声入力していて感情を伝えたい場合は、「smiley」と言えば
:-)
、「winky」と言えば;-)
、「frowny」と言えば に:-(
なります。また、これらの単語に「face」を追加しても同じ結果が得られます。興味深いことに、Safari 6のアドレスフィールドやFinderウィンドウの検索フィールドなどでは、これらのショートカットは翻訳されず、発声した単語だけが出力されます。
ディクテーションはあなたに向いていますか? — iOSとMountain Lionに搭載されているAppleのディクテーション機能に奇跡的な効果を期待してはいけません。練習すれば、インスタントメッセージ、短いメール、ツイートなどの短いテキストには役立つことが分かるでしょう。しかし、より長いテキストをディクテーションしたい場合は、Dragon Dictateなどの専用の音声認識ソフトウェアを使用する必要があります。Dragon Dictateは、ユーザーの発話パターンを学習し、間違いを修正できます。Nuanceは、弁護士や医師がディクテーションをより簡単に行えるよう、専門用語を内蔵したソフトウェア(MacSpeech Dictate LegalとMacSpeech Dictate Medical)も提供しています。
音声認識は奇跡のように思えるかもしれません。うまく機能すれば、1分間に40~50語しか入力できないのに、同じ時間でその2倍以上の音声入力が可能になります。ただし、これにはかなりの労力が必要です。最適な音声入力テクニックを習得するだけでなく、Dragon Dictateを使用している場合は、ソフトウェアに自分の話し方を認識させるようにトレーニングする必要があります。しかし、テキスト入力のほとんどを音声入力で済ませたいと考えているなら、iOSとMountain Lionに搭載されているAppleの音声入力機能を試してみてください。そして、それが時間の節約になると感じたら、Dragon Dictateをチェックしてみてください。