iOSとmacOSのディクテーションが音声コントロールのディクテーションから学習する方法

iOSとmacOSのディクテーションが音声コントロールのディクテーションから学習する方法

音声認識は長らく、コンピューターデータ入力の聖杯でした。むしろ、私たちはコンピューターを音声で操作したいと願ってきました。1960年代のスタートレックのエピソードを思い出してください。問題は、コンピューターでやりたいことが必ずしも音声操作に適していないことです。だからといって、それができないわけではありません。Macには以前から音声コントロール機能が搭載されており、macOS 10.15 Catalinaの最新バージョンは、音声操作を頼りにする人にとっては非常に優れています。しかし、現代のコンピューターインターフェースは、ポインティングデバイスとキーボードで操作するように設計されているというのが単純な事実です。

さらに興味深いのはディクテーションです。これは、キーボードで入力するのではなく、デバイスに話しかけることでテキストを作成するものです。(ちなみに、この記事の初稿は私がディクテーションしました。)ディクテーションはスキルですが、かつては多くの弁護士や経営幹部が習得していたものです。最近では、iOSのディクテーション機能を使って短いテキストメッセージをディクテーションすることに慣れてきました。

iOSの音声入力機能は完璧とは程遠いですが、小さな仮想キーボードで入力するしかない状況では、たとえ不完全な音声入力でも歓迎されます。最もイライラするのは、音声入力中に間違いを修正できないことです。そのため、テキストの間違いを我慢するか、iOSの不器用な編集技術を使うしかありません。画面上でテキストを編集する頃には、最初から入力したのと同じような状態になっているかもしれません。

macOS にも何年も前からディクテーション機能は搭載されているが、仮想キーボードのボタンをタップするだけよりも多くの設定が必要なため、iOS の機能ほど成功しておらず、あまり使用されていない。

iOS 13とCatalinaで、Appleは音声コントロール機能を大幅に強化し、同時に全く異なると思われるディクテーション技術を導入しました。これを「音声コントロールディクテーション」と呼びます。ここではVCDと略します。多くの点で、VCDはiOSとmacOSに組み込まれているディクテーションよりも優れています。この2つの技術を統合できれば理想的です。

iOSとmacOSのディクテーションの問題点と問題点

iOSとmacOSの音声入力の大きな問題は、入力ミスをすると修正できないことです。しかし、他にも問題があります。まず、音声入力を開始するには、キーボードのマイクボタンをタップするか(iOS)、キーボードのキーを2回押す必要があります(Macの場合は、システム環境設定 > キーボード > 音声入力で設定)。これはもちろん理にかなっていますが、新しいメッセージを音声入力するたびにキーボードに触れる必要があることを意味します。つまり、例えばメッセージアプリで会話を続けるには、常に指で操作する必要があり、本来の目的が達成できません。

iOSとmacOSでディクテーションを有効にする

iOSとmacOSのディクテーションに関するもう一つの問題は、動作時間が限られていることです。私のテストでは、iOSは約60秒、macOSは約40秒しか動作しませんでした。そのため、マイクボタンをタップしてディクテーションを再開しないと、文書全体、あるいは1~2段落以上をディクテーションすることはできません。

しかし、音声テキストを編集できないことこそが真の問題です。目の前で間違いが起こっていて、それを修正する方法がディクテーションを止めなければないことほどイライラすることはありません。そして、一度止めてしまうと、iOSで挿入ポイントを直接ドラッグできるようになった今でも、間違いを修正するのは非常に面倒です。iOSはテキスト編集用に設計されていません。もちろん、Macでは事後の編集ははるかに簡単ですが、ディクテーション中にマウスをクリックするだけでディクテーションが止まってしまいます。

良い点としては、iOSとmacOSのディクテーション機能は、ユーザーが話した単語に基づいて認識を調整できるようです。実際にこの機能が使われているのを目にすることがあり、話し続けると、単語が2つの候補の間で交互に切り替わります。また、マイクボタンをタップして開始するか、ディクテーションの時間が切れるまで、変更は行われません。いずれにせよ、Appleが強引な認識ではなく、文脈に基づいて単語を調整するのは良いことです(少し奇妙に感じるかもしれませんが)。

音声コントロールによるディクテーションのメリットとデメリット

Appleの新しい音声コントロールシステムに組み込まれたディクテーション機能は、これまでとは全く異なります。まず、「設定」>「アクセシビリティ」>「音声コントロール」(iOS)または「システム環境設定」>「アクセシビリティ」>「音声コントロール」(macOS)と移動する代わりに、Siri経由で音声コントロールを有効にできます。「Hey Siri、音声コントロールをオンにして」と話しかけるだけです。オンにすると、テキストフィールドまたはテキストエリアに挿入ポイントがあるときはいつでも、話しかけるだけでその場所にテキストをディクテーションできます。もちろん、コマンドを音声で入力することもできますが、慣れるまで少し時間がかかります。

しかし、標準的なディクテーションとは異なり、VCDは無期限にオンのままです。話し続けるだけで、話した内容が文書に入力され続けます。

しかし、最も大きなメリットは、Voice Controlが起こす間違いを修正できることです。例えば、前の文では「However」という単語が大文字になっていました(Voice Controlはコンマに続く単語を大文字にする悪い癖があります)。「Howeverを小文字にして」と発声するだけで、問題を修正できました。注意深く聞いている方なら、この記事の中で「However」という単語が何度も登場していることに気付くでしょう。Voice Controlはどのようにして修正すべき箇所を判断するのでしょうか?単語の横に数字を表示して指示するので、修正したい単語の番号を発声します。時間はかかりますが、効果的です。

Mac で最もよく機能する別の方法もあります。iPhone や iPad では指やキーボード、Mac ではマウスやトラックパッドを使ってテキストを選択すると、音声コントロールにその特定のテキストを操作するよう指示できます。たとえば、前の文では、VCD は最初「voice control」という単語を大文字にしていませんでした。これは間違いではありません。特定の機能について話しているためにこれらの単語を大文字にしていますが、通常は大文字にしません。とはいえ、マウスでこの 2 つの単語を選択し、「captalize that」と言うことで、目的の効果を得ることができます。これは驚くほど効果的な編集方法です。マウスで選択してから、手をキーボードに戻さなくても音声で変更するのは簡単で直感的です。

簡単に修正できる間違いもあります。先ほど「it prompts you」と言ったところ、VCDは「impromptu」と返しました。「impromptuをit prompts youに変更して」と言うだけで、音声コントロールがすぐに間違いを修正してくれました。これがうまくいった時は、特にiOSでは魔法のようです。Macを使うときはいつも、マウスで選択して音声で置き換えるのが好きです。

もちろん、音声編集が完全に機能しない状況もあります。この記事を口述しているときに、「by」という単語を何度か使いました。VCDはほとんどの場合、それを「I」と解釈してしまい、音声でどのように編集しようとしても、「bye」という単語と「前の文字を削除」というコマンドしか使えませんでした。また、上記の「effect」という単語を言いたかったのですが、「affect」になってしまいました。これはおそらく、単語をはっきりと発音しなかった私のせいでしょう。しかし、「affectをeffectに変更」しようとしたところ、音声コントロールは1回目は「eat fact」、2回目は「ethernet fact」と認識しました。本当に腹立たしい!「effect」という単語を単独で発音し、最初の「ee」の音を強調すれば問題なく機能するので、これは奇妙です。

他にも面倒な点があります。ディクテーションでは当然のことながら、句読点は声に出して発音しなければなりませんが、これは面倒で、脳を少し再訓練する必要があります。VCDが単語を所有格ではなく複数形と解釈した場合、「s」の前に挿入ポイントを移動して「アポストロフィ」と発音できますが、アポストロフィの前にスペースが挿入され、単語を修正するためにさらに多くのコマンドが必要になります。また、句読点の代わりに「アポストロフィ」や「コロン」や「ピリオド」といった単語をVCDに書き出させてみてください。

すべてのディクテーションシステムに共通するもう一つの問題は、同音異義語の問題です。文脈がなければ、「would」と「wood」、「its」と「it's」、「there」と「their」と「they're」を音だけで区別することは不可能です。この点ではVCDの利点はなく、標準的なディクテーションの方が優れているかもしれません。

VCDを使う際、認識を成功させるには、丁寧な発音が不可欠です(「elocution(発音)」という言葉が正確に認識されるとは限りませんが)。これは良い習慣になるかもしれません。私たちの多くは(私も含めて)、話すときに言葉を繋げて話します。私たちの話し方がいかに雑であるにもかかわらず、音声認識が機能しているというのは驚くべきことです。

残念ながら、VCDはどこでも動作するわけではありません。Macでは、BBEditやWebブラウザのGoogle Docsでは動作しませんでした。iOSでは問題は少ないですが、過去にいくつか遭遇したことがあるはずです。どこで動作し、どこで動作しないかを包括的にまとめたわけではありませんので、必ずしも必要な時に動作するとは限らないことをご承知おきください。

もう一つの問題は、主にiOSにおいて、VCDを常時オンにしておくと、他の人の話し声やバックグラウンドで流れる音楽などの音声も拾ってしまうため、混乱を招きやすいことです。幸いなことに、Siriに「音声コントロールをオフにして」と頼めば、VCDをオフにすることができます。また、VCDを常時オンにしておくと、バッテリーの消費に悪影響を及ぼします。

なぜ両方の長所を活かすことができないのでしょうか?

VCDの優れた機能をiOSとmacOSの標準ディクテーション機能に組み込むのに、Appleがそれほど多くの作業を行う必要はないように思われます。必要なのは、VCDを単なるアクセシビリティ機能として捉えるのではなく、誰もが使えるものとして捉えることをやめることだけです。

最も重要な変更点は、音声入力を簡単に起動でき、無期限にオンにしておくことができるようにすることです。iOSでは、Shiftキーを2回押してCaps Lockをオンにするのと同じように、マイクボタンを2回タップすることになると思います。Macでは、音声入力ホットキーを3回タップすると、オフにするまでロックがかかるかもしれません。そうすれば、音声コントロールを常にオンにしたり、Siriに頼ってオンオフを切り替えたりすることなく、長いテキストを音声入力できるようになります。

次に、VCD の音声編集機能はすべて標準のディクテーション機能に移行する必要があります。Apple が VCD をこのように大幅に強化した理由は見当たりませんし、同じコードを再利用するのも難しくないはずです。

最後に、音声入力中に挿入ポイントを移動したり、単語を選択したりできるようになるはずです。iOSとmacOSでそのような操作を行うと音声入力が停止してしまうのは、本当におかしいです。

Appleが標準的なディクテーションを、もっと簡単にオンオフできるVCDに置き換えることを提案しているように聞こえたなら、その通りです。話し続けているうちに文脈に応じて単語の認識精度が時折向上することがあるものの、標準的なディクテーションはVCDにほぼ全く及ばないのです。

残念ながら、iOS 14とmacOS 11 Big Surの現在のベータ版を見る限り、Appleは標準の音声入力機能にもVCDにも大きな変更を加えていません。そのため、こうした改善が日の目を見るまでには、おそらく1年以上待たなければならないでしょう。

Idfte
Contributing writer at Idfte. Passionate about sharing knowledge and keeping readers informed.