ウェブ上のあらゆる記事のテキストをカスタムポッドキャストエピソードに変換するインターネットサービス「Listen Later」を、新たなスポンサーとして迎え入れます。Listen Laterに変換したい記事のURLをメールで送るだけで、すぐにお気に入りのポッドキャストアプリの「Listen Later」フィードに表示されます。
イスタンブール出身のインディー開発者Yalim Gerger氏が開発したListen Laterは、AIツールを活用して記事のテキストを処理・ナレーションする、まさに現代の産物と言えるでしょう。多くの記事には広告、画像の説明、免責事項、その他音声のスムーズな読み上げを妨げる情報が含まれているため、テキストのクリーンアップは不可欠です。例えば、Listen LaterはTidBITS記事の末尾にあるコメントを自動で除去するほど賢くなっています。そして、ナレーションも素晴らしいです。AppleのFredのような音声合成技術の時代から長い道のりを歩んできた私たちにとって、音声品質は驚くほど優れています。
設定は簡単です。アカウントを作成すると、Listen LaterのメインURLに、あなたのポッドキャストURL、フィードに関連付けるアドレスを入力するフィールド、送信先のメールアドレス、利用可能なクレジットが表示されます。あとは、件名を記入せずに、本文に1つ以上のURLを記載したメールを送信するだけです。
私はまず、パトリシア・ロックウッド著「教皇に会った時」という6700語の記事でListen Laterを試しました。今にして思えば、これはあまり良いサンプルテキストではなかったかもしれません。ロックウッドの文章は、枝から枝へと叙述的に飛び交っているからです。
レセプション――いや、失礼、「ラピダリー・ギャラリーのヴァン・ドヌール」――では、スティングの畑で採れたワインが振る舞われていた。「何だって?」グラス1杯で飛び上がっているホープに叫ぶと、彼女はパンフレットを指差した。そこには、スティングが猛烈な発酵の表情で見つめている写真が載っていた。背後からトゥルーディーが彼の胸に腕を回し、二人とも7時間も踏み固めたばかりの、健康の蜜をまとっている。教皇に会って、スティングのブドウを一口食べる、という趣旨なのだろう。私がパンフレットに頷くと、ホープも何か企むような口ぶりで頷き返し、バッグに滑り込ませた。「これが私たちのやり方よ。私たちもそうしているのよ」。そう、ヴェルメンティーノは「メッセージ・イン・ア・ボトル」と呼ばれている。サンジョヴェーゼもそうだ。
元の記事を少しずつ読み返して初めて、Listen LaterのAIナレーションがすべて正しく、いや、ほぼ正しく理解していたことに気づいた。36分間の音声版の記事を読み進めていくうちに、いくつかの誤りに気づいた。ほとんどは「live」のように複数の発音がある同音異義語だが、ナレーションでは「Sangiovese」という単語も短くカットされ、最後の母音の音が消えていた。また、「Jesus」も間違えていると思ったが、テキストを確認すると、Lockwood氏が意図的に「Jaysus」と書いていたことがわかった。その後のテストでも、Listen Laterの言い回しは引き続き好印象を与えたが、時折、略語や数字、特に2599ドルのような価格表記でつまずくことがあった。これは、簡潔にするために4桁の価格のカンマを省略するという当社の社内スタイルによるものと思われる。
パトリシア・ロックウッドについては知らないが、最初に聴いたときの「後で聴く」の音声は、彼女のものだったかもしれない。すぐに分かったのだが、ガーガー氏に問い合わせたところ、すぐに6種類の高品質な音声から選べる設定を追加してくれた。音質に関する私の最初の批判は、音声のスピードが私の好みよりもほんの少しだけ速すぎたということだ。当初、ガーガー氏はそれについては何もできないと思っていたが、翌日、音声速度設定を見つけて追加したと返信してきた。その間に、私は速度の問題は自分のせいだと気付いた。私はマルコ・アーメント氏のOvercastでポッドキャストを聴いているのだが、これには無音部分を短くする「スマートスピード」オプションがある。通常は、息継ぎをする人には有効だが、AIのナレーションは非常に滑らかだったので、無音部分を削ると少し息切れしたように聞こえた。
上のスクリーンショットからもわかるように、Listen Laterはテキストを任意の言語に翻訳することもできますが、追加料金がかかります。ここで価格についてお話ししましょう。Listen Laterは、テキスト処理とナレーション、そして追加の翻訳のためのAPI呼び出しに対して料金を請求します。これらの料金は、Listen Laterに処理を依頼するテキストの量に直接関係します。平均的な記事の料金はおそらく0.30ドルから1.50ドルの間になるでしょう。Listen Laterの料金ページには概算料金が掲載されており、記事ごとの料金が確認できます。
Listen Laterはサブスクリプションではなく、従量課金制を採用しています。新規アカウントには、サービスをお試しいただくために2ドル分の無料クレジットが付与され、その後はいつでもアカウントにチャージできます。また、面倒な手続きをしたくない場合は、残高が0.10ドルを下回るたびにクレジットカードから5ドルが自動チャージされるように設定することもできます。このモデルは公平で透明性が高く、サブスクリプションに反対する人々も歓迎するはずです。
覚えておくべき点の一つは、Listen Laterはその名の通り、瞬時に変換されるわけではないということです。記事の長さやOpenAIサーバーの負荷も変換時間に影響し、米国の営業時間中は負荷が高くなります。パトリシア・ロックウッドの長文記事の場合、Gerger氏によると、変換が完了するまでに約20分かかり、OpenAIからの応答を最大5分待つケースもあったそうです。しかし、これは通常は問題にならないはずです。Listen Laterの最大の目的は、例えば帰宅途中の車内や次のワークアウト中に聴くために記事をキューに登録しておくことです。Listen Laterでは、簡単に参照できるように、ポッドキャストのエピソード説明に元の記事のURLが含まれています。
PDFを音声に変換できることを発見しました。Andy Weirが最近執筆した『 The Martian』のボーナス章で試してみました。さらに、GergerがListen LaterにJPEG、PNG、WebP形式の画像内のテキストを音声に変換できる機能を追加したと発表しました。最初は「どんな用途があるんだろう?」と疑問に思いました。ところが、特定のコミュニティではPDFのスクリーンショットをX/Twitterに投稿することがよくあるようです。もし興味があれば、通常の記事と同じように、Listen Laterに画像のURLを送信するだけで変換できます。
Appleがポッドキャストをテキストに変換する機能を発表したのと同じ週に、テキストをポッドキャストに変換する「Listen Later」について書いているなんて、面白いですね。生成AIには多くの課題がありますが、それが実現する機能の中には魔法のようなものもあります。
ポッドキャストを聴くのが好きで、読みたいものをすべて読む時間がない場合は、新しいアカウントごとに付与される 2 ドルの無料クレジットを使って、Listen Later を試してみることをお勧めします。