Apple評論家のエコーチェンバーでは、大手IT企業やAIスタートアップがWebクローラーを使って、パブリックWebから得た情報を用いて大規模な言語・画像拡散モデルを学習させていることについて、皆が不満を漏らしているようだ。Applebotですら批判にさらされている。Appleが最初にApple Intelligence向けにモデルを学習させた後、Webパブリッシャーがオプトアウトできると発表したからだ。
MacStoriesのジョン・ボーヒーズ氏とフェデリコ・ヴィティッチ氏は、米国議会と欧州議会に宛てた公開書簡の中で、この憤りを凝縮し、多数の裏付け記事へのリンクを掲載しています。このテーマに馴染みのない方は、文脈を理解するために彼らの記事をお読みください。要するに、彼らは事前の許可を得ずに公開ウェブ上のコンテンツでAIモデルを学習させることは倫理的に問題があると考えており、より一般的には、こうしたツールの使用によって創造性が損なわれ、「知識」が巨大テクノロジー企業の手に集中してしまうことを懸念しています。
ジョンとフェデリコが間違っているとは言えません。彼らは脅威を感じているようですし、私は彼らの感情が間違っていると断言する立場にはありません。また、彼らが予言する未来が実現しないとも断言できません。最後に、私は彼らを特に非難するつもりはありません。彼らの手紙は、出版業界の多くの人々が共有する感情や懸念を代弁するものとして、単に引用しているだけです。
とはいえ、インターネット上で技術コンテンツを34年以上(TidBITS記事約16,000本、Take Control電子書籍数百冊)出版してきた者として言わせてもらえば、こうしたことに私はそれほど動揺していません。私の意見は、テクノロジージャーナリストの同僚たちとそれほど大きく異なることはあまりありませんが、どんな問題にも複数の側面があるという事実を誰も認めていないようなので、AIや、この分野の報道に蔓延しているような懸念の多くに、私がそれほど動揺していない理由を説明したいと思います。
私はお金を稼ぐためではなく、世界を豊かにするために出版しています
懸念の多くは、AIのせいで作家やアーティストが収入を得られなくなるのではないかという思い込みに集中しているようです。私はそれが必ずしも真実だとは思いませんし、たとえそうであったとしても、インターネットが過去に何度もビジネスモデルに混乱をもたらしたことは否定できません。
いずれにせよ、私がこの懸念を抱いていないのは、私が TidBITS を発行しているのは人々がテクノロジー環境を理解し最大限に活用できるよう支援するためであり、金儲けを第一に考えているわけではないからだ。これは常に真実だった。私たちは 1992 年にインターネット上で初の広告を開拓する以前から 2 年以上 TidBITS を発行してきた (1992 年 7 月 20 日の記事“TidBITS スポンサープログラム”参照)。TidBITS スポンサープログラムからの収入は歓迎されていたものの、長年にわたり大きな額にはならなかった。また、その重要性も次第に薄れていった。2011 年以降、私たちの収入に占める割合は TidBITS 会員プログラム (2011 年 12 月 12 日の記事“TidBITS 会員になって TidBITS を支援しよう”参照) からますます増加している。この会員プログラムは、私たちの活動から恩恵を受けている人々が私たちを直接支援できる仕組みだ。AI チャットボットがこの状況を変えるとは到底思えない。
しかし、TidBITSのビジネスモデルは一風変わっています。他の多くの企業にとって、収益は何よりも重要であり、それは当然のことです。エコシステムの変化を注意深く見守り、適応していく姿勢を持つことをお勧めします。私たちも、競争やビジネス上のプレッシャーに対応するために、幾度となくそうせざるを得ませんでした。生成型AIは、1990年代初頭からインターネットがそうであったように、一部の業界にとって変革の原動力となる可能性があります。未来に繁栄するためには、長らく適応力が求められてきました。
AIチャットボットがオリジナルコンテンツを奪うことはない
MacStoriesの書簡にあるように、AI生成コンテンツが「元の素材を置き換えたり、価値を下げたりする」のではないかと懸念する人が多いようです。少なくとも真にオリジナルなコンテンツの場合、これが実現するためには何が必要なのか、私には分かりません。私がテクノロジー体験について書くとき、そのようなストーリーが生まれるのは私の頭脳からだけです。他人の行動によって私の創造性が損なわれるとは、私には理解できません。
AIチャットボットは単独では何もしないことを覚えておくことが重要です。人間の指示に応じてテキストを生成するだけなので、ChatGPTがTidBITSと競合するニュースレターを発行するわけではありません。人間がニュースレターを発行することも可能で、その場合はChatGPTを使ってニュースレターのテキストを生成することができます。しかし、これは生成AIのせいではありませんし、ここ数年で9to5Mac、AppleInsider、MacRumorsといったメディアが登場し、私もそれらのメディアとの競争に悩まされてきました。
派生コンテンツの価値は主に文脈によって決まる
TidBITS でさえ、ほとんどのコンテンツが完全にオリジナルというわけではありません。ほとんどの出版物では、スクープはごく稀です。何かが起こり、情報が知られるようになり、そして私が共有する価値のあるトピックかどうかを判断します。それが派生的なコンテンツです。しかし、私が書くものはすべて、そのトピックについてさらに詳しく読んだり、人々と話したりすることでリサーチしており、そこで得た学びが最終的な記事の基盤となっています。最終的な記事は、私の個人的な経験に基づいている場合もあれば、複雑なトピックをより良く説明する方法として私が考えたものになる場合もあります。そのようなコンテンツは、私がどのように伝えるかによって価値が高まりますが、議論を盛り上げるものであり、議論を始めるものではありません。
私が書いた内容を他の情報源から誰かが知る可能性はあるでしょうか?もちろんあります。そして、生成AIによってそれが変わることはありません。知りたい情報が広く知られているなら、多くのウェブサイトが既にその情報を(明瞭さや正確さの度合いは様々ですが)提供しており、インターネットで検索すれば見つかります。個人的には、自分の記事をSEO対策で上位表示させようとすることに興味はありません。上位表示はされるかされないかのどちらかであり、私の経験では、何をしても状況は大きく変わりません。私は自分のビジネスモデルを、オンラインでの閲覧数の増加ではなく、常連読者へのサービス提供に注力してきました。
古いコンテンツはあまり価値がない
AIクローラーによるウェブサイトのスクレイピングに関する苦情には、サイトの古いコンテンツの市場が何らかの形で損なわれるのではないかという懸念が暗黙のうちに含まれています。OpenAIを訴えているニューヨーク・タイムズであれば、過去のコンテンツは十分に膨大で歴史的にも重要なため、少なくとも総合的な価値があるかもしれません。
しかし、アーカイブにある約16,000件の記事は、ビジネスの観点から見るとほとんど無関係であることがわかりました。クリック数は多少は獲得できるかもしれませんが、インプレッションベースのバナー広告に見合うほどには少なすぎます。バナー広告の低いCPMを収益に結びつけるために必要な数百万ページビューを獲得できていないのです。
ウェブ出版には常に新しいコンテンツを作成することが必要です。それは実際の人々が読みたいものであり、生成 AI によってその作成速度がいくらか速くなるかもしれませんが、一部の Web サイトが他国で低賃金労働者を雇って独創性のない記事を大量作成する方法とそれほど変わりません。
ウェブスクレイピングは通常、運用上の問題を引き起こすことはありません
クローラーはWeb出版において不可欠な存在です。記事のコメントやTidBITS Talkに使用しているDiscourseソフトウェアによると、クローラーは全ページビューの4分の1から3分の1を生み出しています。ホスティングプランには十分なCPUパワーと必要以上のデータ量が含まれているため、トラフィックの増加によるコストやサーバーの速度低下は一切ありません。DigitalOceanのDiscourseサーバー料金は月額わずか14.40ドルです。
しかし、ホスティングプランに制限のある小規模グループは、発生源を問わず、クローラーによる過剰なトラフィックに悩まされる可能性があります。フィンガーレイクス・ランナーズ・クラブは最近、不正なAIクローラーによるトラフィック急増のため、WPEngineホストで毎月の超過料金を複数回請求されました。問題はスクレイピングではなく、すべてのウェブサイトが無限の処理能力と帯域幅を持っていると想定しているクローラーにあります。これはサービス拒否攻撃の一歩手前です。このようなボットは、その目的が何であれ、ブロックする必要があります。
リンクや引用は期待するほど役に立ちません
AI チャットボットに関する主な不満の 1 つは、巧妙なプロンプトによって、特定の情報源から回答を大量に引き出したり、出典を明記せずにテキストをそのまま繰り返したりしてしまう可能性があることです。
ChatGPTにThe VergeのWWDC 2021報道について尋ねてみたのですが、なかなか面白い話でした。The VergeはVox Mediaが所有しており、OpenAIとVox Mediaのライセンス契約では「ブランドアトリビューションとオーディエンスリファラル」が必須となっているからです。ChatGPTは具体的に尋ねられた際にはThe Vergeをクレジットとして表示してくれましたが、作成されたリンクは私の環境では機能しませんでした。プレーンテキストのURLを尋ねたところ、記事ID以外はすべて正確であることが分かりました。チャットボットのアトリビューション機能はまだ初期段階です。
一方で、クレジットは重要だと考えており、チャットボットが回答の大部分を特定の情報源から得た場合、AI駆動型検索エンジンPerplexityのように、その情報源をクレジットし、リンクを貼るべきです。しかし、自分の仕事に対してクレジットをもらいたいという欲求は、ビジネスモデルというよりもむしろマナーの問題です。これはチャットボットが登場する以前から長年問題となっていました。
私たちはこれまでに数多くの記事を掲載し、それが数多くの他のサイトで派生的な報道を生み出してきました。そのクレジットはせいぜい弱いものでした。いくつかのサイトは TidBITS や著者にクレジットを与え、記事にリンクを張っていますが、他の多くのサイトはどちらか一方だけを示し、両方は示していません。また、クレジットを全く示していないサイトさえありました。いずれにしても、Daring Fireball のような解説サイトは読者に元の記事を読んで何が言われているのかを理解するよう勧めていますが (これは私たちも ExtraBITS の記事で行っています)、他の出版物が私たちの元の記事にリンクを張っても、参照トラフィックはほとんど得られませんでした。これは驚くことではありません。彼らは実質的に私たちの記事を書き直したのですから、一体誰がそれをもう一度読みたいと思うでしょうか?
そのため、私は既にTidBITSを読んでくださっている方々に向けて記事を書いています。リンクから偶然私たちの記事にたどり着いたかもしれない架空の読者の方々に向けて書いているわけではありません。そうした方々の大多数は一度きりの読者で、そもそもどこを訪れたかなんて言えないでしょう。これは事実であり、批判ではありません。WikipediaやYouTubeといった有名なサイト以外、この記事の調査中に私が読んだサイトを全て覚えているわけではありません。
もっと具体的に言うと、チャットボットとの実際の会話で返されるテキストが、どの程度まで信用に値するものなのか疑問に思います。チャットボットに望ましくない行動を促せるからといって、多くの場合実際にそうするとは限りません。チャットボットに何を言わせるかという限界に挑戦するのは正当なことですが、それは他のシステムのセキュリティ上の脆弱性を探るようなものです。セキュリティ研究者がシステムに侵入できるからといって、誰でもできるわけではありませんし、誰かが特定のチャットボットの会話を「ジャンプ・ザ・シャーク」させる方法を見つけたからといって、他のほとんどの会話が正統派から逸脱するとは限りません。
オープンウェブと呼ばれるのには理由がある
オープンウェブ上で意図的に共有されるコンテンツは、使用に事前の許可が必要だという提案にも、私は難色を示します。まず、明らかに不可能なことについて文句を言っても無駄です。世の中には19億ものウェブサイトがあるのですから。
第二に、オープンウェブ上でコンテンツを公開する最大の目的は、コンテンツを誰もが利用できるようにすることです。コンテンツを読める人やその使い方を制限したい場合は、有料コンテンツとして設定する必要があります。
第三に、オープンウェブ上では、引用やリンクなど、許可なくコンテンツを再利用する方法が既に数多く存在します。たとえ引用やリンクを好ましく思わない場合でも、私たちはそれらを容認します。なぜなら、誰があなたのコンテンツをどう利用すべきかを明確にする手段がないからです。
検索エンジンがその好例です。オープンウェブをスクレイピングすることで、Googleは世界で最も価値が高く影響力のある企業の一つとなりました。Googlebotのアクセスを許可したのは、Googleが私たちのコンテンツをインデックスする見返りにトラフィックを誘導するという暗黙の合意があったからです。実際、Googleはオープンウェブから取得したコンテンツと引き換えに、ウェブパブリッシャーへのトラフィックと、汎用検索エンジンとして世界全体にとっての有用性という2つのものを提供しています。
しかし、パブリッシャーの視点から見ると、この取引は見た目ほど単純ではありません。他にも検索エンジンやクローラーは数多く存在します。Googleほど多くのトラフィックをもたらす検索エンジンは他にないでしょう。検索エンジンからの参照トラフィックの90%以上はGoogleから、DuckDuckGoとBingはそれぞれ4%未満、Yahoo!は1%です。
ユーザーの視点から見ると、AIチャットボットやアートボットの有用性はまだ模索の段階ですが(「ジェネレーティブAIチャットボットとアートボットの適切な活用方法」2024年5月27日号参照)、ジェネレーティブAIは全く新しい可能性を切り開きます。Perplexityはrobots.txtを無視し、ユーザーエージェントを非表示にしてブロックを回避するため、批判されるべきですが、従来の検索エンジンでは不可能な点で非常に役立ちます。読み込みと解析にかなりの時間を要する可能性のある少数のページから重要な情報を抽出し、要約してくれます。PerplexityとApple Intelligenceで強化されたSiriを組み合わせることで、Appleが1987年に公開したKnowledge Navigatorビデオの概念が手の届くところにあるように感じられます。これは魅力的です。
AIクローラーは私たちが考えるような方法でコピーするわけではない
大規模言語モデルの構築方法における微妙な点の一つは、コピーされたコンテンツを保存しないという点です。AIクローラーはコンテンツを読み取る必要があり、これはある意味ではコピーと解釈される可能性があります。しかし、実際には、ニューラルネットワーク内の各トークンの重みを調整することで、単語間の特定の接続の確率をわずかに高め、他の接続の確率をわずかに低くしています。コンテンツを追加しても、モデルが本質的に大きくなるわけではありません。(この重要な事実を指摘してくださったBart Busschots氏に感謝します。)
にもかかわらず、チャットボットが特定のソースからテキストを一語一句そのまま繰り返すことは可能です。統計的な確率によって、特定のソースに含まれる単語が他の単語よりも出現確率が高くなる場合があります。チャットボットがこのような動作をするのは好ましくありませんが、多くの派生コンテンツの著者が元の記事を要約したり書き直したりする際に行っていることとそれほど変わりません。
これは私の作家としての経歴に関係するかもしれませんが、市場への影響という点では、アーティストの方が作家よりもはるかに有利な立場にあると感じています。AIアートボットに「~のスタイルで」画像を生成してほしいと依頼し、その結果に満足してアーティストを雇わないという状況は容易に想像できます。出版社がテキストでそれを効果的に実現できるとは、特に求められる成果物の長さや複雑さが増すにつれて、より信じがたいことです。
私は法学修士課程で不釣り合いなほど多くの学生が代表されていると感じるのが好きです
結局のところ、生成AIモデルが私のコンテンツの多くを学習してくれたことに、少しばかり満足しています。つまり、私の著者としての、そして編集者としての声が、他のほとんどの人よりもはるかに多く反映されているということです。これは、私が全く予想していなかった、類まれな功績と言えるでしょう。