AIの10億ドル規模のボトルネック:問題はモデルではなく高品質なデータ|Opinion
AIは次の1兆ドル規模の産業になるかもしれませんが、静かに大きなボトルネックに近づいています。誰もがより大きく、より強力なモデルの構築を競い合う中、差し迫った問題がほとんど対処されていません。それは、数年以内に利用可能なトレーニングデータが枯渇する可能性があるということです。
- AIは燃料切れに直面している:トレーニングデータセットは年間3.7倍のペースで増加しており、2026年から2032年の間に世界の高品質な公開データが枯渇する可能性がある。
- ラベリング市場は2024年の37億ドルから2030年には171億ドルへと急拡大している一方、実世界の人間データへのアクセスは壁に囲まれたガーデンや規制の背後で縮小している。
- 合成データだけでは不十分:フィードバックループや実世界の微妙なニュアンスの欠如により、人間が生成した雑多な入力の代替としてはリスクが高い。
- 力はデータ保有者へと移行している:モデルがコモディティ化する中で、本当の差別化要因は、誰がユニークで高品質なデータセットを所有・管理しているかになる。
EPOCH AIによると、大規模言語モデルのトレーニングデータセットの規模は2010年以降、年間約3.7倍のペースで増加しています。このペースが続けば、2026年から2032年の間に世界の高品質な公開トレーニングデータが枯渇する可能性があります。
その壁に到達する前から、ラベル付きデータの取得とキュレーションのコストはすでに急騰しています。データ収集およびラベリング市場は2024年に37.7億ドルと評価されており、2030年には171億ドルに膨れ上がると予測されています。
このような爆発的な成長は明確なチャンスを示唆していますが、同時に明確なボトルネックも示しています。AIモデルは、トレーニングに使用されるデータの質に依存しています。新鮮で多様かつ偏りのないデータセットのスケーラブルなパイプラインがなければ、これらのモデルの性能は頭打ちになり、その有用性も低下し始めます。
したがって、本当の問題は次の偉大なAIモデルを誰が構築するかではありません。誰がデータを所有し、それがどこから来るのか、ということです。
AIのデータ問題は想像以上に深刻
過去10年間、AIのイノベーションはWikipedia、Common Crawl、Reddit、オープンソースのコードリポジトリなど、公開されているデータセットに大きく依存してきました。しかし、その資源は急速に枯渇しつつあります。企業が自社データへのアクセスを厳しく制限し、著作権問題が山積する中、AI企業はアプローチの見直しを迫られています。政府もデータスクレイピングを制限する規制を導入しており、パブリックな意識も、無償のユーザー生成コンテンツで数十億ドル規模のモデルをトレーニングすることに否定的に傾きつつあります。
合成データは提案されている解決策の一つですが、リスクの高い代替手段です。モデルがモデル生成データでトレーニングされると、フィードバックループや幻覚、時間の経過による性能低下を引き起こす可能性があります。また、品質の問題もあります。合成データは実世界の入力にある雑多さや微妙なニュアンスに欠けており、これはAIシステムが実用的なシナリオで優れたパフォーマンスを発揮するために必要な要素です。
そのため、実世界の人間が生成したデータがゴールドスタンダードとなりますが、それを入手するのはますます困難になっています。Meta、Google、X(旧Twitter)など、人間データを収集する大手プラットフォームの多くは壁に囲まれたガーデンです。アクセスは制限され、収益化され、あるいは禁止されています。さらに悪いことに、これらのデータセットは特定の地域、言語、人口統計に偏りがちであり、多様な実世界のユースケースで失敗するバイアスのあるモデルを生み出します。
要するに、AI業界は長らく無視してきた現実に直面しようとしています。巨大なLLMを構築することは戦いの半分に過ぎません。それにデータを供給することがもう半分なのです。
なぜこれは本当に重要なのか
AIのバリューチェーンには、モデルの作成とデータの取得という2つの部分があります。過去5年間、ほぼすべての資本と注目はモデルの作成に注がれてきました。しかし、モデルサイズの限界に近づくにつれ、ついに方程式のもう半分に注目が集まり始めています。
モデルがコモディティ化し、オープンソースの代替や小型化、ハードウェア効率の高い設計が進むなら、本当の差別化要因はデータになります。ユニークで高品質なデータセットこそが、どのモデルが優れているかを決定づける燃料となります。
また、データは新たな価値創造の形ももたらします。データ提供者はステークホルダーとなり、開発者はより新鮮でダイナミックなデータにアクセスできます。そして企業は、ターゲットオーディエンスにより適合したモデルをトレーニングできるようになります。
AIの未来はデータ提供者の手に
私たちはAIの新時代に突入しています。そこでは、データを支配する者が真の力を持つことになります。より優れた、より賢いモデルをトレーニングする競争が激化する中で、最大の制約は計算能力ではありません。本物で有用、かつ合法的に使用できるデータを調達することが最大の課題となります。
今問われているのは、AIがスケールするかどうかではなく、そのスケールを誰が支えるのかということです。それはデータサイエンティストだけではありません。データスチュワード、アグリゲーター、貢献者、そしてそれらを結びつけるプラットフォームが担うのです。そこに次のフロンティアがあります。
ですから、次に人工知能の新たなフロンティアについて耳にしたときは、誰がモデルを構築したかではなく、誰がそれをトレーニングし、データがどこから来たのかを尋ねてください。結局のところ、AIの未来はアーキテクチャだけでなく、入力データにかかっているのです。
Max LiはOORTの創設者兼CEOであり、分散型AIのためのデータクラウドを提供しています。Dr. Liは教授であり、経験豊富なエンジニア、200件以上の特許を持つ発明家です。彼の経歴にはQualcomm Researchでの4G LTEおよび5Gシステムの開発や、情報理論、機械学習、ブロックチェーン技術に関する学術的な貢献が含まれます。彼はTaylor & Francis CRC Pressから出版された著書「Reinforcement Learning for Cyber-physical Systems」の著者でもあります。
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
BeInCryptoが新ウェブサイトを公開:次世代の暗号資産ニュースに向けたグローバルリニューアル
私たちは7周年を迎えるにあたり、過去を振り返るだけでなく、大きな一歩を踏み出します。全世界26のドメインで、ゼロから構築された新しいウェブサイトを正式にローンチしました。これは、スピード、スケール、より賢いコンテンツ発見のために設計されています。この新たな取り組みが読者やパートナーにとってどのような意味を持つのか、詳しくご紹介します。

Dogecoin(DOGE)は利益確定売りが一段落し、アドレス数が急増する中で新高値を目指す
Dogecoinは、アクティブアドレスの増加と利益確定売りが減少していることに後押しされて10%上昇し、さらなる高値を目指しています。

インフレ急騰、FRBの利下げが迫る中、XRPは今後どうなるのか?

BTC ボラティリティ週間レポート(9月1日~9月8日)
BTCボラティリティ週間レポート(9月1日~9月8日)コア指標(香港時間9月1日16:00~9月8日16:00)B...

暗号資産価格
もっと見る








