Bitget App
Cмартторгівля для кожного
Купити криптуРинкиТоргуватиФ'ючерсиEarnWeb3ЦентрДокладніше
Торгувати
Cпот
Купуйте та продавайте крипту
Маржа
Збільшуйте капітал й ефективність коштів
Onchain
ончейн-торгівля без зайвих зусиль
Конвертація і блокова торгівля
Конвертуйте криптовалюту в один клац — без комісій
Огляд
Launchhub
Скористайтеся перевагою на старті і почніть заробляти
Копіювати
Копіюйте угоди елітних трейдерів в один клац
Боти
Простий, швидкий і надійний торговий бот на базі ШІ
Торгувати
Фʼючерси USDT-M
Фʼючерси, розрахунок за якими відбувається в USDT
Фʼючерси USDC-M
Фʼючерси, розрахунок за якими відбувається в USDC
Фʼючерси Coin-M
Фʼючерси, розрахунок за якими відбувається в різни
Огляд
Посібник з фʼючерсів
Шлях фʼючерсної торгівлі від початківця до просунутого трейдера
Фʼючерсні промоакції
На вас чекають щедрі винагороди
Bitget Earn
Різноманітні продукти для примноження ваших активів
Simple Earn
Здійснюйте депозити та зняття в будь-який час, щоб отримувати гнучкий прибуток без ризику
Ончейн Earn
Отримуйте прибуток щодня, не ризикуючи основним капіталом
Структуровані продукти Earn
Надійні фінансові інновації для подолання ринкових коливань
VIP та Управління капіталом
Преміальні послуги для розумного управління капіталом
Позики
Безстрокове кредитування з високим рівнем захисту коштів
Мільярдний бар’єр для AI: якісні дані, а не модель | Думка

Мільярдний бар’єр для AI: якісні дані, а не модель | Думка

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Переглянути оригінал
-:crypto.news

AI може стати наступною індустрією з трильйонним обігом, але вона тихо наближається до величезного вузького місця. Поки всі змагаються за створення більших і потужніших моделей, одна велика проблема залишається майже без уваги: ми можемо залишитися без придатних навчальних даних вже за кілька років.

Summary
  • AI закінчується "паливо": навчальні датасети зростають у 3,7 рази щороку, і ми можемо вичерпати світові запаси якісних публічних даних між 2026 і 2032 роками.
  • Ринок маркування даних вибухає: з $3.7B (2024) до $17.1B (2030), тоді як доступ до реальних людських даних скорочується через закриті екосистеми та регуляції.
  • Синтетичних даних недостатньо: петлі зворотного зв'язку та відсутність реальних нюансів роблять їх ризикованою заміною для неструктурованих, створених людьми даних.
  • Влада переходить до власників даних: із комодифікацією моделей справжньою перевагою стане володіння унікальними, високоякісними датасетами.

За даними EPOCH AI, розмір навчальних датасетів для великих мовних моделей зростав приблизно у 3,7 рази щороку з 2010 року. За такої швидкості ми можемо вичерпати світові запаси якісних публічних навчальних даних десь між 2026 і 2032 роками.

Ще до того, як ми досягнемо цієї межі, вартість отримання та підготовки маркованих даних вже стрімко зростає. Ринок збору та маркування даних оцінювався у $3.77 мільярда у 2024 році, і очікується, що він зросте до $17.10 мільярда до 2030 року.

You might also like: The future depends on the AI we build: Centralized vs decentralized | Opinion

Такий вибуховий ріст вказує на очевидну можливість, але й на очевидне вузьке місце. AI-моделі настільки хороші, наскільки хороші дані, на яких вони навчені. Без масштабованого потоку свіжих, різноманітних і неупереджених датасетів ефективність цих моделей досягне плато, а їхня корисність почне знижуватися.

Тож справжнє питання не в тому, хто створить наступну велику AI-модель. А в тому, хто володіє даними і звідки вони надходитимуть?

Проблема даних для AI більша, ніж здається

Протягом останнього десятиліття інновації в AI значною мірою спиралися на публічно доступні датасети: Wikipedia, Common Crawl, Reddit, open-source репозиторії коду тощо. Але це джерело швидко висихає. Оскільки компанії обмежують доступ до своїх даних, а питання авторських прав накопичуються, AI-компанії змушені переосмислювати свої підходи. Уряди також вводять регулювання для обмеження скрапінгу даних, а громадська думка змінюється проти ідеї навчання моделей вартістю у мільярди доларів на неоплачуваному контенті, створеному користувачами.

Синтетичні дані — одна з запропонованих рішень, але це ризикована заміна. Моделі, навчені на даних, згенерованих іншими моделями, можуть призвести до петель зворотного зв'язку, галюцинацій і поступового погіршення якості. Є також питання якості: синтетичні дані часто позбавлені хаотичності й нюансів реального світу, а саме це потрібно AI-системам для ефективної роботи у практичних сценаріях.

Залишаються реальні, створені людьми дані як золотий стандарт, і їх стає все важче отримати. Більшість великих платформ, які збирають людські дані, такі як Meta, Google та X (раніше Twitter), є закритими екосистемами. Доступ обмежений, монетизований або повністю заборонений. Ще гірше, їхні датасети часто мають перекоси щодо певних регіонів, мов і демографічних груп, що призводить до упереджених моделей, які не працюють у різноманітних реальних випадках.

Коротко кажучи, індустрія AI ось-ось зіткнеться з реальністю, яку довго ігнорувала: побудувати масивну LLM — це лише половина справи. Інша половина — її "нагодувати".

Чому це справді важливо

У ланцюжку створення цінності AI є дві частини: створення моделей і отримання даних. Останні п’ять років майже всі капіталовкладення та ажіотаж були спрямовані на створення моделей. Але коли ми досягаємо меж розміру моделей, увага нарешті зміщується на іншу половину рівняння.

Якщо моделі стають комодитизованими — з open-source альтернативами, компактними версіями та апаратно-ефективними дизайнами — справжньою перевагою стають дані. Унікальні, високоякісні датасети стануть паливом, яке визначить, які моделі будуть кращими.

Вони також створюють нові форми створення цінності. Внесники даних стають стейкхолдерами. Розробники отримують доступ до свіжіших і динамічніших даних. А підприємства можуть навчати моделі, які краще відповідають їхній цільовій аудиторії.

Майбутнє AI належить постачальникам даних

Ми вступаємо в нову еру AI, де справжня влада належить тим, хто контролює дані. У міру того, як конкуренція за навчання кращих, розумніших моделей посилюється, найбільшим обмеженням буде не обчислювальна потужність. Це буде пошук даних, які є реальними, корисними та легальними для використання.

Питання зараз не в тому, чи масштабуватиметься AI, а в тому, хто забезпечить цей масштаб. Це будуть не лише дата-сайентисти. Це будуть куратори даних, агрегатори, внесники та платформи, які їх об'єднують. Саме тут лежить наступний рубіж.

Тож наступного разу, коли ви почуєте про новий рубіж у сфері штучного інтелекту, не запитуйте, хто створив модель. Запитайте, хто її навчав і звідки взялися дані. Адже зрештою майбутнє AI — це не лише про архітектуру. Це про вхідні дані.

Read more: Storage, not silicon, will trigger AI’s next breakthrough | Opinion

Max Li

Max Li — засновник і CEO OORT, хмарного сховища даних для децентралізованого AI. Dr. Li — професор, досвідчений інженер і винахідник з понад 200 патентами. Його досвід включає роботу над системами 4G LTE та 5G у Qualcomm Research і наукові внески в теорію інформації, машинне навчання та технологію blockchain. Він є автором книги “Reinforcement Learning for Cyber-physical Systems”, виданої Taylor & Francis CRC Press.

0

Відмова від відповідальності: зміст цієї статті відображає виключно думку автора і не представляє платформу в будь-якій якості. Ця стаття не повинна бути орієнтиром під час прийняття інвестиційних рішень.

PoolX: Заробляйте за стейкінг
До понад 10% APR. Що більше монет у стейкінгу, то більший ваш заробіток.
Надіслати токени у стейкінг!