El cuello de botella de mil millones de dólares de la IA: la clave está en la calidad de los datos, no en el modelo | Opinión
La inteligencia artificial podría ser la próxima industria de un billón de dólares, pero se está acercando silenciosamente a un gran cuello de botella. Mientras todos compiten por construir modelos más grandes y potentes, un problema inminente está siendo mayormente ignorado: podríamos quedarnos sin datos de entrenamiento utilizables en tan solo unos años.
- La IA se está quedando sin combustible: los conjuntos de datos de entrenamiento han estado creciendo 3,7 veces al año, y podríamos agotar el suministro mundial de datos públicos de calidad entre 2026 y 2032.
- El mercado de etiquetado está explotando, pasando de $3.7 mil millones (2024) a $17.1 mil millones (2030), mientras que el acceso a datos humanos del mundo real se reduce tras jardines amurallados y regulaciones.
- Los datos sintéticos no son suficientes: los bucles de retroalimentación y la falta de matices del mundo real los convierten en un sustituto riesgoso para los insumos desordenados generados por humanos.
- El poder está cambiando hacia los poseedores de datos: con la comoditización de los modelos, el verdadero diferenciador será quién posee y controla conjuntos de datos únicos y de alta calidad.
Según EPOCH AI, el tamaño de los conjuntos de datos de entrenamiento para grandes modelos de lenguaje ha estado creciendo a una tasa de aproximadamente 3,7 veces anualmente desde 2010. A ese ritmo, podríamos agotar el suministro mundial de datos públicos de alta calidad en algún momento entre 2026 y 2032.
Incluso antes de llegar a ese límite, el costo de adquirir y curar datos etiquetados ya se está disparando. El mercado de recolección y etiquetado de datos fue valorado en $3.77 mil millones en 2024 y se proyecta que se dispare a $17.10 mil millones para 2030.
Ese tipo de crecimiento explosivo sugiere una oportunidad clara, pero también un claro cuello de botella. Los modelos de IA solo son tan buenos como los datos con los que se entrenan. Sin un flujo escalable de conjuntos de datos frescos, diversos y sin sesgos, el rendimiento de estos modelos se estancará y su utilidad comenzará a degradarse.
Así que la verdadera pregunta no es quién construye el próximo gran modelo de IA. Es quién posee los datos y de dónde provendrán.
El problema de los datos en la IA es más grande de lo que parece
Durante la última década, la innovación en IA ha dependido en gran medida de conjuntos de datos públicos: Wikipedia, Common Crawl, Reddit, repositorios de código open-source y más. Pero ese pozo se está secando rápidamente. A medida que las empresas restringen el acceso a sus datos y los problemas de derechos de autor se acumulan, las firmas de IA se ven obligadas a replantear su enfoque. Los gobiernos también están introduciendo regulaciones para limitar el scraping de datos, y la opinión pública está cambiando en contra de la idea de entrenar modelos de miles de millones de dólares con contenido generado por usuarios sin compensación.
Los datos sintéticos son una solución propuesta, pero es un sustituto riesgoso. Los modelos entrenados con datos generados por modelos pueden llevar a bucles de retroalimentación, alucinaciones y un rendimiento degradado con el tiempo. También está el tema de la calidad: los datos sintéticos a menudo carecen del desorden y los matices de los insumos del mundo real, que es exactamente lo que los sistemas de IA necesitan para funcionar bien en escenarios prácticos.
Eso deja a los datos generados por humanos en el mundo real como el estándar de oro, y cada vez es más difícil de conseguir. La mayoría de las grandes plataformas que recopilan datos humanos, como Meta, Google y X (anteriormente Twitter), son jardines amurallados. El acceso está restringido, monetizado o directamente prohibido. Peor aún, sus conjuntos de datos suelen estar sesgados hacia regiones, idiomas y demografías específicas, lo que lleva a modelos sesgados que fallan en casos de uso diversos del mundo real.
En resumen, la industria de la IA está a punto de chocar con una realidad que ha ignorado durante mucho tiempo: construir un LLM masivo es solo la mitad de la batalla. Alimentarlo es la otra mitad.
Por qué esto realmente importa
Hay dos partes en la cadena de valor de la IA: la creación de modelos y la adquisición de datos. Durante los últimos cinco años, casi todo el capital y la atención se han volcado en la creación de modelos. Pero a medida que llevamos los límites del tamaño de los modelos al máximo, finalmente la atención se está desplazando hacia la otra mitad de la ecuación.
Si los modelos se están convirtiendo en commodities, con alternativas open-source, versiones de menor tamaño y diseños eficientes en hardware, entonces el verdadero diferenciador pasa a ser los datos. Los conjuntos de datos únicos y de alta calidad serán el combustible que defina qué modelos superan a los demás.
También introducen nuevas formas de creación de valor. Los contribuyentes de datos se convierten en partes interesadas. Los desarrolladores tienen acceso a datos más frescos y dinámicos. Y las empresas pueden entrenar modelos que estén mejor alineados con sus audiencias objetivo.
El futuro de la IA pertenece a los proveedores de datos
Estamos entrando en una nueva era de la IA, una en la que quien controle los datos tendrá el verdadero poder. A medida que la competencia por entrenar modelos mejores e inteligentes se intensifica, la mayor limitación no será la computación. Será la obtención de datos que sean reales, útiles y legales de usar.
La pregunta ahora no es si la IA escalará, sino quién alimentará ese crecimiento. No serán solo los científicos de datos. Serán los administradores de datos, agregadores, contribuyentes y las plataformas que los reúnan. Ahí es donde está la próxima frontera.
Así que la próxima vez que escuches sobre una nueva frontera en inteligencia artificial, no preguntes quién construyó el modelo. Preguntá quién lo entrenó y de dónde provinieron los datos. Porque al final, el futuro de la IA no se trata solo de la arquitectura. Se trata del input.
Max Li es el fundador y CEO de OORT, la nube de datos para IA descentralizada. El Dr. Li es profesor, ingeniero experimentado e inventor con más de 200 patentes. Su experiencia incluye trabajo en sistemas 4G LTE y 5G con Qualcomm Research y contribuciones académicas en teoría de la información, aprendizaje automático y tecnología blockchain. Es autor del libro titulado “Reinforcement Learning for Cyber-physical Systems”, publicado por Taylor & Francis CRC Press.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
Paul Atkins planea introducir exenciones de innovación de la SEC este año
El presidente de la SEC, Paul Atkins, está impulsando exenciones para la innovación con el fin de flexibilizar las regulaciones sobre empresas Web3, lo que indica un cambio importante en la política cripto de Estados Unidos. Si bien la propuesta podría fomentar la innovación, también genera preocupación por el riesgo financiero y la integridad regulatoria.

El juego de apostar en corto contra Bitcoin en su punto máximo: ¡Analizando los riesgos!
El inusual descuento en los futuros de bitcoin en Binance indica una cobertura institucional y una posible oportunidad de short squeeze.

Litecoin, HBAR y más ETFs de criptomonedas ‘a punto de aprobarse’ mientras una posible suspensión gubernamental se cierne en el horizonte, según analistas
Resumen rápido: El martes, Canary Capital presentó una declaración de registro enmendada para su Canary HBAR ETF, revelando su símbolo de cotización como HBR y estableciendo una comisión de patrocinador del 0,95%. La SEC está evaluando numerosas propuestas de ETF cripto, desde aquellas que siguen DOGE hasta XRP y LTC.

Los ETFs de Bitcoin registran entradas de 1,19 mil millones de dólares, señalando una fuerte demanda
En tendencia
MásPrecios de las criptos
Más








