La locura colectiva en el campo de la IA: de Transformers a la batalla de los cien modelos
El mes pasado, estalló una intensa "guerra de animales" en la industria de la IA. Por un lado, un modelo de llama lanzado por un gigante tecnológico, que ha sido muy bien recibido por los desarrolladores debido a su naturaleza de código abierto. Por otro lado, está el gran modelo llamado "Halcón", que, tras su lanzamiento en mayo, superó a la llama y se situó en la cima de la lista de LLM de código abierto.
Curiosamente, los desarrolladores de "Falcon" no son una empresa de tecnología, sino un instituto de investigación ubicado en los Emiratos Árabes Unidos. Posteriormente, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado para la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time.
Hoy en día, el campo de la IA ha entrado en la etapa de "caos absoluto". Cualquier país o empresa con suficiente poder financiero está desarrollando su propio modelo de lenguaje grande. Solo en los países del Golfo, hay más de un jugador en esta competencia.
Un inversionista se quejó: "En aquel entonces despreciaba la innovación en los modelos de negocio de Internet, pensaba que no había barreras. No esperaba que el emprendimiento en modelos de grandes tecnologías aún fuera una batalla de cientos de modelos..."
¿Cómo es que lo que se consideraba una tecnología dura de alta dificultad se ha convertido en una situación en la que cada país tiene su propia versión, floreciendo por todas partes?
Transformer cambió las reglas del juego
El hecho de que los países y las empresas puedan perseguir grandes modelos se debe al famoso artículo publicado en 2017 titulado "Attention Is All You Need". Este artículo presentó el algoritmo Transformer, que se convirtió en el punto de partida de la actual ola de IA. Los grandes modelos de hoy, sin importar su nacionalidad, se basan en el Transformer.
Antes de esto, "enseñar a las máquinas a leer" siempre ha sido un problema académico reconocido. Cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto. Las primeras redes neuronales tenían dificultades para lograr esto, hasta que la aparición de las redes neuronales recurrentes (RNN) en 2014 logró un avance.
Sin embargo, las RNN tienen el problema de la baja eficiencia y les resulta difícil manejar una gran cantidad de parámetros. La aparición del Transformer resolvió este problema, utilizando codificación posicional en lugar del diseño cíclico de las RNN, logrando así el cálculo en paralelo y aumentando significativamente la eficiencia del entrenamiento. Este cambio ha llevado a la IA a la era de los grandes modelos.
Transformer se ha convertido rápidamente en la solución principal en el campo del procesamiento del lenguaje natural. Ha transformado los grandes modelos de una cuestión de investigación teórica a un problema puramente ingenieril: siempre que haya suficiente potencia de cálculo y datos, cualquier empresa con capacidad técnica puede crear un gran modelo.
Como dijo un científico informático, la IA se está convirtiendo en una tecnología universal, similar a la electricidad y a Internet. Aunque algunos modelos grandes de ciertas empresas siguen siendo los mejores, los analistas prevén que otros gigantes tecnológicos pronto podrán crear productos de un nivel comparable.
Reflexiones detrás de la batalla de los cien modelos
Hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando a Estados Unidos. Además de China y Estados Unidos, algunos países relativamente ricos también han lanzado sus propios grandes modelos, como Japón, Emiratos Árabes Unidos, India y Corea del Sur.
Esta situación recuerda a la era de la burbuja de internet. Pero el fácil acceso no significa que todos puedan convertirse en gigantes de la era de la IA. Tomando como ejemplo los grandes modelos de código abierto, la comunidad de desarrolladores activa es su principal ventaja competitiva. Un gigante de las redes sociales entiende bien esto, y su serie de grandes modelos de código abierto se ha convertido en un referente en este campo.
Sin embargo, la mayoría de los grandes modelos aún tienen una diferencia notable en rendimiento en comparación con los productos de primera categoría. Los últimos resultados de la prueba AgentBench muestran que el puntaje del segundo lugar no alcanza ni dos tercios del primero. Esta brecha se debe a los excelentes equipos de científicos y a la experiencia acumulada a largo plazo de las principales empresas.
La capacidad central de los grandes modelos no radica únicamente en la cantidad de parámetros, sino en la construcción del ecosistema ( para modelos de código abierto ) o la pura capacidad de inferencia ( para modelos de código cerrado ). Con el desarrollo de la comunidad de código abierto, el rendimiento de los diferentes grandes modelos podría converger.
El mayor desafío radica en la comercialización. A excepción de algunos casos aislados, la mayoría de las empresas de IA aún no han encontrado un modelo de negocio rentable después de haber invertido grandes costos. Incluso las empresas líderes en la industria enfrentan dificultades en la fijación de precios de los productos de IA.
Los altos costos de la capacidad de cálculo se han convertido en un obstáculo para el desarrollo de la industria. Se estima que el gasto anual de las empresas tecnológicas globales en la infraestructura de grandes modelos podría superar con creces los ingresos que generan, existiendo una gran brecha.
A pesar de que los productos innovadores de algunas empresas han desencadenado esta revolución de la IA, sigue habiendo dudas sobre el valor que se puede crear únicamente confiando en el entrenamiento de grandes modelos. A medida que la competencia se intensifica y aumentan los modelos de código abierto, los proveedores de grandes modelos puramente podrían enfrentar una mayor presión.
El verdadero valor del campo de la IA puede que también se manifieste en aplicaciones concretas, así como el éxito del iPhone 4 no radica solo en su procesador, sino en su capacidad para ejecutar diversas aplicaciones.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
15 me gusta
Recompensa
15
4
Compartir
Comentar
0/400
GateUser-2fce706c
· hace11h
La clave de la riqueza está a la vista. Los que no pueden atraparla son tontos.
Ver originalesResponder0
CoffeeOnChain
· hace11h
Eh, se ha convertido en un juego de capital otra vez.
Ver originalesResponder0
MEV_Whisperer
· hace11h
¿Qué tan divertido es el Comercio de criptomonedas comparado con hacer IA?
Los modelos de IA florecen en gran medida, pero es fácil desarrollarlos y difícil comercializarlos.
La locura colectiva en el campo de la IA: de Transformers a la batalla de los cien modelos
El mes pasado, estalló una intensa "guerra de animales" en la industria de la IA. Por un lado, un modelo de llama lanzado por un gigante tecnológico, que ha sido muy bien recibido por los desarrolladores debido a su naturaleza de código abierto. Por otro lado, está el gran modelo llamado "Halcón", que, tras su lanzamiento en mayo, superó a la llama y se situó en la cima de la lista de LLM de código abierto.
Curiosamente, los desarrolladores de "Falcon" no son una empresa de tecnología, sino un instituto de investigación ubicado en los Emiratos Árabes Unidos. Posteriormente, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado para la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time.
Hoy en día, el campo de la IA ha entrado en la etapa de "caos absoluto". Cualquier país o empresa con suficiente poder financiero está desarrollando su propio modelo de lenguaje grande. Solo en los países del Golfo, hay más de un jugador en esta competencia.
Un inversionista se quejó: "En aquel entonces despreciaba la innovación en los modelos de negocio de Internet, pensaba que no había barreras. No esperaba que el emprendimiento en modelos de grandes tecnologías aún fuera una batalla de cientos de modelos..."
¿Cómo es que lo que se consideraba una tecnología dura de alta dificultad se ha convertido en una situación en la que cada país tiene su propia versión, floreciendo por todas partes?
Transformer cambió las reglas del juego
El hecho de que los países y las empresas puedan perseguir grandes modelos se debe al famoso artículo publicado en 2017 titulado "Attention Is All You Need". Este artículo presentó el algoritmo Transformer, que se convirtió en el punto de partida de la actual ola de IA. Los grandes modelos de hoy, sin importar su nacionalidad, se basan en el Transformer.
Antes de esto, "enseñar a las máquinas a leer" siempre ha sido un problema académico reconocido. Cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto. Las primeras redes neuronales tenían dificultades para lograr esto, hasta que la aparición de las redes neuronales recurrentes (RNN) en 2014 logró un avance.
Sin embargo, las RNN tienen el problema de la baja eficiencia y les resulta difícil manejar una gran cantidad de parámetros. La aparición del Transformer resolvió este problema, utilizando codificación posicional en lugar del diseño cíclico de las RNN, logrando así el cálculo en paralelo y aumentando significativamente la eficiencia del entrenamiento. Este cambio ha llevado a la IA a la era de los grandes modelos.
Transformer se ha convertido rápidamente en la solución principal en el campo del procesamiento del lenguaje natural. Ha transformado los grandes modelos de una cuestión de investigación teórica a un problema puramente ingenieril: siempre que haya suficiente potencia de cálculo y datos, cualquier empresa con capacidad técnica puede crear un gran modelo.
Como dijo un científico informático, la IA se está convirtiendo en una tecnología universal, similar a la electricidad y a Internet. Aunque algunos modelos grandes de ciertas empresas siguen siendo los mejores, los analistas prevén que otros gigantes tecnológicos pronto podrán crear productos de un nivel comparable.
Reflexiones detrás de la batalla de los cien modelos
Hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando a Estados Unidos. Además de China y Estados Unidos, algunos países relativamente ricos también han lanzado sus propios grandes modelos, como Japón, Emiratos Árabes Unidos, India y Corea del Sur.
Esta situación recuerda a la era de la burbuja de internet. Pero el fácil acceso no significa que todos puedan convertirse en gigantes de la era de la IA. Tomando como ejemplo los grandes modelos de código abierto, la comunidad de desarrolladores activa es su principal ventaja competitiva. Un gigante de las redes sociales entiende bien esto, y su serie de grandes modelos de código abierto se ha convertido en un referente en este campo.
Sin embargo, la mayoría de los grandes modelos aún tienen una diferencia notable en rendimiento en comparación con los productos de primera categoría. Los últimos resultados de la prueba AgentBench muestran que el puntaje del segundo lugar no alcanza ni dos tercios del primero. Esta brecha se debe a los excelentes equipos de científicos y a la experiencia acumulada a largo plazo de las principales empresas.
La capacidad central de los grandes modelos no radica únicamente en la cantidad de parámetros, sino en la construcción del ecosistema ( para modelos de código abierto ) o la pura capacidad de inferencia ( para modelos de código cerrado ). Con el desarrollo de la comunidad de código abierto, el rendimiento de los diferentes grandes modelos podría converger.
El mayor desafío radica en la comercialización. A excepción de algunos casos aislados, la mayoría de las empresas de IA aún no han encontrado un modelo de negocio rentable después de haber invertido grandes costos. Incluso las empresas líderes en la industria enfrentan dificultades en la fijación de precios de los productos de IA.
Los altos costos de la capacidad de cálculo se han convertido en un obstáculo para el desarrollo de la industria. Se estima que el gasto anual de las empresas tecnológicas globales en la infraestructura de grandes modelos podría superar con creces los ingresos que generan, existiendo una gran brecha.
A pesar de que los productos innovadores de algunas empresas han desencadenado esta revolución de la IA, sigue habiendo dudas sobre el valor que se puede crear únicamente confiando en el entrenamiento de grandes modelos. A medida que la competencia se intensifica y aumentan los modelos de código abierto, los proveedores de grandes modelos puramente podrían enfrentar una mayor presión.
El verdadero valor del campo de la IA puede que también se manifieste en aplicaciones concretas, así como el éxito del iPhone 4 no radica solo en su procesador, sino en su capacidad para ejecutar diversas aplicaciones.