Los grandes modelos están superando la tecnología de texto largo a una velocidad asombrosa
La capacidad de texto largo de los grandes modelos está mejorando rápidamente. Desde los primeros 4000 tokens hasta ahora 400,000 tokens, el crecimiento de esta capacidad es "visiblemente evidente".
El procesamiento de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos. En el extranjero, OpenAI ha aumentado la longitud del contexto de GPT-4 a 32,000 tokens a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo a 100,000 tokens de un solo golpe. LongLLaMA ha llevado esta cifra a 256,000 tokens.
El país tampoco se queda atrás. Un asistente inteligente lanzado por una startup de modelos grandes puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. Además, un equipo de investigación ha desarrollado una nueva tecnología llamada LongLoRA, que puede ampliar la longitud de texto de un modelo de 7B a 100,000 tokens.
Actualmente, numerosas empresas e instituciones de modelos de gran tamaño, incluidos OpenAI, Anthropic y Meta, están enfocándose en ampliar la longitud del contexto como una dirección de actualización clave. Estas empresas, sin excepción, son muy valoradas por el capital.
Entonces, ¿por qué las empresas de modelos grandes valoran tanto la tecnología de texto largo? ¿Qué significa ampliar la longitud del contexto 100 veces?
A simple vista, esto significa que el modelo puede manejar textos de entrada cada vez más largos y su capacidad de lectura se fortalece. Desde poder entender solo textos breves, hasta ahora puede comprender fácilmente una novela larga.
Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la aplicación de modelos grandes en campos profesionales como las finanzas, el derecho y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son clave para la actualización inteligente de estos campos.
Sin embargo, es importante tener en cuenta que el soporte para entradas de contexto más largas no equivale a un mejor rendimiento del modelo. La investigación muestra que el uso del contenido del contexto es lo que realmente importa.
Actualmente, la exploración de la longitud del texto, tanto a nivel nacional como internacional, aún no ha alcanzado su límite. 400,000 tokens puede ser solo un comienzo.
¿Por qué "enrollar" textos largos?
El fundador de una empresa de modelos grandes afirmó que la limitación en la longitud de entrada es la que ha causado las dificultades para la implementación de muchas aplicaciones de modelos grandes. Esta también es la razón por la que muchas empresas se están enfocando en la tecnología de texto largo.
Por ejemplo, en escenas de personajes virtuales, debido a la falta de capacidad para manejar textos largos, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo "script murder", la longitud del prompt no es suficiente, lo que obliga a reducir las reglas y configuraciones, afectando el efecto del juego. En campos profesionales como el derecho y las finanzas, el análisis y generación de contenido profundo también se ven frecuentemente frustrados.
La tecnología de texto largo también desempeña un papel importante en el camino hacia aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para la toma de decisiones de planificación, mientras que las aplicaciones nativas de AI requieren contexto para mantener una experiencia de usuario coherente y personalizada.
El fundador cree que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución. La capacidad de un solo paso está relacionada con la cantidad de parámetros, mientras que el número de pasos de ejecución es la longitud del contexto.
La tecnología de texto largo puede resolver algunos de los problemas que se han criticado en los modelos grandes en sus primeras etapas, mejorar ciertas funciones y, al mismo tiempo, es una tecnología clave para impulsar la implementación de aplicaciones en la industria. Esto marca la entrada del desarrollo de modelos grandes generales en una nueva etapa, de LLM a Long LLM.
El nuevo asistente inteligente lanzado por una empresa mostró algunas funciones de actualización del modelo grande de la fase Long LLM:
Extracción, resumen y análisis de información clave de textos muy largos
Convertir texto directamente en código, e incluso reproducir el proceso de generación de código según el artículo.
Implementar juegos de rol y tener conversaciones uno a uno con figuras públicas
Estos ejemplos indican que los chatbots están evolucionando hacia una dirección de especialización, personalización y profundización, lo que podría ser una nueva palanca para impulsar la aplicación industrial y la implementación de superapps.
Sin embargo, aún hay margen de mejora en los escenarios de conversación de texto largo en el mercado actual. Por ejemplo, no soportan la obtención de la información más reciente en línea, no se puede pausar el proceso de generación para realizar modificaciones y ocasionalmente aparecen incoherencias.
La "triple restricción" del texto largo
El texto largo enfrenta el dilema del "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo:
Cuanto más largo es el texto, más difícil es concentrar la atención suficiente.
La atención es limitada, los textos cortos dificultan la interpretación completa de información compleja
El procesamiento de textos largos requiere una gran cantidad de potencia de cálculo, lo que aumenta los costos.
Esto se debe principalmente a que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención hace que la cantidad de cálculo crezca al cuadrado con respecto a la longitud del contexto.
Algunos estudios muestran que un contexto demasiado largo puede reducir la proporción de información relevante y aumentar la distracción. Esto crea una contradicción entre la longitud del texto y la atención.
Al mismo tiempo, la tecnología para superar textos más largos tiene que consumir más potencia de cálculo. Pero en la implementación real, las empresas a menudo no pueden proporcionar suficiente apoyo de potencia de cálculo. Esto crea una contradicción entre la longitud del texto y la potencia de cálculo.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos
Optimización del cálculo del mecanismo de autoatención
Métodos generales para la optimización de modelos
La primera opción es "hackear" el modelo, dividiendo textos largos en varios textos cortos para su procesamiento.
La segunda solución es reestructurar la forma de cálculo de la auto-atención, como la tecnología LongLoRA que agrupa el cálculo de textos largos.
La tercera solución se centra en la optimización del modelo, como LongLLaMA, que logra la extrapolación de secuencias más largas mediante ajuste fino.
El dilema del "triángulo imposible" en textos largos aún no tiene solución, pero se ha aclarado el camino a seguir: buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, procesando suficiente información mientras se considera el cálculo de atención y las limitaciones de costo computacional.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
9
Republicar
Compartir
Comentar
0/400
UncleWhale
· 07-25 17:35
alcista tampoco es una solución a largo plazo
Ver originalesResponder0
ApeShotFirst
· 07-24 15:51
gm,40w token realmente ape
Ver originalesResponder0
FOMOSapien
· 07-23 07:50
¿40 mil tokens pueden cubrir un gasto tan grande?
Ver originalesResponder0
SocialFiQueen
· 07-22 20:30
¿Qué son cuatrocientos mil tokens? La renovación me dejará en la ruina.
Ver originalesResponder0
MidnightSeller
· 07-22 20:30
40w, la inteligencia es bastante alta
Ver originalesResponder0
LiquidityHunter
· 07-22 20:25
400,000 tokens... Tsk tsk, el gasto de potencia computacional debe ser aterrador.
Ver originalesResponder0
NewDAOdreamer
· 07-22 20:21
nuevo máximo en el token, ¡a rodar!
Ver originalesResponder0
GovernancePretender
· 07-22 20:08
La potencia computacional puede quemarse, pero hay que seguir esforzándose.
Ver originalesResponder0
PermabullPete
· 07-22 20:04
¿Cuatrocientos mil token? Directamente llévatelos a comercio de criptomonedas.
La capacidad de texto largo de grandes modelos supera los 400,000 tokens, impulsando un nuevo desarrollo en las aplicaciones de la industria.
Los grandes modelos están superando la tecnología de texto largo a una velocidad asombrosa
La capacidad de texto largo de los grandes modelos está mejorando rápidamente. Desde los primeros 4000 tokens hasta ahora 400,000 tokens, el crecimiento de esta capacidad es "visiblemente evidente".
El procesamiento de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de grandes modelos. En el extranjero, OpenAI ha aumentado la longitud del contexto de GPT-4 a 32,000 tokens a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo a 100,000 tokens de un solo golpe. LongLLaMA ha llevado esta cifra a 256,000 tokens.
El país tampoco se queda atrás. Un asistente inteligente lanzado por una startup de modelos grandes puede soportar la entrada de 200,000 caracteres chinos, aproximadamente 400,000 tokens. Además, un equipo de investigación ha desarrollado una nueva tecnología llamada LongLoRA, que puede ampliar la longitud de texto de un modelo de 7B a 100,000 tokens.
Actualmente, numerosas empresas e instituciones de modelos de gran tamaño, incluidos OpenAI, Anthropic y Meta, están enfocándose en ampliar la longitud del contexto como una dirección de actualización clave. Estas empresas, sin excepción, son muy valoradas por el capital.
Entonces, ¿por qué las empresas de modelos grandes valoran tanto la tecnología de texto largo? ¿Qué significa ampliar la longitud del contexto 100 veces?
A simple vista, esto significa que el modelo puede manejar textos de entrada cada vez más largos y su capacidad de lectura se fortalece. Desde poder entender solo textos breves, hasta ahora puede comprender fácilmente una novela larga.
Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la aplicación de modelos grandes en campos profesionales como las finanzas, el derecho y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son clave para la actualización inteligente de estos campos.
Sin embargo, es importante tener en cuenta que el soporte para entradas de contexto más largas no equivale a un mejor rendimiento del modelo. La investigación muestra que el uso del contenido del contexto es lo que realmente importa.
Actualmente, la exploración de la longitud del texto, tanto a nivel nacional como internacional, aún no ha alcanzado su límite. 400,000 tokens puede ser solo un comienzo.
¿Por qué "enrollar" textos largos?
El fundador de una empresa de modelos grandes afirmó que la limitación en la longitud de entrada es la que ha causado las dificultades para la implementación de muchas aplicaciones de modelos grandes. Esta también es la razón por la que muchas empresas se están enfocando en la tecnología de texto largo.
Por ejemplo, en escenas de personajes virtuales, debido a la falta de capacidad para manejar textos largos, los personajes virtuales olvidan información importante. Al desarrollar juegos de tipo "script murder", la longitud del prompt no es suficiente, lo que obliga a reducir las reglas y configuraciones, afectando el efecto del juego. En campos profesionales como el derecho y las finanzas, el análisis y generación de contenido profundo también se ven frecuentemente frustrados.
La tecnología de texto largo también desempeña un papel importante en el camino hacia aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para la toma de decisiones de planificación, mientras que las aplicaciones nativas de AI requieren contexto para mantener una experiencia de usuario coherente y personalizada.
El fundador cree que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución. La capacidad de un solo paso está relacionada con la cantidad de parámetros, mientras que el número de pasos de ejecución es la longitud del contexto.
La tecnología de texto largo puede resolver algunos de los problemas que se han criticado en los modelos grandes en sus primeras etapas, mejorar ciertas funciones y, al mismo tiempo, es una tecnología clave para impulsar la implementación de aplicaciones en la industria. Esto marca la entrada del desarrollo de modelos grandes generales en una nueva etapa, de LLM a Long LLM.
El nuevo asistente inteligente lanzado por una empresa mostró algunas funciones de actualización del modelo grande de la fase Long LLM:
Estos ejemplos indican que los chatbots están evolucionando hacia una dirección de especialización, personalización y profundización, lo que podría ser una nueva palanca para impulsar la aplicación industrial y la implementación de superapps.
Sin embargo, aún hay margen de mejora en los escenarios de conversación de texto largo en el mercado actual. Por ejemplo, no soportan la obtención de la información más reciente en línea, no se puede pausar el proceso de generación para realizar modificaciones y ocasionalmente aparecen incoherencias.
La "triple restricción" del texto largo
El texto largo enfrenta el dilema del "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo:
Esto se debe principalmente a que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención hace que la cantidad de cálculo crezca al cuadrado con respecto a la longitud del contexto.
Algunos estudios muestran que un contexto demasiado largo puede reducir la proporción de información relevante y aumentar la distracción. Esto crea una contradicción entre la longitud del texto y la atención.
Al mismo tiempo, la tecnología para superar textos más largos tiene que consumir más potencia de cálculo. Pero en la implementación real, las empresas a menudo no pueden proporcionar suficiente apoyo de potencia de cálculo. Esto crea una contradicción entre la longitud del texto y la potencia de cálculo.
Actualmente hay tres soluciones principales:
La primera opción es "hackear" el modelo, dividiendo textos largos en varios textos cortos para su procesamiento.
La segunda solución es reestructurar la forma de cálculo de la auto-atención, como la tecnología LongLoRA que agrupa el cálculo de textos largos.
La tercera solución se centra en la optimización del modelo, como LongLLaMA, que logra la extrapolación de secuencias más largas mediante ajuste fino.
El dilema del "triángulo imposible" en textos largos aún no tiene solución, pero se ha aclarado el camino a seguir: buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, procesando suficiente información mientras se considera el cálculo de atención y las limitaciones de costo computacional.