Modelo de la industria, abre el libro!

Fuente: Titanium Media, Autor: Zhang Shuai

Fuente de la imagen: Generada por Unbounded AI‌

"Wenxinyiyan parece haberse lanzado a toda prisa. Creo que esto no es para ganar dinero en absoluto, sino para ponerse al día con el auge de ChatGPT. El gran modelo de la industria es lo que realmente puede generar valor comercial". Wenxinyiyan, un exempleado de Baidu dijo a Titanium Media: "Cuando OpenAI no era tan popular el año pasado, el Sr. Wang (CTO de Baidu, Wang Haifeng) dirigió un equipo para construir 10 modelos a gran escala, incluidos modelos industriales a gran escala. En ese momento , no hubo mucha atención fuera de la industria, pero si observa el diseño de Baidu ahora, el gran modelo de la industria es en realidad un diseño con visión de futuro, anterior a OpenAI y Microsoft".

Hoy, después del ajetreo y el bullicio de los modelos a gran escala de propósito general, los modelos de la industria están ganando fuerza gradualmente, lo que también confirma esta realidad: los modelos básicos a gran escala como ChatGPT ganan "llorar", lo que en gran medida juega un papel en la educación de los mercado y formación de la cognición, la inteligencia artificial realmente se va a implementar y ganar el dinero actual, pero también depende del gran modelo de la industria.

Incluso en los mercados extranjeros, ChatGPT, como parte de los atributos de los productos del extremo C, se ha debilitado gradualmente. Según los datos de SimilarWeb, la tasa de crecimiento de las visitas de ChatGPT en la etapa inicial fue asombrosa. La tasa de crecimiento mensual fue de 131,6 % en enero y 62,5% en febrero, fue de 55,8% en marzo y se desaceleró significativamente en abril, con una tasa de crecimiento intermensual de 12,6%, para mayo esta cifra había cambiado a 2,8% y Se espera que la tasa de crecimiento intermensual en junio sea negativa.

"Creo que muchos de nosotros hemos probado ChatGPT, y creo que muchas personas lo han dejado de lado después de probarlo, porque básicamente está separado de nuestro trabajo en este momento, así que lo dejamos después de usarlo. Pero todavía espero que todos no "se levantarán temprano y captarán el último episodio", porque esta es una revolución de paradigma que traerá cambios subversivos", dijo anteriormente el Director de Tecnología (CTO) de Microsoft (China), Wei Qing.

La solución del lado B basada en ChatGPT o modelos grandes es una buena manera de resolver la separación entre modelos grandes y escenas.

A nivel internacional, las principales empresas como Microsoft y Amazon también han comenzado a buscar rutas de comercialización de servicios de nivel empresarial y han comenzado a explorar múltiples industrias; a nivel nacional, Baidu, Alibaba, Tencent y Huawei están acelerando la inversión en la industria a gran escala. modelos Además, muchos líderes de la industria y empresas emergentes de todo el mundo también están explorando la perspectiva de modelos industriales a gran escala. Recientemente, la Comisión Municipal de Ciencia y Tecnología de Beijing y el Comité de Gestión de Zhongguancun también lanzaron el primer lote de 10 casos de aplicación de modelos de industria de inteligencia artificial a gran escala en Beijing. Además, la cantidad de fusiones y adquisiciones de rutas tecnológicas relacionadas también ha alcanzado nuevos máximos...

Pero la pista de modelos a gran escala está lejos de estar abarrotada: con el rápido desarrollo de la iteración tecnológica, todos los ámbitos de la vida están volviendo a acumular conocimientos técnicos y dando forma a modelos comerciales, y todo acaba de comenzar.

Actualización: Guerra de los Mil Modelos

Si el modelo básico es una "guerra de los cien modelos", el modelo a gran escala de la industria es una "guerra de los mil modelos". Al igual que el tronco crece ramas, cada fabricante de modelos básicos a gran escala puede incubar varios modelos a gran escala de la industria. unánime

"Aunque todos tienen grandes expectativas para el modelo a gran escala de propósito general, no es necesariamente la solución óptima para satisfacer las necesidades de los escenarios de la industria". Dijo el presidente de Tencent Group, Cloud y Tang Daosheng, director ejecutivo de Smart Industry Business Group.

En el caso de que Hunyuan Assistant no lo lanzara al público, Tencent tomó la iniciativa en el lanzamiento de modelos industriales a gran escala. Al confiar en la plataforma Tencent Cloud TI para crear una selección de modelos industriales a gran escala, brinda a los clientes una detener los servicios de MaaS y ayudar a los clientes corporativos a crear modelos exclusivos a gran escala y aplicaciones inteligentes. Se sabe de Tencent que Tencent publicará información oficial sobre el modelo general del C-end en el futuro.

Esta serie de medidas puede entenderse como que, independientemente del efecto y el progreso del modelo básico a gran escala de Hunyuan, el lanzamiento prioritario del modelo a gran escala de la industria es un paso necesario para que Tencent asegure su propia reputación y aproveche los clientes del mercado cuando los clientes están en necesidad urgente.

Anteriormente, Tian Qi, científico jefe en el campo de la inteligencia artificial en Huawei Cloud, mencionó que Huawei divide el modelo grande en tres niveles, L0, L1, L2 y L0 es lo que todos llaman el modelo general básico, como GPT-3. , en el modelo básico L0 Sobre la base de , más los datos de la industria, el modelo grande de la industria obtenido mediante el entrenamiento mixto es L1.

Luego, L1 se implementa para escenarios de subdivisión específicos de miles de industrias aguas abajo, y se obtiene el modelo de tarea L2 de los escenarios de subdivisión.Para reducir los costos de producción y mejorar la eficiencia lo antes posible, cómo producir rápidamente modelos L2 a partir de los grandes modelo de industria L1 y La implementación del modelo L2 en el lado del dispositivo, el lado del borde y el lado de la nube es un tema muy importante.

Se puede ver en la agenda de la próxima Conferencia de Desarrolladores de Huawei en julio que Huawei Cloud llevará a cabo una serie de interpretaciones y lanzamientos sobre cómo se refinó el modelo Pangu de un modelo básico a un modelo industrial.

En la Cumbre de la Nube de Alibaba de este año, el CTO de la Nube de Alibaba, Zhou Jingren, también dijo: "Hoy en día, no todas las empresas necesitan comenzar a capacitarse desde cero, ni es necesario que todos comiencen desde cero para crear una variedad de corpus, incluida una gran cantidad de poder de cómputo. recursos, para crecer desde cero Una serie de personalización del modelo, esperamos que basado en el modelo Tongyi Qianwen hoy, combinado con el escenario de la empresa, el sistema de conocimiento empresarial y las necesidades especiales de la empresa en la industria, cada modelo específico de la empresa generarse".

Microsoft también está creando su propio modelo de industria. En abril, en China, la versión internacional de Microsoft Azure OpenAI Service lanzó los primeros tres conjuntos de escenarios de la industria de innovación global de Azure para el comercio electrónico minorista, la fabricación y los campos nativos digitales, integrando GPT-3 y GPT-4 para usuarios empresariales locales que van en el extranjero. , Codex, DALL-E y ChatGPT de nivel empresarial, cinco servicios modelo a gran escala, para ayudar a los clientes empresariales chinos en el extranjero a acelerar su expansión en el mercado global.

La "guerra de las mil maquetas" está a punto de estallar, pero aún es demasiado pronto para entrar realmente en la etapa de grandes olas que lavan la arena. En general, las maquetas a gran escala aún se encuentran en una etapa relativamente temprana de desarrollo. Aunque Los modelos a gran escala en la industria se concentran, obviamente hay más espacio para esta pista.

Tomando como ejemplo el modelo grande de la industria financiera, se divide en diferentes campos, como compañías de valores, seguros, bancos y nuevas finanzas. Las tareas posteriores de cada campo se dividen en docenas o cientos de subtareas.

"El momento más importante es cuando, basándose en el modelo básico, SFT y otros mecanismos y estructuras se pueden adaptar de manera eficiente a las tareas posteriores, y cuando las tareas posteriores de la industria financiera u otros modelos industriales tienen un efecto de escala". Chen Haiqing, jefe del Centro de Negocios de Innovación de Moyuan, es solo el comienzo de los grandes modelos y escenarios de la industria para la capacitación continua a través de algunos datos no estructurados universales.

Elección sensata y realista

Si una empresa quiere crear un modelo básico a gran escala con cientos de miles de millones de parámetros, necesita una potencia informática de más de 10 000 tarjetas en un clúster de una sola máquina, no solo una tarjeta GPU, sino también la utilización de los recursos del clúster GPU. , que la mayoría de las empresas no pueden hacer.

El modelo de gran industria es obviamente más fácil de realizar y también tiene una perspectiva de aplicación más amplia.

"Los modelos grandes pueden empoderar a miles de industrias, pero debe tener una buena comprensión de los escenarios de miles de industrias, y no puede esperar entrenar cientos de miles de millones o billones de modelos grandes, que los usuarios empresariales pueden usar fácilmente. ", dijo Zhou Ming, fundador de Lanzhou Technology. “Del modelo general al modelo de industria, hay que hacer la última milla para el escenario del usuario”.

Después de evaluar la inversión necesaria para el modelo básico a gran escala y de sopesar los pros y los contras y las ganancias y pérdidas, los clientes empresariales rápidamente recurrieron al modelo industrial a gran escala y los fabricantes le dedicaron más energía.

Tang Daosheng dijo francamente que los modelos a gran escala de propósito general actuales generalmente se entrenan en base a una extensa literatura pública e información de la red. La información en Internet puede contener errores, rumores y sesgos. Muchos conocimientos profesionales y datos de la industria no se acumulan lo suficiente. lo que resulta en el modelo específico de la industria. La precisión y la precisión no son suficientes, y el "ruido" de datos es demasiado grande.

Sin embargo, en muchos escenarios industriales, los usuarios tienen altos requisitos para los servicios profesionales proporcionados por las empresas y su tolerancia a fallas es baja. Una vez que una empresa proporciona información incorrecta, puede causar una gran responsabilidad legal o una crisis de relaciones públicas. Por lo tanto, los modelos a gran escala utilizados por las empresas deben ser controlables, rastreables y corregibles, y deben probarse repetida y completamente antes de que puedan lanzarse.

"Creemos que los clientes necesitan más modelos industriales específicos de la industria, junto con los propios datos de la empresa para capacitación o ajuste, a fin de crear servicios inteligentes altamente prácticos. Lo que las empresas necesitan es resolver realmente el problema en escenarios reales. Resuelva un cierto problema en lugar de resolver el 70% -80% del problema en 100 escenas", dijo Tang Daosheng.

Zhu Yong, vicepresidente de Baidu Smart Cloud, también dijo: "Por la situación en el país y en el extranjero, podemos ver que no hay tantos modelos de uso general. Algunos fabricantes en el mercado en realidad fabrican modelos relativamente pequeños. Por el contrario. , los modelos de dominio son especiales Importante, porque el modelo general solo tiene la capacidad de conocimiento general, el modelo de dominio puede alinearse con las expectativas de tareas de industrias y dominios específicos, y resolver los problemas reales del negocio. Este proceso es muy importante, pero el costo y los recursos requeridos para este proceso son mucho menores que comenzar desde cero. Haga el modelo general subyacente".

Al mismo tiempo, también consideró que puede haber solo unos pocos modelos básicos (modelos generales subyacentes) en el futuro, pero combinados con datos en el campo profesional y el conocimiento de la industria, muchos tipos diferentes de modelos de dominio crecerán en él. Estos modelos de dominio serán muy prósperos en el futuro y admitirán aplicaciones de dominio de capa superior.

Tomando como ejemplo el gran modelo de la industria energética "State Grid-Baidu Wenxin" creado por Baidu Smart Cloud y State Grid, Baidu Smart Cloud, junto con los expertos de State Grid, introdujeron las muestras acumuladas por State Grid en el negocio de la energía en el modelo general a gran escala Datos y conocimiento único, y en el entrenamiento, combine la experiencia de ambas partes en el algoritmo de preentrenamiento y el negocio y el algoritmo en el campo de poder, algoritmos de diseño como discriminación de entidades en el campo de poder y discriminación de documentos en el campo de la energía como tareas previas al entrenamiento, para que el modelo grande de Wenxin pueda aprender el poder en profundidad Conocimiento profesional, para resolver realmente problemas comerciales prácticos en el campo de la energía y lograr el propósito de reducir costos y aumentar la eficiencia.

Zhu Yong dijo que la diferencia entre el modelo general y el modelo de dominio se puede comparar con una persona con una amplia gama de conocimientos que ha ido a la universidad. Puede tener algunos conocimientos médicos, pero no puede diagnosticar pacientes y no es un médico profesional. . El modelo de dominio es aprender conocimientos médicos en profundidad sobre la base de una sólida capacidad general y convertirse en un médico profesional que pueda aportar valor en el campo de la medicina.

Desde un modelo general con una amplia gama de conocimientos hasta un modelo médico profesional, el costo de los recursos necesarios en este proceso es mucho menor que el de construir un modelo general grande desde cero, pero enfatiza que hay datos profesionales, debe haber Es impulsado por tareas en el campo profesional para estimularlo a producir tales habilidades.

Cómo hacer un modelo de industria

El modelo grande en sí mismo es algo nuevo, que ha cambiado el paradigma de desarrollo de software anterior. Los fabricantes necesitan una nueva cadena de herramientas y plataforma para ayudar a los clientes a pulir el modelo grande de la industria antes y más rápido.

Con el advenimiento de la era de los modelos grandes, la eficiencia de la última milla mejorará considerablemente. Zhou Ming mencionó que está tomando forma una nueva generación de paradigma de desarrollo de software, principalmente basado en el hecho de que las empresas proporcionan muchos motores funcionales y los usuarios ahora son asistentes para mejorar la eficiencia. Sobre esta base, es fácil construir una nueva aplicación.

Tome como ejemplo la plataforma de modelo a gran escala de Wenxin Qianfan, es una plataforma integral de desarrollo de modelos a gran escala y operación de servicios para desarrolladores empresariales. No solo proporciona el modelo subyacente (ERNIE-Bot) y modelos grandes de código abierto de terceros, sino que también proporciona varias herramientas de desarrollo de IA y un entorno de desarrollo completo para facilitar a los clientes el uso y el desarrollo de aplicaciones de modelos grandes.

Para la gestión de datos, SFT de modelos automatizados e implementación en la nube de servicios de razonamiento, los fabricantes esperan realizar servicios de personalización de modelos a gran escala integrales. Las capacidades de las plataformas de construcción de modelos a gran escala de diferentes fabricantes son básicamente similares, y la diferencia radica en la facilidad de uso, la calidad del efecto y el software y hardware compatibles.

"De hecho, hacer un modelo grande no es barato, pero solo hay dos razones por las que al final se puede promover el servicio de modelos grandes: la primera es que el efecto del modelo es mejor y el efecto del modelo no es bueno. No hace falta decir que el segundo es el costo", dijo Baidu Xin Zhou, gerente general de Smart Cloud AI y Big Data Platform.

En efecto, el modelo de la industria debe basarse en el modelo general. Por ejemplo, en educación general, si no hay un modelo general mejor, es imposible hablar del efecto de aplicación en una industria específica. El GPT de Bloomberg lanzado conjuntamente por Bloomberg y Johns Hopkins es un ejemplo: en su distribución de datos, los datos del modelo básico general representan la mitad, los datos públicos de la industria financiera representan la mitad y los datos propios de Bloomberg representan el 0,6%.

"Para que cualquier modelo alcance un mejor nivel de inteligencia o capacidades básicas, debe entrenar el modelo básico con una cantidad relativamente buena de parámetros y luego integrar algunos datos profesionales de la industria en el modelo básico para hacer un modelo de industria". dijo Zhou.

La idea de Baidu es lanzar un "tipo grande" (Wenxin Yiyan) y una plataforma de herramientas muy completa (Wenxin Qianfan), y luego proporcionar servicios de modelos diferenciados de acuerdo con las necesidades reales de los clientes para ayudarlos a tomar la decisión más rentable. Creemos que el precio no se convertirá en un cuello de botella para que las empresas adopten modelos grandes.

Además de los costos de llamadas y costos de capacitación del modelo, Baidu también está ayudando a las empresas a reducir aún más los costos. Si las empresas solo se enfocan en sus campos relativamente limitados, Baidu también tiene una versión con parámetros relativamente bajos, de modo que, al tiempo que garantiza el efecto del modelo, uso o El costo de los modelos de entrenamiento se reducirá drásticamente.

De hecho, no existe un estándar universal para el costo de construir un modelo de industria grande.

En primer lugar, los diferentes modelos grandes básicos tienen diferentes especificaciones de parámetros, y la inversión en software y hardware debe cambiar dinámicamente de acuerdo con los parámetros básicos y las capacidades del modelo. Si el parámetro es decenas de miles de millones, una tarjeta A100 también puede ejecutar e iniciar tareas posteriores.

Los requisitos actuales de escenarios de aplicaciones relativamente concentrados entran en esta categoría, como la respuesta inteligente a preguntas, la escritura inteligente y la creación inteligente en la gestión del conocimiento, así como los escenarios de marketing pan-Internet y los requisitos de generación de código.

En segundo lugar, el costo está relacionado con la cantidad de datos y la dirección de la aplicación. El precio actual del modelo global a gran escala se basa en 1000 Token como unidad básica. Si las tareas posteriores de una empresa son muy simples y se pueden realizar con solo decenas de miles de tokens, entonces su costo es muy bajo y requiere muy pocas tarjetas GPU. La cantidad de datos necesarios para construir un modelo de industria grande suele estar en G o incluso T, por lo que su costo de capacitación fuera de línea será muy alto.

**¿Quién corre la carrera? **

Los jugadores acudieron en masa a la pista de modelos a gran escala. Esta vez, no solo se unieron las empresas de Internet de primer nivel, sino también más líderes de la industria y empresas emergentes.

¿Qué industrias pueden tomar la iniciativa para abrirse camino? Tal vez se pueda ver desde la industria en la que se ubica el caso de cooperación, como se muestra en la tabla al comienzo del artículo, se utilizan con frecuencia las finanzas, la atención médica, la educación, la conducción autónoma y otros campos.

Por ejemplo, cuando Alibaba Cloud lanzó el modelo grande Tongyi en abril, anunció que había lanzado exploraciones cooperativas con varias empresas. El primer lote de empresas cooperativas incluye OPPO Andes Smart Cloud, Geely Automobile, Zhiji Automobile, Chery New Energy, Momo Zhixing, Swire Coca-Cola, Bosideng, Palm Technology, etc. Según los informes, la industria financiera, la industria minorista y algunos escenarios e industrias orientados al consumidor a gran escala han acumulado una gran cantidad de datos públicos y datos de escenarios, lo cual es conveniente para construir modelos empresariales o específicos de la industria.

Según la información pública, el número de modelos industriales a gran escala de Baidu Wenxin ha llegado a 11, y abarca energía y electricidad, finanzas, aeroespacial, medios, cine y televisión, automóviles, gestión urbana, gas, seguros, fabricación de productos electrónicos y ciencias sociales.

El primer lote de diez casos de aplicación modelo a gran escala en la industria de la inteligencia artificial en Beijing, publicado el 27 de junio, involucra energía y electricidad, salud médica, finanzas, conducción autónoma, construcción, investigación científica, vida y campos de preguntas y respuestas. Se informa que durante el período del 27 de junio al 30 de julio, la Comisión de Ciencia y Tecnología de Beijing y el Comité de Gestión de Zhongguancun también se centrarán en áreas clave como la gobernanza urbana, la salud médica, la investigación científica, las finanzas inteligentes, la vida inteligente y la ciudades y temas de innovación objetivo en la ciudad. , recopilará más de 80 proyectos de casos de aplicación modelo a gran escala de la industria.

Pero más clientes se enfrentan a una nueva ola de acumulación de conocimientos y procesos de aprendizaje.

"Cuando nos comunicamos con los clientes, descubrimos que muchos clientes no saben mucho sobre los modelos de la industria, pero tomarán la iniciativa de preguntar por los modelos de la industria de Baidu". Li Jingqiu, subdirector general de Baidu Smart Cloud AI Platform, dijo que en este momento, se combinará específicamente con el uso real de las empresas Analice las necesidades de los productos y clientes, como qué tipo de capacidades desea que tenga el modelo de industria, qué sistemas o aplicaciones usar, quién usará estas aplicaciones y qué efectos espera lograr... Después de hacer estas preguntas, realmente encontrará clientes. Lo que se necesita es un modelo grande basado en la cadena de herramientas SFT de Wenxin Qianfan, o un modelo previamente entrenado para la industria. Este último necesita al menos varios meses, o incluso el último año, para construirse e implementarse, desde problemas técnicos como el procesamiento de datos, la asignación de recursos en la capa de potencia informática hasta la capacitación a largo plazo sobre datos comunes en la industria.

Desde el ajetreo y el bullicio del modelo básico a gran escala hasta el comienzo del modelo a gran escala de la industria, entrando en la segunda mitad de 2023, se acelerará una verdadera transformación empresarial.

También es interesante comparar los caminos de los fabricantes nacionales como Baidu y OpenAI/Microsoft en el campo de los modelos a gran escala. Cuando ChatGPT mostró una popularidad mundial a nivel de fenómeno, algunas voces cuestionaron por qué China no podía producir ChatGPT. Por supuesto, hubo es un entorno técnico Al final, muchas personas todavía tienen un consenso superficial: "La IA de China está más inclinada a las aplicaciones comerciales y las capacidades de comercialización". Para decirlo sin rodeos, la IA de China tiene menos paciencia y quiere ganar dinero.

Pero, por otro lado, el mercado es el mayor motor del desarrollo tecnológico, y la comprensión del tiempo y el ritmo ha generado resultados diferentes. Tomemos como ejemplo el modelo de industria a gran escala. Microsoft está esperando que la tecnología madure más, o siente que aún no ha llegado el momento, y que es un paso demasiado tarde. Los fabricantes nacionales hacen una transición rápida de la industria básica a gran escala. Modelo a escala para el modelo de industria a gran escala.Tener una vitalidad duradera.

Perdido en el oriente, cosechado en morera, en cuanto a resultados, no es malo que los modelos grandes de la industria nacional corran rápido.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)