Del 21 al 23 de febrero, la ciudad de Shanghai albergará la Conferencia Global de Desarrolladores 2025 (Global Developer Conference, GDC). La Comisión de Economía y Tecnología de Shanghai, según la introducción, Hugging Face, la Comunidad de Desarrolladores de Microsoft, CSDN, la Comunidad de Desarrolladores de Ali MoDa, la Fundación Linux, la Fundación ARPA, la Comunidad de Huawei y otras 100 comunidades de desarrolladores nacionales y extranjeras participarán en esta edición de la GDC; se centrarán en tecnologías clave como modelos de gran escala, potencia computacional, corpus lingüístico, herramientas, plataformas de software, y el grupo de desarrolladores participantes abarcará el desarrollo de hardware, computación en la nube, big data, internet de las cosas, inteligencia artificial, robótica, blockchain y Metaverso.
Shanghai Kupas Technology Co., Ltd. es una de las compañías participantes en esta conferencia. Kupas es una empresa de plataforma de datos de corpus de inteligencia artificial especializada establecida según los requisitos del Comité Municipal del Partido y el Gobierno Municipal de Shanghai. La empresa se posiciona como una plataforma de operación de servicios de corpus funcional especializado, dedicada a proporcionar servicios de datos de corpus de bajo costo y alta calidad para modelos de base, modelos de categorías verticales e innovadores y emprendedores de pequeñas y medianas empresas.
"Todo nuestro equipo ha estado trabajando sin descanso desde el cuarto día del Año Nuevo Chino, investigando e siguiendo la innovación de DeepSeek." El CEO de Kupas, Huang Haiqing, le dijo a Interface News que el surgimiento repentino de DeepSeek ha emocionado y preocupado a toda la industria de la IA. La principal preocupación radica en por qué las inversiones masivas en modelos existentes no han logrado resultados como los de DeepSeek.
Él cree que el núcleo del éxito de DeepSeek radica no solo en la innovación del algoritmo original, sino también en el uso de un conjunto de datos de alta calidad, lo que puede ahorrar significativamente Potencia computacional y datos, proporcionando así ideas para que la industria de modelos a gran escala en China pueda 'adelantar por la curva'. Huang Haiqing afirmó que, según la situación actual del desarrollo de modelos a gran escala, un conjunto de datos de alta calidad determinará el límite de capacidad del modelo a gran escala, y el suministro de un corpus de alta calidad puede reducir en gran medida los costos de entrenamiento de las empresas de modelos a gran escala.
Él introdujo que Kupas ya ha iniciado por completo la construcción de la base de datos de la industria en áreas como la inteligencia encarnada, finanzas, manufactura, educación, atención médica, entretenimiento, gobierno urbano, etc. La plataforma de operación de la base de datos 1.0 ya está en funcionamiento y está acelerando el desarrollo de la plataforma 2.0 desde el mundo real hasta la simulación hasta la síntesis de datos. Hasta ahora, la empresa ha conectado a más de 50 socios ecológicos de la base de datos, reduciendo el costo de los grandes modelos al proporcionar conjuntos de datos de alta calidad y efectivos a los socios colaboradores.
Scaling Law sigue funcionando, pero la velocidad ha disminuido, juzga Huang Haiqing. Él cree que en el futuro, más allá de los modelos de lenguaje a gran escala, comenzará a explotar la aplicación de modelos multimodales, y los modelos de negocio ToB (empresarial) y ToG (gobierno) se convertirán en la principal dirección de desarrollo de las empresas de modelos a gran escala. Muchas empresas de modelos a gran escala están cambiando hacia categorías industriales, y en el futuro, en el mercado chino, solo sobrevivirán menos de diez empresas de modelos a gran escala.
En sectores específicos, considera que actualmente las finanzas, la educación, la atención médica y la industria han abrazado prioritariamente los grandes modelos. En áreas clave como la conducción autónoma, la inteligencia encarnada, la inteligencia científica, también se están aplicando activamente grandes modelos. Con el paso del tiempo, la industria del transporte, el comercio minorista y otras industrias también aplicarán grandes modelos. Esto también generará una mayor y mejor calidad de demanda de corpus en la industria vertical. Para los modelos de razonamiento, también es necesario construir un proceso de razonamiento sobre los datos originales, lo que plantea nuevos requisitos para la producción de corpus.
En la recopilación y producción de datos de corpus, Huang Haiqing también sugiere mantenerse al día con la ley de derechos de autor, y realizar algunas actualizaciones en la definición razonable del alcance de los datos de corpus para inteligencia artificial y entrenamiento de modelos grandes.
"Esto no pretende cambiar el pasado (de las reglas), solo agregar y actualizar, creo que este es un camino más adecuado y manejable", dijo Huang Haiqing. "En el campo de la inteligencia artificial, modelos grandes y datos de corpus, las leyes de derechos de autor anteriores estaban destinadas a las personas, cuando se entrena con datos de corpus, si se mide el estándar de aprendizaje automático con los estándares anteriores, puede que no sea tan apropiado. Además, este problema ya ha afectado el costo de adquisición de corpus de empresas de modelos grandes y el riesgo legal."
Él sugirió acelerar la definición de reglas razonables para el uso de grandes conjuntos de datos de modelos de lenguaje, promover la aplicabilidad de la "minería de texto y datos" en el campo de la preformación; promover el uso razonable de datos para el aprendizaje automático en el país, equilibrar los derechos de autor y las necesidades de desarrollo tecnológico, y abordar el problema de la difícil autorización; el gobierno debe promulgar políticas de estímulo, apoyar a las empresas de datos de modelos de lenguaje para fortalecer el desarrollo de plataformas de herramientas automatizadas, reducir el costo de los datos de los modelos de lenguaje; crear una plataforma de herramientas automatizadas de limpieza y etiquetado de IA, reduciendo el costo de los datos de los modelos de lenguaje; acelerar la investigación legal sobre el alcance de la protección de los productos generados por inteligencia artificial, y establecer reglas claras sobre la propiedad y responsabilidad de los productos generados por inteligencia artificial.
黄海清 también señaló que en el futuro, la IA dominará la anotación y limpieza de datos, y la anotación de datos se transformará de una industria intensiva en mano de obra a una basada en conocimientos y tecnología.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Potencia computacional, el conjunto de datos de corpus de alta calidad puede determinar el límite superior de las capacidades del modelo grande
Del 21 al 23 de febrero, la ciudad de Shanghai albergará la Conferencia Global de Desarrolladores 2025 (Global Developer Conference, GDC). La Comisión de Economía y Tecnología de Shanghai, según la introducción, Hugging Face, la Comunidad de Desarrolladores de Microsoft, CSDN, la Comunidad de Desarrolladores de Ali MoDa, la Fundación Linux, la Fundación ARPA, la Comunidad de Huawei y otras 100 comunidades de desarrolladores nacionales y extranjeras participarán en esta edición de la GDC; se centrarán en tecnologías clave como modelos de gran escala, potencia computacional, corpus lingüístico, herramientas, plataformas de software, y el grupo de desarrolladores participantes abarcará el desarrollo de hardware, computación en la nube, big data, internet de las cosas, inteligencia artificial, robótica, blockchain y Metaverso.
Shanghai Kupas Technology Co., Ltd. es una de las compañías participantes en esta conferencia. Kupas es una empresa de plataforma de datos de corpus de inteligencia artificial especializada establecida según los requisitos del Comité Municipal del Partido y el Gobierno Municipal de Shanghai. La empresa se posiciona como una plataforma de operación de servicios de corpus funcional especializado, dedicada a proporcionar servicios de datos de corpus de bajo costo y alta calidad para modelos de base, modelos de categorías verticales e innovadores y emprendedores de pequeñas y medianas empresas.
"Todo nuestro equipo ha estado trabajando sin descanso desde el cuarto día del Año Nuevo Chino, investigando e siguiendo la innovación de DeepSeek." El CEO de Kupas, Huang Haiqing, le dijo a Interface News que el surgimiento repentino de DeepSeek ha emocionado y preocupado a toda la industria de la IA. La principal preocupación radica en por qué las inversiones masivas en modelos existentes no han logrado resultados como los de DeepSeek.
Él cree que el núcleo del éxito de DeepSeek radica no solo en la innovación del algoritmo original, sino también en el uso de un conjunto de datos de alta calidad, lo que puede ahorrar significativamente Potencia computacional y datos, proporcionando así ideas para que la industria de modelos a gran escala en China pueda 'adelantar por la curva'. Huang Haiqing afirmó que, según la situación actual del desarrollo de modelos a gran escala, un conjunto de datos de alta calidad determinará el límite de capacidad del modelo a gran escala, y el suministro de un corpus de alta calidad puede reducir en gran medida los costos de entrenamiento de las empresas de modelos a gran escala.
Él introdujo que Kupas ya ha iniciado por completo la construcción de la base de datos de la industria en áreas como la inteligencia encarnada, finanzas, manufactura, educación, atención médica, entretenimiento, gobierno urbano, etc. La plataforma de operación de la base de datos 1.0 ya está en funcionamiento y está acelerando el desarrollo de la plataforma 2.0 desde el mundo real hasta la simulación hasta la síntesis de datos. Hasta ahora, la empresa ha conectado a más de 50 socios ecológicos de la base de datos, reduciendo el costo de los grandes modelos al proporcionar conjuntos de datos de alta calidad y efectivos a los socios colaboradores.
Scaling Law sigue funcionando, pero la velocidad ha disminuido, juzga Huang Haiqing. Él cree que en el futuro, más allá de los modelos de lenguaje a gran escala, comenzará a explotar la aplicación de modelos multimodales, y los modelos de negocio ToB (empresarial) y ToG (gobierno) se convertirán en la principal dirección de desarrollo de las empresas de modelos a gran escala. Muchas empresas de modelos a gran escala están cambiando hacia categorías industriales, y en el futuro, en el mercado chino, solo sobrevivirán menos de diez empresas de modelos a gran escala.
En sectores específicos, considera que actualmente las finanzas, la educación, la atención médica y la industria han abrazado prioritariamente los grandes modelos. En áreas clave como la conducción autónoma, la inteligencia encarnada, la inteligencia científica, también se están aplicando activamente grandes modelos. Con el paso del tiempo, la industria del transporte, el comercio minorista y otras industrias también aplicarán grandes modelos. Esto también generará una mayor y mejor calidad de demanda de corpus en la industria vertical. Para los modelos de razonamiento, también es necesario construir un proceso de razonamiento sobre los datos originales, lo que plantea nuevos requisitos para la producción de corpus.
En la recopilación y producción de datos de corpus, Huang Haiqing también sugiere mantenerse al día con la ley de derechos de autor, y realizar algunas actualizaciones en la definición razonable del alcance de los datos de corpus para inteligencia artificial y entrenamiento de modelos grandes.
"Esto no pretende cambiar el pasado (de las reglas), solo agregar y actualizar, creo que este es un camino más adecuado y manejable", dijo Huang Haiqing. "En el campo de la inteligencia artificial, modelos grandes y datos de corpus, las leyes de derechos de autor anteriores estaban destinadas a las personas, cuando se entrena con datos de corpus, si se mide el estándar de aprendizaje automático con los estándares anteriores, puede que no sea tan apropiado. Además, este problema ya ha afectado el costo de adquisición de corpus de empresas de modelos grandes y el riesgo legal."
Él sugirió acelerar la definición de reglas razonables para el uso de grandes conjuntos de datos de modelos de lenguaje, promover la aplicabilidad de la "minería de texto y datos" en el campo de la preformación; promover el uso razonable de datos para el aprendizaje automático en el país, equilibrar los derechos de autor y las necesidades de desarrollo tecnológico, y abordar el problema de la difícil autorización; el gobierno debe promulgar políticas de estímulo, apoyar a las empresas de datos de modelos de lenguaje para fortalecer el desarrollo de plataformas de herramientas automatizadas, reducir el costo de los datos de los modelos de lenguaje; crear una plataforma de herramientas automatizadas de limpieza y etiquetado de IA, reduciendo el costo de los datos de los modelos de lenguaje; acelerar la investigación legal sobre el alcance de la protección de los productos generados por inteligencia artificial, y establecer reglas claras sobre la propiedad y responsabilidad de los productos generados por inteligencia artificial.
黄海清 también señaló que en el futuro, la IA dominará la anotación y limpieza de datos, y la anotación de datos se transformará de una industria intensiva en mano de obra a una basada en conocimientos y tecnología.
(Fuente del artículo: Interface News)
Fuente: East Money
Autor: Noticias de la interfaz