Bilgi İşlem Gücü之后,高质量语料数据集或决定大模型能力上限

robot
Abstract generation in progress

21-23 Şubat tarihleri arasında Şangay, 2025 Küresel Geliştirici Konferansı (Global Developer Conference, kısaca GDC) düzenleyecek. Şangay İletişim ve Bilgi Teknolojileri Komisyonu, Hugging Face, Microsoft Geliştirici Topluluğu, CSDN, Alibaba Magic Stack Topluluğu, Linux Vakfı, ARPA Vakfı, Huawei Topluluğu gibi yurt içi ve yurt dışından 100 geliştirici topluluğunun bu yılki GDC'ye katılacağını duyurdu. Büyük modeller, Bilgi İşlem Gücü, dil modellemesi, araçlar, yazılım platformları gibi temel teknolojilere odaklanacak etkinlikte, katılımcı geliştirici grupları donanım geliştirme, bulut bilişim, büyük veri, Nesnelerin İnterneti, yapay zeka, robotlar, blok zinciri ve Metaverse gibi alanları kapsıyor.

Shanghai Kupas Technology Co., Ltd. is one of the companies participating in this conference. Kupas is a platform-type enterprise specializing in artificial intelligence corpus data established according to the requirements of the Shanghai Municipal Party Committee and Municipal Government. The company is positioned as a professional functional corpus service operation platform, dedicated to providing low-cost, high-quality corpus data services for basic models, vertical models, and small and medium-sized innovative entrepreneurs.

"Takımımız Çin'de Yeni Yıl'ın dördüncü gününden bu yana hiç dinlenmedi ve DeepSeek'in yenilikleri üzerinde araştırma yapıyor ve takip ediyor." Kupas CEO'su Huang Haiqing Interface News'e DeepSeek'in ansızın ortaya çıkmasının AI endüstrisini hem heyecanlandırdığını hem de endişelendirdiğini belirtti. Endişenin odak noktası, mevcut büyük modellerin neden bu kadar çok miktarda fon yatırdığı halde DeepSeek'in başarılarını elde edemediği konusunda."

O, DeepSeek'in başarısının temelinde, orijinal algoritmanın yeniliğinin yanı sıra yüksek kaliteli dil bilgisi veri setinin kullanılmasının da olduğunu düşünüyor, bu şekilde Bilgi İşlem Gücü ve veri tasarrufu sağlanabilir, bu da Çin'in büyük model endüstrisine 'kavisli yol sollaması' için bir yol gösterir. Huang Haiqing, büyük modellerin şu anki gelişim durumuna göre, yüksek kaliteli dil bilgisi veri setinin büyük modellerin yeteneklerinin üst sınırını belirleyeceğini ve yüksek kaliteli dil bilgisi kaynağının büyük model şirketlerinin eğitim maliyetini büyük ölçüde azaltabileceğini belirtti.

O, Kupath has already fully launched the industry corpus construction in the fields of embodied intelligence, finance, manufacturing, education, medical care, entertainment, urban governance, etc. The corpus operation 1.0 platform has been put into operation, and it is accelerating the layout from the real world to the simulation and simulation to the data synthesis platform 2.0. Currently, the company has connected more than 50 corpus ecological partners, reducing the cost of large models by providing high-quality and effective datasets to partners.

Scaling Law hala etkisini sürdürüyor, ancak hızı yavaşladı, Huang Haiqing yargılıyor. Gelecekte, dil tabanlı büyük modellerin ötesinde, çoklu modlu büyük modellerin patlamaya başlayacağını düşünüyor ve ToB (iş) ve ToG (hükümet) iş modellerinin büyük model şirketlerinin ana gelişme yönü haline geleceğini düşünüyor, şu anda birçok temel büyük model şirketi endüstriye doğru yöneliyor, gelecekte Çin pazarında hayatta kalabilecek temel büyük model şirketinin sayısı ondan az olacaktır.

Belirli endüstrilerde, şu anda finans, eğitim, tıbbi bakım ve endüstrinin büyük modelleri benimsemeye öncelik verdiğine inanıyor. Otonom sürüş, somutlaşmış zeka ve bilimsel zeka gibi kilit alanlarda büyük modeller de aktif olarak uygulanmaktadır. Zamanın ilerlemesiyle birlikte ulaşım sektörü, perakende sektörü ve diğer sektörler gelecekte büyük modeller uygulayacaktır. Buna bağlı olarak, dikey endüstri külliyatı için daha büyük ve daha kaliteli bir talep var. Çıkarım modeli için, çıkarım sürecinin orijinal veriler üzerinden kurgulanması da gereklidir ve bu da derlem üretimi için yeni gereksinimler ortaya koymaktadır.

Derlem verilerinin toplanması ve üretilmesi açısından Huang Haiqing, telif hakkı yasasının zamana ayak uydurması ve yapay zeka ve büyük model eğitimi için derlem verilerinin makul tanımında bazı güncellemeler yapması gerektiğini de önerdi.

Bu, geçmişi değiştirmek değil, sadece eklemek ve güncellemek anlamına gelir, bu benim uygun ve uygulanabilir bulduğum bir yol. Huang Haiqing şöyle diyor: 'Yapay zeka, büyük modeller, dil verileri alanında, önceki telif hakkı yasaları insanlar içindi, büyük modeller dil verilerini eğitirken, makine öğrenme standartlarını geçmiş standartlarla ölçmeye devam ederse, o zaman bu çok uygun olmayabilir. Dahası, bu sorun büyük model şirketlerinin dil verisi satın alma maliyetlerine ve hukuki risklerine etki etmiştir.'

O, büyük model dil verilerinin uygun kullanım kurallarını hızlandırarak, "metin ve veri madenciliği"nin önyükleme alanında kullanımını teşvik etmek için öneride bulundu; yerel olarak makine öğrenimi için verilerin uygun kullanımını teşvik etmek, telif hakkı sahiplerinin hakları ile teknoloji gelişiminin ihtiyaçlarını dengelemek, yetkilendirme zorluğunu çözmek; hükümetin teşvik politikaları çıkarması gerektiğini önerdi, dil verileri şirketlerinin otomasyon araç zinciri platformlarının geliştirilmesini desteklemek, dil verilerinin maliyetini düşürmek; AI otomasyon temizleme ve işaretleme araç zinciri platformu oluşturarak dil verileri maliyetini düşürmek; yapay zeka tarafından üretilen nesnelerin koruma kapsamının hızla yasal olarak araştırılmasını hızlandırmak, kuralları açık olan yapay zeka tarafından üretilen nesnelerin mülkiyetini ve sorumluluğunu belirlemek.

Huang Haiqing ayrıca, gelecekte AI'nın veri etiketlemesini ve temizlemesini yöneteceğini belirtti. Veri etiketleme, emek yoğun endüstriden bilgi ve teknoloji odaklı bir dönüşüme doğru ilerleyecek.

(Makale kaynağı: Jiemian News)

Kaynak: Doğu Servet Ağı

Yazar: Interface News

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • 1
  • Share
Comment
0/400
No comments
  • Pin