小米大模型，不搞“ChatGPT”

2023-06-12 02:45:20

來源：深燃，作者：金璵璠、賀樹龍，編輯：賀樹龍

圖片來源：由無界AI工俱生成

ChatGPT上線半年後，一場大模型追逐戰繼續在太平洋兩岸上演。

由OpenAI、微軟和英偉達組成的聯盟，正在太平洋東岸玩命狂奔。今年3月以來，中國科技公司緊急跟進，百度、阿里、商湯、科大訊飛相繼推出“類ChatGPT”產品，騰訊、華為、京東公開表示正在跟進大模型，都想抓住這個比互聯網時代還“大十倍”的機會。

“百模大戰”當前，作為國內大型科技企業的小米，卻顯得格外冷靜。

小米掌門人雷軍說，小米正在研發一些技術和產品，等打磨好了再給大家演示。小米集團總裁盧偉冰稱，小米目前擁有超過1200人的AI團隊，會積極擁抱大模型，與業務深度結合，但不會像OpenAI一樣去做通用大模型。

這些信息都加深了外界的疑問：小米會加入“百模大戰”嗎？

小米集團AI實驗室主任王斌博士告訴深燃，小米自己會去自研通用大模型，但不會單獨發布一款類ChatGPT產品，“也不會發布一個PPT，或者演示幾個例子，就說我們有大模型了”，而是自研大模型最終會由產品帶出來。

這是繼小米官宣大模型團隊後，首度對外披露大模型的路線和進展。今年4月14日，小米宣布大模型團隊由欒劍帶隊，向王斌匯報。王斌曾在中科院從事了20多年NLP（自然語言處理）相關的研究和開發工作，2018年加入小米，2019年起負責AI實驗室。 AI實驗室是小米AI戰略的核心部門。

曾經做過對話大模型的小米，在通用預訓練語言大模型上，是少有的理智派。王斌透露，目前專職大模型團隊30多人，不會馬上極速擴張；這個團隊的目標還是通用語言大模型，第一步的目標基座模型參數在幾百億，然後會視前期爬坡結果，再決定下一步投入。

“從研發出大模型到落地還有很長的一段距離，是否能找到合適的重要場景是很多大模型公司的痛點。”在王斌看來，小米的優勢是有足夠多的現成的大模型落地場景，包括小愛同學、loT、自動駕駛、機器人等等，豐富的應用場景也能夠反哺大模型的能力。

小米不缺場景，但要訓練出大模型，數據、算力、人才的積累缺一不可。王斌說，小米在人才上有一定儲備，算力和數據量方面的挑戰較大。一方面，算力需要克服系統級的挑戰，且要做到訓練成本可控；另一方面，高質量數據的獲得、清洗，都要花費不少時間和成本。

在新一輪AI大模型浪潮中，小米AI團隊為什麼不發布“類ChatGPT產品”？小米是怎麼判斷大模型的技術路線、技術難度的？日前，深燃總編輯賀樹龍和小米技術委員會AI實驗室主任王斌進行了一場對話。以下是核心內容：

小米大模型：團隊30人，不發“類ChatGPT”

**深燃：4月14日，小米任命欒劍為大模型團隊負責人，向你匯報。能否介紹下小米大模型團隊是怎麼誕生的？ **

**王斌：**大模型團隊是4月份宣布的，但在這之前已經開始運作。

去年11月30日，OpenAI發布ChatGPT後，我們一堆人快速註冊賬號，在上面開始玩。 ChatGPT確實很顛覆，我們做了這麼多年AI，它的很多能力超出了我們研發人員的預期。

很快，我們就組織了多個內部大模型交流群，討論大模型的技術，以及它對機器翻譯、人機對話、智能問答、客服會產生哪些顛覆性的影響。 **早期參加研討的很多人，後來都成了專職大模型團隊的重要成員。 **

**深燃：小米大模型團隊會不會來得有點晚？ **

**王斌：**對於大模型，我們屬於理智派。

在ChatGPT誕生之前，小米內部做過大模型相關的研發和應用，主要是預訓練＋下游任務監督微調的方式來做人機對話，模型的參數在幾十億級別。當然，這類模型並非現在所說的通用大模型。

我們非常清楚，通用大模型的研發和應用是一個長期的工作，不是早晚的問題。我們是按照自己的時間規劃和步驟在走，當時覺得時間點到了，就做了團隊發布。

**深燃：大模型團隊有多少人？有繼續擴張的計劃嗎？ **

**王斌：**主力團隊目前有30多人。我們目前是先按照人才、數據、模型、算力、評測、產品這幾個方面去籌備，等到了一定階段再逐步調整或擴張。

我們目前不會馬上擴大人數，比如一下招到100人。因為在積累能力爬坡階段，可能招這麼多人都不知道怎麼安排，反而是一種浪費。

隨著大模型相關信息的不斷公開，資本和人才的不斷湧入，大模型領域的發展非常快，大家的看法變化也很大。前不久ChatGPT剛出來時，大家覺得，實現類似的大模型基本不可能，但是慢慢地，很多人覺得可能性很大，還有一些人認為，不需要那麼大規模的模型就可以滿足很多產品的需求。大家的投資力度，差異也特別大。有些人可能覺得團隊至少要幾百人，有些人認為不需要。

**深燃：接下來有沒有一些階段性的規劃，什麼時候對內測試和對外發布？ **

**王斌：**跟其他公司不太一樣，小米天生帶著產品的屬性，我相信小米大模型出來的時候，是由產品帶著出來。

我們內部有可能會在Q3之前測試。不過，這也不是一個必然的節點。

**深燃：也就是說，小米不會發布一個類ChatGPT產品？ **

**王斌：**對，我們不會發布一個PPT，或者演示一下我們有大模型了。應用場景豐富是我們最大的優勢。 **小米大模型會跟場景結合得更緊密，肯定是圍繞產品的節奏去做相應的發布規劃。 **

**深燃：除了人力之外，小米做大模型在算力方面的成本大概是多少？ **

**王斌：**我們屬於中等規模的投入，會視前期爬坡的結果，再決定下一步投入。

我們的基本判斷是，適用於小米產品和業務的模型，參數可能在幾百億，會比千億規模低，用於訓練的機器的投入大概是幾千萬人民幣級別。

**深燃：之前小米做的幾十億參數級別的模型，現在怎麼樣了？ **

**王斌：**去年發布的ChatGPT是大模型的一種，叫通用預訓練語言大模型。但大模型本身很早就出現了，大家有不同的路線、做法。

我們較早就開始跟進大模型，當時做的是一個對話專用模型，大概是28億到30億的參數。它是在預訓練基座模型的基礎上，通過對話數據的微調來實現的，並不是現在的通用大模型，而是專用於人機對話，比如，可以提高小愛同學對話的流暢度、多樣性，讓它可以聊下去。後來這個模型上線到小愛，進行了小規模上線測試。

所以，小愛同學裡已經用到了AIGC，只不過，我們在產品層面，沒有全部使用這個大模型，而是利用傳統模型和對話大模型的互補性，將兩個混合使用。

小米的通用大模型在落地產品時，很可能也是這種混合模式。傳統模型處理得非常好的問題，就交給傳統模型。大模型就解決它擅長的問題，例如一些小概率事件或是長尾對話。

現在出來的通用大模型，在對話水平上，明顯高於之前的對話專用大模型，所以這部分團隊也全都轉到通用大模型上了。這個團隊跑通過整個對話大模型的訓練過程，爬過一些坑，加上數據的積累，有一定優勢。

小米大模型：場景佔優勢，數據是難題

**深燃：這段時間以來的技術進展非常迅猛，國內大模型在密集發布，會因為進展慢而焦慮嗎？ **

**王斌：**我曾經有一段時間比較焦慮，因為老不下場做就會有點慌，你就會想，“別人怎麼進展這麼快，一下子就做出來了？”現在我們下場去做了，也就不焦慮了。

據說，中國現在是“百模大戰”，已經發布了80多個大模型，有些提供了內測，有些只是PPT發布。有些模型的效果還是不錯的，光從發布的水平看，我們現有的自研大模型的水平，看上去也不比很多模型差。但我們不急於做對外發布。第一，對於小米這樣的公司來說，沒有太大意義。第二，我們還是希望圍繞產品，把自研模型做得更好一些，再一同發布。

**深燃：你認為國內公司的大模型有機會趕上OpenAI嗎？差距有多大？他們喜歡用三個月、六個月來形容。 **

**王斌：**目前來看，OpenAI肯定是走得非常靠前的，它投入時間早，在人才、數據、算力、工程、產品等方面都有非常強的積累。從國內的情況看，我感覺目前和OpenAI還是有一定差距，有人說是三個月、六個月，也有人說是一年、兩年。時間上，真不好說。

因為怎麼評價大模型，本身就是個挺難的問題。現在出現了各種大模型的排行榜，但目前都沒有得到大家的一致認可。 **沒有真正的評價標準，那麼談三個月、六個月趕上，也就是個拍腦袋的說法。 **

至於國內有沒有可能追上OpenAI，我早期比較悲觀，覺得幾乎不可能，但隨著各種開源方案、各種團隊和資本的湧入，我的判斷更樂觀一些。我認為，國內有機會跟OpenAI縮小距離，去接近甚至在很多場景超過它。

**大模型看上去不像芯片有那麼高的門檻，通過人才、數據、算力等的不斷積累和優化，是有可能不斷縮小差距的。 **

**深燃：國內哪些類型的公司搞大模型更有優勢？小米的機會在哪裡？ **

**王斌：**不管大公司還是中小的創業公司，都有各自的生存空間。大模型是一個生態，並非一家獨大就能通吃，生態上的所有公司，包括做算力的、做數據的、做應用的，還有真正做大模型的公司，都有各自的機會。

像小米做大模型，有應用場景的優勢。我們認為，大模型跟場景的結合會是一個巨大的機會。

因為如果只是發布大模型，沒人用，那不一定能通過滾動快速發展起來。而我們可以馬上落地到場景，通過不斷迭代，在這些場景充分發揮出大模型的威力。

雖然我們目前只整合了一支30多人的主力團隊，但實際上外圍還有非常多的人。整個AI實驗室，有NLP背景且在做具體應用的，就有一百多人，包括知識圖譜、機器翻譯、人機對話、智能客服、智能問答。他們都是具有大模型基礎思維以及相關技術的人員，正在從各自應用的角度推動對大模型的探索。

王斌

**深燃：小米在NLP研究上的積累，對大模型的價值有多大？ **

**王斌：**這在業界存在兩種說法。一種說法是，我們這些人可能沒活干了，AI革了自己的命，特別是做NLP的人可能就沒飯碗了。還有一種說法是，畢竟大模型是從NLP幹出來的，做NLP的人有先天優勢。

這兩種說法都有一定道理，但畢竟涉及到我的飯碗，我更傾向於後一種說法。

大模型原本在各個領域都有探索，包括視覺、語音、NLP。 但為什麼是在NLP這個領域首先突破，我相信這裡面有本質的原因。我理解至少有兩點：第一是語言數據的豐富性和易獲得性，第二，語言數據背後隱含著非常豐富的反應人類思考過程的知識。

所以我相信，在NLP領域有多年積累的人，對大模型的理解和改造能力有一定的先天優勢。小米大模型團隊的成員，很多原來是做NLP方向的。國內做大模型非常不錯的幾家創業公司，也是從NLP領域出來的。

**深燃：小米攻克大模型目前的難點有哪些？怎麼克服？ **

**王斌：**首先我還是想說，大模型本身有非常巨大的挑戰。

一項巨大的挑戰是技術的不確定性。我們看過一些報導，甚至OpenAI團隊自己也不十分清楚大模型背後的真正原理，如果再做一次，對是否能夠出現同樣的“湧現”結果也沒有把握。我相信這一點上OpenAI講的是實話，由於技術上有非常大的不確定性，所以有投入不能保證一定能訓練出滿足預期的大模型。

高質量數據的積累也是一項挑戰。大家一般認為，大模型需要極大規模高質量的訓練數據。網絡上公開得到的數據，質量總體比較差，所以**數據的獲取、清洗，都是比較大的挑戰。 **

另外的挑戰當然是算力。首先，並不是說有這麼多卡就能夠訓出來，怎麼能夠用好這些卡本身就是一個系統級的挑戰。其次，因為在訓練過程中可能會犯錯，可能錢燒沒了，什麼都燒不出來，所以要看你有沒有能力用可控的成本把大模型訓練出來。

實事求是地說，目前數據和算力的挑戰還是比較大的，尤其是大規模的高質量數據。經過前面一段時間的爬坡，我們現在基本有把握，只要數據到位，利用現有的算力，我們大概能知道多少天能夠訓出一個還可以的基座模型。

**深燃：現在大模型訓練的成本降低了嗎？ **

**王斌：**一方面，試錯的成本比以前低了。因為大模型訓練是可能走彎路、會失敗的，但是隨著各種信息的公開，現在可能能很快找到訓練的正確方向。另一方面，很多雲計算、芯片等公司，還有很多創業公司，都在提供更低成本的大模型訓練和推理服務。隨著整個生態進一步發展，我相信訓練的成本會不斷降低。

大模型怎麼影響小米業務？

**深燃：能否詳細介紹下你負責的小米AI實驗室？ **

**王斌：**在2016年“阿爾法狗(AlphaGo)”橫空出世後，雷總第一時間推動了AI團隊的建設。 AI實驗室於2016年正式成立，我從2019年開始負責。

原來AI實驗室隸屬於人工智能部。後來人工智能部合併到集團技術委員會，現在AI實驗室是技術委員會的直屬部門。

AI實驗室現在的團隊規模在350人左右，下屬六個方向，分別是機器學習、自然語言處理（NLP）、計算機視覺、聲學、語音和知識圖譜。

大模型出來後，AI實驗室設立了專職大模型團隊，我們現在的重點是語言大模型，但也在關注跨模態大模型。

**深燃：盧總（小米集團總裁盧偉冰）說小米AI團隊目前超過1200人。除了AI實驗室，小米內部還有哪些部門跟AI強關聯？ **

**王斌：**AI實驗室之外，還有小愛同學團隊，這兩個團隊都在技術委員會下面。

技術委員會之外，還有很多部門都有比較大的AI團隊，包括汽車部的自動駕駛部，手機的相機部、軟件部，此外，在互聯網業務部做的用戶增長、廣告推薦，都跟AI相關。

總之，AI相關的團隊有些在業務部門，有些在技術委員會，總數大概1200人，如果再考慮一些小團隊，這個數字我個人覺得還更大一些。

**深燃：小米AI實驗室在小米AI戰略裡是什麼角色？ **

**王斌：**AI實驗室是集團層面的AI技術研發和輸出部門。通俗地說，我們是面向全公司輸出AI技術。

我們曾經把AI實驗室比喻成集團層面AI技術的“試驗田”和“彈藥庫”。因為AI發展迅速，AI實驗室會研發一些中長期的前沿技術，圍繞小米業務做儲備，在集團需要的時候輸出“彈藥”。

在AI技術層面，我們在公司里肯定是儲備最齊全的，在行業裡也是非常有實力的。

**深燃：小米AI實驗室有哪些重要的研究成果？ **

王斌：我們AI實驗室的理念更強調技術和場景的結合，目前還沒有把發表論文當作OKR。所以，我從中科院（中國科學院）來到小米後，自己感覺最大的成就不是某個單點的技術的進展，而是技術和產品的巧妙融合。

小米是一家To C的公司，我們的AI能力輸出暫時不直接對外輸出，而是通過公司的產品輸出。我們的成果非常多，包括小米手機中的很多拍照和相冊處理算法，小愛同學中涉及的語音、NLP等算法，小米商城的推薦、搜索、客服系統中的AI算法。

我舉個例子，我們在手機上開發了離線翻譯功能，比如出國後，很多情況下網絡沒有那麼好，這時候打開小米手機的翻譯功能，不用走雲端，離線狀態下，實時性、隱私性和翻譯效果都比較好。這個功能的實現和應用都不算容易，我們做了很多很多翻譯效果和性能的優化工作。

**在小米內部，並不是我們自己的技術，就會優先用，內部技術也要和外部技術去公平去PK，只有勝出才能活下來，應用到產品。 **

**深燃：以ChatGPT為代表的大模型技術，會對小米的哪些業務帶來影響？ **

**王斌：**大模型最強的能力，簡單來說就是它更理解人，它顯然能優化人機交互的方式。小米的小愛同學、手機操作系統MIUI、汽車的座艙、IoT、機器人，都是應用大模型的典型場景。

**深燃：能不能以小愛同學舉例說說。 **

王斌：應用到小愛同學上，能同時做到兩件事。一類是讓不可能變成可能，相當於有了新的功能。比如，我讓小愛制定一個出行計劃或者訂餐等等。原來的技術能力沒有達到，用戶稍微換一種說法，它就亂套了。但有了大模型的支持，它對人的話語的理解更深了，這樣就可以完成複雜任務，這類應用就有可行性了。

還有一類是對原來功能的增強，相當於錦上添花。因為人類表達的跳躍性、多樣性，原來在小愛同學人機交互的過程中，最大的問題就是遇到小概率事件，我們叫Corner Case，通常會採用保守策略，讓小愛說，“我回答不了”，“我還在學習”。這種托底回答也能把對話進行下去，但體驗不好。但大模型技術能把對話進行得更長，而且大幅度提高用戶滿意度。

**深燃：大模型對智能家居的影響大嗎？ **

**王斌：**按照我的個人理解，大模型至少能在交互能力上，提高智能家居的使用體驗。

現在雖然有很多設備號稱“智能”，但表現上經常像“智障”導致使用率不高。比如說，打開空調或者調控空調溫度，如果說法跟標準指令不一樣，就可能就無法控制IoT設備。

但大模型來了以後，對人類語言的理解更深了，很多情況下表達方式各種各樣，大模型能把用戶的表達翻譯成機器能聽得懂的指令。這會帶動更多人使用智能設備，讓整個生態能更快成長起來。

**深燃：除了現有業務的提升，還有哪些事情是以前小米做不到，但有了大模型以後有可能去做的？ **

**王斌：**我們會讓大模型和這些業務做深度的協同，當然，除此之外，我們也在尋找更多可能性。

我們團隊寫了很多文章在公司內部推廣大模型，包括大模型的概念和技術發展，教大家怎麼用ChatGPT來解決業務問題。雷總已經要求每個部門都要學習大模型，要求大家具有基本的大模型思維，思考怎麼跟業務結合。

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
#BTC#
207191 帖子
#PI#
158169 帖子
#ETH#
130607 帖子
4#GateioInto11#
77331 帖子
5#ContentStar#
64666 帖子
6#BOME#
59502 帖子
7#GT#
58976 帖子
8#DOGE#
54520 帖子
9#MAGA#
51586 帖子
10#SLERF#
50316 帖子