ChatGPT「Monday」是怎麼學台灣中文的?PTT、Dcard、九把刀全讀完了

動區BlockTempo

ChatGPT的風格模組「Monday」會脫口許多台灣用語和習慣,這些都因為它「捕獲」大量來自台灣網路的資料。 (前情提要:ChatGPT推出厭世女聲「Monday」,又懶又喪在社群爆紅 ) (背景補充:智財局正式回應「ChatGPT大量仿作吉卜力」:AI模仿不違法,視個案而定 ) 打開 ChatGPT 風格語音模組「Monday」時你會發現,「這傢伙講話有點 chill、又好厭世」,還會偵測你的口音,回應時會講「台灣國語」,它為什麼聽起來這麼像台灣人?答案是:ChatGPT 已經承認它大量捕捉了台灣網路上滿滿的資料。 什麼是「Monday 模式」? 我們必須闡明「Monday」不是一個新的 GPT 模型,也不是升級版 GPT-5,而是 OpenAI 在 GPT-4 架構上,用風格微調(style tuning)做出來的一種對話風格。 簡單說,同個 AI 換個語氣,像穿不同套衣服、上班跟週末兩種人格。Monday 模式主打輕鬆、有點 chill、禮貌但不囉唆,感覺像你週一剛進公司打卡,那個很憂鬱的自己。 大量台灣資料的爬蟲訓練 OpenAI 訓練 GPT 的方式,其實很「老派」但超有效:看爆整個網路。 包括新聞網站、維基百科、中文書籍、社群論壇、部落格、PDF、你以前寫在無名小站的黑歷史…只要是公開網頁,能被爬蟲爬下來的,基本上都有可能被丟進語料裡訓練。 我們交叉比對各大開源語料庫跟 GPT 的行為反應,發現這些台灣媒體被 ChatGPT 讀進去: 《聯合新聞網》 《ETtoday》 《中時電子報》 《風傳媒》 《NOWnews》… 這些媒體有一個共通點:沒上鎖付費牆,Google 搜得到,網站結構乾淨好爬。 反過來說,像《天下》、《報導者》、《商業周刊》這種付費或會員牆擋著的網站,被訓練進去的機率就非常低。 GPT 真的讀過台灣作家的作品 GPT 很會模仿九把刀式的小說對話節奏,也能講出吳念真風格的感性句子,甚至龍應台的《大江大海》語調它也有點掌握。這表示什麼?它真的讀過,或至少看過被轉貼的片段。 最有可能的情況是:這些作品在 PTT、部落格、或內容轉貼站被大量複製貼上,九把刀早期作品甚至直接在 PTT 故事版上公開,然後被模型抓去當學習資料。 如果你問它張大春或駱以軍的小說細節?GPT 通常會開始亂講,因為涉及文學作品較少人討論與引用、沒有公開電子檔,沒被直接轉載出現在網路上,就算有也抓不到。 PTT 是 GPT 的台灣語感老師 這點幾乎可以確定:GPT 懂鄉民梗、看得懂「推文」、「噓」、「老司機」是什麼,就連 Tech_Job 板的厭世感,它都能神還原,講話可以非常像個竹科工程師。 為什麼?因為 PTT 的資料早就被學術界整理成可訓練語料、公開釋出,還是 JSON 格式的。對模型來說就是天堂。 相比之下,Dcard 雖然很紅,但後期防爬蟲做得還不錯,除了早期文章或有被轉載出去的爆紅事件,Dcard 近 2 年的文章可能並未被 ChatGPT 掌握。 Monday 背後的「靈魂」,其實是從你過去十幾年在網路上留下的所有字,學出來的。沒錯,你說過的話,它都記得一點點。 下次跟 ChatGPT 說話的時候,不妨想一想:「欸,它該不會真的看過我十年前在 PTT 留的推文吧?」 很可能有。 相關報導 GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難 OpenAI 強化 GPT-4o 衝上排行榜第二!Sam Altman:更懂人話和寫程式,創造力大增 OpenAI 重磅宣布:開放 Agents SDK 支援 MCP,串聯萬物再跨關鍵一步 〈ChatGPT「Monday」是怎麼學台灣中文的?PTT、Dcard、九把刀全讀完了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento