Một nhóm GPT Image 2 của người Hoa bị tiết lộ, 13 người đã lập nên kỳ tích trong 4 tháng

GPT Image2 toàn mạng xã hội đều bàn tán, nhưng hiệu quả thực sự tại sao lại tốt như vậy?

Trưởng nhóm nghiên cứu陈博远 tiết lộ: kiến trúc nền đã được tái cấu trúc hoàn toàn.

Nhưng anh ấy lại từ chối trả lời có sử dụng mô hình khuếch tán hay kỹ thuật tự hồi quy hay không, chỉ bí ẩn mô tả nó là “mô hình chung” hoặc “GPT trong lĩnh vực hình ảnh”.

Một dòng tweet của 陈博远 còn tiết lộ, kể từ GPT Image 1.5 ra mắt vào cuối tháng 12 năm ngoái, chỉ trong vòng bốn tháng đã có sự cải tiến lớn như vậy.

Thành tựu đột phá như vậy, nhóm cốt lõi chỉ có 13 người.

Toàn bộ nhóm trưởng đã đăng tải bức ảnh gia đình AI của các thành viên.

Trong phần bình luận có cư dân mạng thán phục: sao toàn là người châu Á?

陈博远:Từ không biết Python đến Trưởng nhóm Nghiên cứu

GPT Image 2 thực sự là kiến trúc gì?

OpenAI e rằng sẽ không công bố trong một thời gian dài, nhưng qua quá trình học vấn của các thành viên trong nhóm có thể thấy được một số dấu vết.

陈博远 là Trưởng nhóm Nghiên cứu của nhóm, anh cùng với một thành viên khác là Kiwhan Song từng học tiến sĩ tại MIT dưới sự hướng dẫn của giáo sư Vincent Sitzmann.

Trong thời gian làm tiến sĩ, tác phẩm tiêu biểu của anh là Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, đã được chọn tham dự NeurIPS 2024.

Nghiên cứu này đề xuất phương pháp huấn luyện tạo chuỗi mới hoàn toàn Diffusion Forcing, kết hợp khuếch tán nhiễu độc lập theo từng token với dự đoán token kế tiếp có tính chất nhân quả, hòa quyện khả năng tạo chuỗi dài của mô hình tự hồi quy và lợi thế hướng dẫn dài hạn của mô hình khuếch tán toàn chuỗi.

Trong thời gian thực tập tại Google, anh còn cùng đồng tác giả công bố SpatialVLM.

Thông qua tự động xây dựng bộ dữ liệu suy luận không gian 3D quy mô internet (10 triệu hình ảnh, 2 tỷ cặp QA), giúp mô hình thị giác ngôn ngữ có khả năng suy luận không gian định lượng / định tính, có thể xuất ra các giá trị chính xác như khoảng cách mét, kích thước, phương hướng từ một hình ảnh 2D duy nhất.

Nghiên cứu này đã áp dụng suy luận không gian theo chuỗi tư duy vào lĩnh vực trí thông minh thể chất.

Trong thời gian thực tập tại Google, kỹ thuật tinh chỉnh lệnh do anh phát triển còn được Gemini 2.0 sử dụng sau này.

Trong thời trung học, khi tham gia trại hè nghiên cứu, anh còn chưa biết cú pháp Python cơ bản, lúc đó người quen của anh là nhà nghiên cứu cấp cao của DeepMind, 夏斐, đã giới thiệu anh vào thế giới AI.

夏斐 hai lần mời anh đến DeepMind thực tập chất lượng cao, những trải nghiệm này giúp 陈博远 tích lũy kinh nghiệm vận hành huấn luyện mô hình quy mô lớn, đồng thời cung cấp góc nhìn quý giá về yêu cầu dữ liệu của hệ thống đa mô thức.

Sau khi tốt nghiệp tiến sĩ, vào tháng 6 năm 2025, 陈博远 gia nhập OpenAI, nhanh chóng trở thành một trong năm thành viên cốt lõi của nhóm tạo hình GPT, phụ trách toàn bộ quá trình huấn luyện mô hình tạo hình GPT, đồng thời cũng là thành viên của nhóm tạo video Sora.

Trong buổi trình diễn, anh đã làm poster cho quê hương Vô Tích của mình. Sau đó làm poster tiếng Hàn cho đồng đội đến từ Seoul, và poster tiếng Bengal cho đồng đội đến từ Bangladesh. Mỗi poster đều chính xác từng chữ.

Jianfeng Wang của Đại học Khoa học và Công nghệ Trung Quốc:Giúp AI hiểu biết thế giới qua hình ảnh sống

Jianfeng Wang, tốt nghiệp tiến sĩ tại Đại học Khoa học và Công nghệ Trung Quốc, phụ trách một khả năng khiến người ta kinh ngạc khác trong nhóm GPT Image 2: tuân thủ lệnh và hiểu thế giới.

Mô hình cũ vẽ ra đồng hồ luôn chỉ 10:10, bắt nguồn từ hình quảng cáo đồng hồ trên mạng, gần như tất cả đều là 10:10.

Nguyên nhân là các nhà sản xuất đồng hồ đã làm thí nghiệm với các nhà tâm lý học, cho rằng điều này giúp kích thích người tiêu dùng muốn mua đồng hồ hơn.

Anh khiến mô hình mới vẽ ra đúng giờ 2:25, 3:30, 9:10, 7:45.

Chỉ là món khai vị.

Các bố cục không gian phức tạp hơn, như quả táo ở trung tâm, cốc ở bên phải, sách ở trên, máy ảnh ở bên trái, bóng rổ ở phía dưới. Mô hình đều thực hiện chính xác.

Trước khi gia nhập OpenAI, anh đã làm việc gần 9 năm tại Microsoft. Trong thời gian đó, anh đã hợp tác với nhóm của OpenAI về dự án DALL·E 3.

Anh đã công bố nhiều bài báo học thuật trong lĩnh vực thị giác máy tính, nghiên cứu có thể bao gồm phân loại hình ảnh, phát hiện mục tiêu, phân đoạn ngữ nghĩa, và học biểu diễn thị giác.

Khả năng hiểu biết kiến thức thế giới đã được nâng cao rõ rệt, có thể hiểu đúng nội dung ngữ nghĩa và cấu trúc chức năng của đối tượng.

Trong video trình diễn cuối, Jianfeng Wang nói: GPT Image 2 đang xóa bỏ khoảng cách giữa ý định của bạn và sản phẩm của mô hình.

Làm đúng những gì bạn muốn, mô hình sẽ cung cấp đúng như vậy.

Yuguang Yang:Tạo biểu đồ thông tin phức tạp chính xác cao

Yuguang Yang đã trình diễn khả năng tạo biểu đồ thông tin và PPT trong buổi ra mắt GPT Image 2.

Chỉ trong 75 trang của bài báo GPT-3, anh đã tự động tạo ra 7 slide trình chiếu.

Kinh nghiệm của anh có thể nói là phong phú nhất trong nhóm, mỗi lần chuyển đổi công việc đều là lĩnh vực khác nhau, nhưng đều tập trung vào học máy.

Anh học kỹ thuật tại Trường Kỹ thuật Zhuke của Đại học Zhejiang, trong thời gian học tiến sĩ tại Đại học Johns Hopkins, anh nghiên cứu về hóa học tính toán, vật lý và học máy.

Công việc đầu tiên của anh là nhà phân tích định lượng, trong thời gian làm nghiên cứu viên tại Tsinghua, anh đã nghiên cứu về học tăng cường và thuật toán điều khiển cho robot nano.

Sau đó, anh làm nghiên cứu về Alexa tại Amazon.

Rồi làm việc tại Microsoft về hiểu và truy xuất truy vấn tìm kiếm Bing, và hiểu tài liệu.

Sau khi gia nhập OpenAI đầu năm 2025, ngoài tạo hình ảnh, anh còn tham gia dự án trí tuệ nhân tạo ChatGPT.

Anh giới thiệu khả năng tạo biểu đồ thông tin của GPT Image 2 trên tài khoản cá nhân, có thể giúp các nhà khoa học tiết kiệm rất nhiều thời gian.

Anh còn nhắc nhở mọi người rằng, khi làm biểu đồ thông tin, đừng quên chọn chế độ suy nghĩ phù hợp.

Từ DALL·E đến GPT Image 2.0

Theo lời tự giới thiệu của thành viên nhóm Kenji Hata, GPT Image 1.0 chính là phần tạo hình ảnh của GPT-4o.

Có một người bắt đầu từ DALL·E và tham gia toàn bộ quá trình nghiên cứu đa mô thức của OpenAI.

Người đó chính là trưởng nhóm GPT Image 2.0, Gabriel Goh.

Từ năm 2019 gia nhập OpenAI, nghiên cứu ban đầu của anh tập trung vào lý thuyết, đặc biệt về khả năng giải thích và tối ưu hóa lồi.

Từ DALL·E bắt đầu chuyển hướng dần sang tạo hình ảnh.

Nhìn vào hồ sơ nghiên cứu của thành viên khác là Weixin Liang, nền tảng công nghệ của GPT Image 2 lại hé lộ một góc nhìn khác.

Trong thời gian thực tập tại Meta, anh đã có tác phẩm tiêu biểu là Mixture-of-Transformers, giới thiệu mô hình MoE giải pháp tách rời modal và attention tách rời, giảm đáng kể chi phí tính toán trong huấn luyện đa mô thức.

Anh tốt nghiệp tiến sĩ tại Stanford, cử nhân cũng tại Trường Kỹ thuật Zhuke của Đại học Zhejiang, nhưng muộn hơn Yuguang Yang vài năm.

Giống như 陈博远, Weixin Liang cũng tốt nghiệp tiến sĩ năm 2025 rồi gia nhập OpenAI, nhanh chóng trở thành thành viên cốt lõi của nhóm.

Các thành viên khác của nhóm GPT Image 2.0 còn có:

Ayaan Haque, trước làm tại Luma AI, tham gia huấn luyện mô hình nền video Dream Machine của Luma.

Bing Liang, làm việc hơn 5 năm tại Google, tham gia Imagen3, Veo, Gemini Multimodal, năm 2025 chuyển sang OpenAI nghiên cứu tạo hình ảnh.

Mengchao Zhong, cử nhân Đại học Giao thông Thượng Hải, thạc sĩ Đại học Nông nghiệp Texas, từng làm kỹ sư phần mềm tại Pinterest và Airtable, phụ trách sản phẩm đa mô thức tại OpenAI.

Dibya Bhattacharjee, Đại học Yale, huy chương đồng IPhO 2015, điểm cao nhất toàn cầu môn Toán và Sinh của CIE A-Level.

Kiwhan Song là người gia nhập muộn nhất tháng 10 năm 2025, ngoài nghiên cứu còn là bậc thầy về từ khóa, nhiều hình trình diễn chính thức đều do anh thực hiện.

……

Từ DALL·E ban đầu đến ngày hôm nay GPT Image 2.0, nhóm này đã lần lượt giải quyết được: vẽ ra được, rõ ràng, đẹp mắt, chính xác.

Dù nhân tài của OpenAI trong những năm gần đây có biến động lớn, nhưng OpenAI vẫn là nơi liên tục thu hút những người có cá tính, không giới hạn chuyên ngành, hoan nghênh đa lĩnh vực, tin tưởng nghiên cứu tự phát từ dưới lên.

Từ một nhóm nhỏ, sau khi có đột phá, công ty dồn nhiều nguồn lực hơn, đến khi thay đổi thế giới.

Một điều nữa

Ngày xưa, hình đại diện kiểu Ghibli do GPT-4o tạo ra theo phong cách Ghibli đã làm chấn động toàn thế giới.

Giờ đây, các thành viên nhóm GPT Image 2.0 đều đổi avatar thành kiểu quái dị này.

Vậy, từ khóa để tạo ra phong cách tranh này là gì? Các thành viên cũng đã công bố.

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim