Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Một nhóm GPT Image 2 của người Hoa bị tiết lộ, 13 người đã lập nên kỳ tích trong 4 tháng
GPT Image2 toàn mạng xã hội đều bàn tán, nhưng hiệu quả thực sự tại sao lại tốt như vậy?
Trưởng nhóm nghiên cứu陈博远 tiết lộ: kiến trúc nền đã được tái cấu trúc hoàn toàn.
Nhưng anh ấy lại từ chối trả lời có sử dụng mô hình khuếch tán hay kỹ thuật tự hồi quy hay không, chỉ bí ẩn mô tả nó là “mô hình chung” hoặc “GPT trong lĩnh vực hình ảnh”.
Một dòng tweet của 陈博远 còn tiết lộ, kể từ GPT Image 1.5 ra mắt vào cuối tháng 12 năm ngoái, chỉ trong vòng bốn tháng đã có sự cải tiến lớn như vậy.
Thành tựu đột phá như vậy, nhóm cốt lõi chỉ có 13 người.
Toàn bộ nhóm trưởng đã đăng tải bức ảnh gia đình AI của các thành viên.
Trong phần bình luận có cư dân mạng thán phục: sao toàn là người châu Á?
陈博远:Từ không biết Python đến Trưởng nhóm Nghiên cứu
GPT Image 2 thực sự là kiến trúc gì?
OpenAI e rằng sẽ không công bố trong một thời gian dài, nhưng qua quá trình học vấn của các thành viên trong nhóm có thể thấy được một số dấu vết.
陈博远 là Trưởng nhóm Nghiên cứu của nhóm, anh cùng với một thành viên khác là Kiwhan Song từng học tiến sĩ tại MIT dưới sự hướng dẫn của giáo sư Vincent Sitzmann.
Trong thời gian làm tiến sĩ, tác phẩm tiêu biểu của anh là Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, đã được chọn tham dự NeurIPS 2024.
Nghiên cứu này đề xuất phương pháp huấn luyện tạo chuỗi mới hoàn toàn Diffusion Forcing, kết hợp khuếch tán nhiễu độc lập theo từng token với dự đoán token kế tiếp có tính chất nhân quả, hòa quyện khả năng tạo chuỗi dài của mô hình tự hồi quy và lợi thế hướng dẫn dài hạn của mô hình khuếch tán toàn chuỗi.
Trong thời gian thực tập tại Google, anh còn cùng đồng tác giả công bố SpatialVLM.
Thông qua tự động xây dựng bộ dữ liệu suy luận không gian 3D quy mô internet (10 triệu hình ảnh, 2 tỷ cặp QA), giúp mô hình thị giác ngôn ngữ có khả năng suy luận không gian định lượng / định tính, có thể xuất ra các giá trị chính xác như khoảng cách mét, kích thước, phương hướng từ một hình ảnh 2D duy nhất.
Nghiên cứu này đã áp dụng suy luận không gian theo chuỗi tư duy vào lĩnh vực trí thông minh thể chất.
Trong thời gian thực tập tại Google, kỹ thuật tinh chỉnh lệnh do anh phát triển còn được Gemini 2.0 sử dụng sau này.
Trong thời trung học, khi tham gia trại hè nghiên cứu, anh còn chưa biết cú pháp Python cơ bản, lúc đó người quen của anh là nhà nghiên cứu cấp cao của DeepMind, 夏斐, đã giới thiệu anh vào thế giới AI.
夏斐 hai lần mời anh đến DeepMind thực tập chất lượng cao, những trải nghiệm này giúp 陈博远 tích lũy kinh nghiệm vận hành huấn luyện mô hình quy mô lớn, đồng thời cung cấp góc nhìn quý giá về yêu cầu dữ liệu của hệ thống đa mô thức.
Sau khi tốt nghiệp tiến sĩ, vào tháng 6 năm 2025, 陈博远 gia nhập OpenAI, nhanh chóng trở thành một trong năm thành viên cốt lõi của nhóm tạo hình GPT, phụ trách toàn bộ quá trình huấn luyện mô hình tạo hình GPT, đồng thời cũng là thành viên của nhóm tạo video Sora.
Trong buổi trình diễn, anh đã làm poster cho quê hương Vô Tích của mình. Sau đó làm poster tiếng Hàn cho đồng đội đến từ Seoul, và poster tiếng Bengal cho đồng đội đến từ Bangladesh. Mỗi poster đều chính xác từng chữ.
Jianfeng Wang của Đại học Khoa học và Công nghệ Trung Quốc:Giúp AI hiểu biết thế giới qua hình ảnh sống
Jianfeng Wang, tốt nghiệp tiến sĩ tại Đại học Khoa học và Công nghệ Trung Quốc, phụ trách một khả năng khiến người ta kinh ngạc khác trong nhóm GPT Image 2: tuân thủ lệnh và hiểu thế giới.
Mô hình cũ vẽ ra đồng hồ luôn chỉ 10:10, bắt nguồn từ hình quảng cáo đồng hồ trên mạng, gần như tất cả đều là 10:10.
Nguyên nhân là các nhà sản xuất đồng hồ đã làm thí nghiệm với các nhà tâm lý học, cho rằng điều này giúp kích thích người tiêu dùng muốn mua đồng hồ hơn.
Anh khiến mô hình mới vẽ ra đúng giờ 2:25, 3:30, 9:10, 7:45.
Chỉ là món khai vị.
Các bố cục không gian phức tạp hơn, như quả táo ở trung tâm, cốc ở bên phải, sách ở trên, máy ảnh ở bên trái, bóng rổ ở phía dưới. Mô hình đều thực hiện chính xác.
Trước khi gia nhập OpenAI, anh đã làm việc gần 9 năm tại Microsoft. Trong thời gian đó, anh đã hợp tác với nhóm của OpenAI về dự án DALL·E 3.
Anh đã công bố nhiều bài báo học thuật trong lĩnh vực thị giác máy tính, nghiên cứu có thể bao gồm phân loại hình ảnh, phát hiện mục tiêu, phân đoạn ngữ nghĩa, và học biểu diễn thị giác.
Khả năng hiểu biết kiến thức thế giới đã được nâng cao rõ rệt, có thể hiểu đúng nội dung ngữ nghĩa và cấu trúc chức năng của đối tượng.
Trong video trình diễn cuối, Jianfeng Wang nói: GPT Image 2 đang xóa bỏ khoảng cách giữa ý định của bạn và sản phẩm của mô hình.
Làm đúng những gì bạn muốn, mô hình sẽ cung cấp đúng như vậy.
Yuguang Yang:Tạo biểu đồ thông tin phức tạp chính xác cao
Yuguang Yang đã trình diễn khả năng tạo biểu đồ thông tin và PPT trong buổi ra mắt GPT Image 2.
Chỉ trong 75 trang của bài báo GPT-3, anh đã tự động tạo ra 7 slide trình chiếu.
Kinh nghiệm của anh có thể nói là phong phú nhất trong nhóm, mỗi lần chuyển đổi công việc đều là lĩnh vực khác nhau, nhưng đều tập trung vào học máy.
Anh học kỹ thuật tại Trường Kỹ thuật Zhuke của Đại học Zhejiang, trong thời gian học tiến sĩ tại Đại học Johns Hopkins, anh nghiên cứu về hóa học tính toán, vật lý và học máy.
Công việc đầu tiên của anh là nhà phân tích định lượng, trong thời gian làm nghiên cứu viên tại Tsinghua, anh đã nghiên cứu về học tăng cường và thuật toán điều khiển cho robot nano.
Sau đó, anh làm nghiên cứu về Alexa tại Amazon.
Rồi làm việc tại Microsoft về hiểu và truy xuất truy vấn tìm kiếm Bing, và hiểu tài liệu.
Sau khi gia nhập OpenAI đầu năm 2025, ngoài tạo hình ảnh, anh còn tham gia dự án trí tuệ nhân tạo ChatGPT.
Anh giới thiệu khả năng tạo biểu đồ thông tin của GPT Image 2 trên tài khoản cá nhân, có thể giúp các nhà khoa học tiết kiệm rất nhiều thời gian.
Anh còn nhắc nhở mọi người rằng, khi làm biểu đồ thông tin, đừng quên chọn chế độ suy nghĩ phù hợp.
Từ DALL·E đến GPT Image 2.0
Theo lời tự giới thiệu của thành viên nhóm Kenji Hata, GPT Image 1.0 chính là phần tạo hình ảnh của GPT-4o.
Có một người bắt đầu từ DALL·E và tham gia toàn bộ quá trình nghiên cứu đa mô thức của OpenAI.
Người đó chính là trưởng nhóm GPT Image 2.0, Gabriel Goh.
Từ năm 2019 gia nhập OpenAI, nghiên cứu ban đầu của anh tập trung vào lý thuyết, đặc biệt về khả năng giải thích và tối ưu hóa lồi.
Từ DALL·E bắt đầu chuyển hướng dần sang tạo hình ảnh.
Nhìn vào hồ sơ nghiên cứu của thành viên khác là Weixin Liang, nền tảng công nghệ của GPT Image 2 lại hé lộ một góc nhìn khác.
Trong thời gian thực tập tại Meta, anh đã có tác phẩm tiêu biểu là Mixture-of-Transformers, giới thiệu mô hình MoE giải pháp tách rời modal và attention tách rời, giảm đáng kể chi phí tính toán trong huấn luyện đa mô thức.
Anh tốt nghiệp tiến sĩ tại Stanford, cử nhân cũng tại Trường Kỹ thuật Zhuke của Đại học Zhejiang, nhưng muộn hơn Yuguang Yang vài năm.
Giống như 陈博远, Weixin Liang cũng tốt nghiệp tiến sĩ năm 2025 rồi gia nhập OpenAI, nhanh chóng trở thành thành viên cốt lõi của nhóm.
Các thành viên khác của nhóm GPT Image 2.0 còn có:
Ayaan Haque, trước làm tại Luma AI, tham gia huấn luyện mô hình nền video Dream Machine của Luma.
Bing Liang, làm việc hơn 5 năm tại Google, tham gia Imagen3, Veo, Gemini Multimodal, năm 2025 chuyển sang OpenAI nghiên cứu tạo hình ảnh.
Mengchao Zhong, cử nhân Đại học Giao thông Thượng Hải, thạc sĩ Đại học Nông nghiệp Texas, từng làm kỹ sư phần mềm tại Pinterest và Airtable, phụ trách sản phẩm đa mô thức tại OpenAI.
Dibya Bhattacharjee, Đại học Yale, huy chương đồng IPhO 2015, điểm cao nhất toàn cầu môn Toán và Sinh của CIE A-Level.
Kiwhan Song là người gia nhập muộn nhất tháng 10 năm 2025, ngoài nghiên cứu còn là bậc thầy về từ khóa, nhiều hình trình diễn chính thức đều do anh thực hiện.
……
Từ DALL·E ban đầu đến ngày hôm nay GPT Image 2.0, nhóm này đã lần lượt giải quyết được: vẽ ra được, rõ ràng, đẹp mắt, chính xác.
Dù nhân tài của OpenAI trong những năm gần đây có biến động lớn, nhưng OpenAI vẫn là nơi liên tục thu hút những người có cá tính, không giới hạn chuyên ngành, hoan nghênh đa lĩnh vực, tin tưởng nghiên cứu tự phát từ dưới lên.
Từ một nhóm nhỏ, sau khi có đột phá, công ty dồn nhiều nguồn lực hơn, đến khi thay đổi thế giới.
Một điều nữa
Ngày xưa, hình đại diện kiểu Ghibli do GPT-4o tạo ra theo phong cách Ghibli đã làm chấn động toàn thế giới.
Giờ đây, các thành viên nhóm GPT Image 2.0 đều đổi avatar thành kiểu quái dị này.
Vậy, từ khóa để tạo ra phong cách tranh này là gì? Các thành viên cũng đã công bố.
Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.