Hình ảnh ChatGPT 2.0 ra mắt! Tự xưng có khả năng suy nghĩ, tiến bộ trong việc hiển thị văn bản, thử nghiệm hiệu quả menu mì bò

robot
Đang tạo bản tóm tắt

OpenAI ra mắt công cụ tạo hình ảnh ChatGPT Images 2.0, nổi bật với khả năng xử lý bố cục phức tạp và đa ngôn ngữ (bao gồm tiếng Trung), bài viết sẽ giới thiệu toàn diện về các chức năng, đặc điểm của Images 2.0, các gói miễn phí và trả phí, cùng kết quả thử nghiệm tạo hình.

ChatGPT Images 2.0 là gì? Các chức năng chính, đặc điểm sẽ được giới thiệu!

Có phải đã có công cụ tạo hình AI cạnh tranh với Gemini Nano Banana 2? OpenAI công bố ra mắt ChatGPT Images 2.0, được vận hành bởi mô hình GPT Image 2 mới, tập trung vào khả năng chọn lựa, sắp xếp và tiết lộ thông tin trong hình ảnh, dưới đây là 3 đặc điểm lớn của ChatGPT Images 2.0:

Khả năng xử lý bố cục mạnh mẽ và đa ngôn ngữ

Điểm nổi bật đầu tiên là khả năng xử lý bố cục và đa ngôn ngữ của ChatGPT Images 2.0 đã được nâng cao đáng kể.

Trang tin nước ngoài Techcrunch chỉ ra rằng, các công cụ tạo hình AI trước đây phần lớn dựa trên mô hình khuếch tán, thường gặp khó khăn trong việc viết chữ, còn ChatGPT Images 2.0 có thể chính xác thể hiện các chi tiết nhỏ như chữ viết, biểu tượng và giao diện người dùng.

OpenAI cho biết, Images 2.0 đã có bước tiến rõ rệt trong xử lý các ngôn ngữ không dùng chữ Latin, bao gồm tiếng Trung, Nhật, Hàn, Hindi và Bengal, đều có thể tạo ra hình ảnh với độ rõ nét cao.

Nguồn hình: Ví dụ tạo hình chính thức của OpenAI ChatGPT Images 2.0

Khả năng suy nghĩ mới và tìm kiếm trực tuyến

Ngoài khả năng xử lý bố cục và đa ngôn ngữ, ChatGPT Images 2.0 còn cung cấp khả năng suy nghĩ mới, có thể truy cập thông tin từ internet theo thời gian thực để hỗ trợ tạo hình. Mô hình này có kiến thức cập nhật đến tháng 12 năm 2025, giúp tạo nội dung liên quan đến các sự kiện gần đây.

Nguồn hình: Ví dụ tạo hình chính thức của OpenAI ChatGPT Images 2.0

Hỗ trợ độ phân giải 2K và đa dạng tỷ lệ khung hình

ChatGPT Images 2.0 hỗ trợ tạo hình ảnh độ phân giải lên đến 2K, đồng thời cung cấp nhiều lựa chọn tỷ lệ khung hình hơn, từ rộng 3:1 đến dài 1:3.

Trưởng nhóm nghiên cứu của OpenAI, Boyuan Chen, cho biết, kiến trúc của Images 2.0 đã được thiết kế lại toàn diện, là một mô hình tổng quát, chỉ cần một lời nhắc đơn giản bằng văn bản là có thể xử lý chuyển đổi góc nhìn theo phong cách 3D và suy luận không gian phức tạp.

Chức năng miễn phí và trả phí của ChatGPT Images 2.0 dành cho người dùng

Tiền nào của nấy? Người dùng ở các cấp độ trả phí khác nhau của ChatGPT Images 2.0 sẽ có các chức năng khác nhau, tổng hợp như sau:

  • Người dùng miễn phí: Hiện tại có thể sử dụng mô hình ImageGen 2.0 cơ bản để thực hiện các nhiệm vụ tạo hình tiêu chuẩn. Phiên bản cơ bản đã bao gồm nhiều nâng cấp cốt lõi như khả năng tuân thủ lệnh tốt hơn, hiệu ứng chữ mạnh mẽ hơn, hỗ trợ đa ngôn ngữ và nhiều lựa chọn tỷ lệ khung hình hơn.
  • Người dùng ChatGPT Plus, Business và Enterprise: Các người dùng trả phí này có thể kích hoạt mô hình suy nghĩ mới. Trong chế độ này, trình tạo hình ảnh của chatbot sẽ dùng tìm kiếm trên mạng, tạo ra các hình minh họa dựa trên tệp tải lên của người dùng, và thực hiện suy luận cấu trúc trước khi tạo hình. Mỗi lần có thể tạo tối đa 8 hình, đảm bảo các nhân vật, vật thể và phong cách trong từng cảnh giữ nhất quán.
  • Người dùng Pro: Những người này sẽ có quyền truy cập vào mô hình ImageGen Pro nâng cao hơn. Mặc dù OpenAI chưa cung cấp chi tiết chính xác về sự khác biệt giữa Pro và chức năng suy nghĩ, nhưng doanh nghiệp có thể xem chức năng suy nghĩ như một nâng cấp thực chất, phù hợp cho các nhiệm vụ cần dựa trên thực tế, chuyển đổi tài liệu nội bộ thành hình minh họa, hoặc duy trì sự nhất quán về mặt hình ảnh trong nhiều tài sản.
  • Nhà phát triển API: Hiện có thể tích hợp mô hình gpt-image-2, hỗ trợ độ phân giải cao và linh hoạt trong thiết lập tỷ lệ khung hình.

Thử nghiệm thực tế ChatGPT Images 2.0: Menu, tạp chí, biểu đồ giải thích

Hiệu quả thực tế của ChatGPT Images 2.0 có đúng như quảng cáo của OpenAI không? Chúng ta sẽ thử nghiệm.

Thử tạo menu quán phở bò

Biên tập viên của “Đô Thị Mã Hóa” đã thử nghiệm phiên bản miễn phí của ChatGPT, tạo ra một menu món ăn phở bò Đài Loan, với lời nhắc đơn giản: “Giúp tôi tạo một hình menu tập trung vào món phở bò Đài Loan, trong đó sử dụng tiếng Trung phồn thể, thể hiện tên món, giá cả và thông tin hình ảnh của từng món.”

Dưới đây là kết quả tạo ra:

Nguồn hình: Ví dụ tạo hình của ChatGPT Images 2.0

Với nội dung có thể tạo ra từ phiên bản miễn phí, nhìn chung khá ổn, tuy nhiên khi xem kỹ vẫn thấy Images 2.0 còn gặp lỗi chính tả khi xử lý chữ phồn thể phức tạp, có thể kết quả trả phí sẽ tốt hơn.

Ngoài ra, kết quả còn gần với giá của phở bò ở Taipei, và còn có thể ăn tại chỗ miễn phí thêm một lần ăn thêm.

Tuy nhiên, nếu bạn muốn in menu ra giấy, trong thực tế in ấn, tốt nhất là chuyển hình ảnh do ChatGPT Images 2.0 cung cấp sang dạng vector (như EPS, .ai của Adobe Illustrator, PDF) và sử dụng chế độ màu CMYK, sẽ phù hợp hơn cho in ấn. Các nhà in có thể chấp nhận file JPG hoặc PNG, nhưng nếu yêu cầu cao về chất lượng in, sẽ khó điều chỉnh đúng ý hơn.

Thử nghiệm bìa tạp chí công nghệ

Tiếp theo, thử nghiệm bìa tạp chí khoa học viễn tưởng, lần này “Đô Thị Mã Hóa” thử xử lý bố cục phức tạp, lời nhắc: “Giúp tôi tạo một bìa tạp chí công nghệ bằng tiếng Trung phồn thể, tên tạp chí là ‘Đô Thị Mã Hóa’, chủ đề ‘Giao thoa giữa Blockchain và AI’, bìa này cần có tiêu đề, số tập, mã vạch, ngày hạn hiển thị phía trên, tất cả chữ đều rõ ràng và căn chỉnh chuyên nghiệp.”

Dưới đây là kết quả:

Nguồn hình: Ví dụ tạo hình của ChatGPT Images 2.0

Kết quả thử này tương tự như trên, nhìn qua có vẻ ổn nhưng khi xem kỹ các nét chữ phức tạp của tiếng Trung vẫn còn thiếu sót, thêm nữa font chữ trên bìa giống như “Jin Xuan” của Justfont, chưa rõ có được cấp phép hay không.

Với những thắc mắc này, “Đô Thị Mã Hóa” cũng từng đề cập khi ra mắt Nano Banana Pro.

  • Bài báo liên quan: Thử nghiệm Nano Banana Pro: Chữ Trung tiến bộ hơn! Nhưng cũng xuất hiện lo ngại về bản quyền hoạt hình, font chữ.

Thử nghiệm biểu đồ giải thích đa ngôn ngữ

“Đô Thị Mã Hóa” đã thử tạo một biểu đồ nguyên nhân gây ra động đất bằng tiếng Trung phồn thể, Nhật, Hàn, với các chữ phức tạp đã phần nào thể hiện thành công. Trong bố cục, có phân biệt theo ngôn ngữ bằng các màu khác nhau, tuy nhiên khi xem kỹ vẫn còn một số chữ Trung, Hàn hoặc Kanji phức tạp bị mờ.

Dưới đây là kết quả:

Nguồn hình: Ví dụ tạo hình của ChatGPT Images 2.0

Images 2.0 có thể duy trì tính nhất quán của nhân vật, vật thể, giải quyết quy trình rườm rà

Ngoài ra, Images 2.0 cũng giống Nano Banana 2, có khả năng chỉnh sửa, chỉ cần nhấn “Chỉnh sửa” ở góc dưới bên trái của hình tạo ra là có thể bắt đầu thao tác, giữ được tính nhất quán của nhân vật và vật thể, giúp dễ dàng tạo trang truyện tranh, series hình ảnh mạng xã hội hoặc sơ đồ thiết kế các phòng trong nhà.

Trưởng bộ phận sản phẩm của ChatGPT Images, Adele Li, cho biết, chức năng này giải quyết vấn đề trước đây người dùng phải tạo từng hình rồi ghép thủ công rườm rà, giúp các nhà sáng tạo dễ dàng tạo ra các sách tranh thiếu nhi hoặc tài liệu marketing thương hiệu có cùng đặc điểm hình ảnh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim