Mô hình lớn Ali lại là nguồn mở! Có thể đọc hình ảnh và nhận biết đồ vật, dựa trên Tongyi Qianwen 7B, có bán trên thị trường

Nguồn: Qubit

Mô hình lớn mã nguồn mở Ali và một mô hình mới~

Sau Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud đã ra mắt mô hình ngôn ngữ hình ảnh quy mô lớn Qwen-VL và nó sẽ có nguồn mở trực tiếp ngay khi lên mạng.

Cụ thể, Qwen-VL là mô hình lớn đa phương thức dựa trên Tongyi Qianwen-7B, hỗ trợ nhiều đầu vào như hình ảnh, văn bản và khung phát hiện, đồng thời hỗ trợ đầu ra của khung phát hiện ngoài văn bản.

Ví dụ 🌰, chúng ta nhập hình ảnh Arnia, thông qua hình thức hỏi đáp, Qwen-VL-Chat không chỉ có thể tóm tắt nội dung của hình ảnh mà còn có thể định vị Arnia trong hình.

Trong nhiệm vụ thử nghiệm, Qwen-VL đã thể hiện sức mạnh của “chiến binh lục giác”, trong bài đánh giá tiêu chuẩn tiếng Anh về 4 loại nhiệm vụ đa phương thức (Zero-shot Caption/VQA/DocVQA/Grounding), nó đã đạt được SOTA.

Tin tức nguồn mở ngay khi xuất hiện đã thu hút rất nhiều sự chú ý.

Chúng ta hãy xem hiệu suất cụ thể ~

Mô hình chung đầu tiên hỗ trợ định vị miền mở của Trung Quốc

Chúng ta hãy xem xét toàn bộ đặc điểm của các mẫu dòng Qwen-VL:

  • Đối thoại đa ngôn ngữ: hỗ trợ đối thoại đa ngôn ngữ, hỗ trợ toàn diện để nhận dạng văn bản dài bằng cả tiếng Trung và tiếng Anh trong hình ảnh;
  • Đối thoại xen kẽ nhiều hình ảnh: hỗ trợ nhập và so sánh nhiều hình ảnh, chỉ định câu hỏi và câu trả lời bằng hình ảnh, tạo văn học nhiều hình ảnh, v.v.;
  • Mô hình đa năng đầu tiên hỗ trợ định vị miền mở của Trung Quốc: khung phát hiện được đánh dấu thông qua biểu thức ngôn ngữ miền mở của Trung Quốc, nghĩa là đối tượng mục tiêu có thể được tìm thấy chính xác trên màn hình;
  • Nhận dạng và hiểu chi tiết: So với độ phân giải 224 được sử dụng bởi LVLM nguồn mở khác (mô hình ngôn ngữ hình ảnh quy mô lớn), Qwen-VL là mô hình LVLM có độ phân giải 448 nguồn mở đầu tiên. Độ phân giải cao hơn có thể cải thiện khả năng nhận dạng văn bản chi tiết, trả lời câu hỏi tài liệu và chú thích hộp phát hiện.

Về mặt kịch bản, Qwen-VL có thể được sử dụng trong các tình huống như trả lời câu hỏi kiến thức, trả lời câu hỏi bằng hình ảnh, trả lời câu hỏi tài liệu và định vị trực quan chi tiết.

Ví dụ: nếu một người bạn nước ngoài không hiểu tiếng Trung đến bệnh viện khám bác sĩ, đối mặt với bản đồ hướng dẫn có một đầu hai đầu to, không biết đường đi đến khoa tương ứng, anh ta có thể trực tiếp ném bản đồ và các câu hỏi gửi đến Qwen-VL, đồng thời để nó theo dõi Thông tin hình ảnh đóng vai trò là người phiên dịch.

Hãy kiểm tra đầu vào và so sánh nhiều hình ảnh:

Dù không nhận ra Arnia nhưng phán đoán cảm tính của anh quả thực khá chính xác (đầu chó thủ công).

Về khả năng định vị hình ảnh, ngay cả khi hình ảnh rất phức tạp và có nhiều nhân vật, Qwen-VL vẫn có thể tìm thấy chính xác Hulk và Người nhện theo yêu cầu.

Về chi tiết kỹ thuật, Qwen-VL sử dụng Qwen-7B làm mô hình ngôn ngữ cơ sở, đưa bộ mã hóa hình ảnh ViT vào kiến trúc mô hình và kết nối cả hai thông qua bộ điều hợp ngôn ngữ hình ảnh nhận biết vị trí để mô hình hỗ trợ đầu vào tín hiệu hình ảnh. .

Quá trình đào tạo cụ thể được chia làm 3 bước:

  • Đào tạo trước: chỉ tối ưu hóa bộ mã hóa hình ảnh và bộ điều hợp ngôn ngữ hình ảnh, đóng băng mô hình ngôn ngữ. Sử dụng dữ liệu ghép nối hình ảnh-văn bản quy mô lớn, độ phân giải hình ảnh đầu vào là 224x224.
  • Đào tạo trước đa tác vụ: Giới thiệu dữ liệu ngôn ngữ hình ảnh đa tác vụ có độ phân giải cao hơn (448x448), chẳng hạn như VQA, VQA văn bản, hiểu tham chiếu, v.v., để đào tạo trước chung đa tác vụ.
  • Tinh chỉnh có giám sát: đóng băng bộ mã hóa hình ảnh, tối ưu hóa mô hình ngôn ngữ và bộ điều hợp. Sử dụng dữ liệu tương tác hộp thoại để điều chỉnh kịp thời nhằm có được mô hình Qwen-VL-Chat cuối cùng có khả năng tương tác.

Các nhà nghiên cứu đã thử nghiệm Qwen-VL trên các bài đánh giá tiếng Anh tiêu chuẩn trong bốn loại nhiệm vụ đa phương thức (Zero-shot Caption/VQA/DocVQA/Grounding).

Kết quả cho thấy Qwen-VL đạt được kết quả tốt nhất về LVLM nguồn mở có cùng kích thước.

Ngoài ra, các nhà nghiên cứu đã xây dựng bộ thử nghiệm TouchStone dựa trên cơ chế tính điểm GPT-4.

Trong bài kiểm tra so sánh này, Qwen-VL-Chat đã đạt được SOTA.

Nếu bạn quan tâm đến Qwen-VL, có bản demo trên Cộng đồng Modak và ôm mặt mà bạn có thể thử trực tiếp và liên kết ở cuối bài viết~

Qwen-VL hỗ trợ các nhà nghiên cứu và nhà phát triển thực hiện phát triển thứ cấp, đồng thời cho phép sử dụng cho mục đích thương mại, nhưng cần lưu ý rằng để sử dụng cho mục đích thương mại, trước tiên bạn cần điền vào bảng câu hỏi.

Liên kết dự án:

-Trò chuyện

Địa chỉ giấy:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)