Đội ngũ Qwen của Alibaba Cloud đã ra mắt Qwen-Image-Edit, một mô hình chỉnh sửa hình ảnh tiên tiến kết hợp chỉnh sửa ngữ nghĩa và hình thức với việc chỉnh sửa văn bản song ngữ chính xác, cung cấp khả năng nâng cao cho các ứng dụng sáng tạo và thực tiễn.
Nhóm Qwen của Alibaba Cloud đã giới thiệu Qwen-Image-Edit, một mô hình chỉnh sửa hình ảnh tiên tiến được phát triển từ khung Qwen-Image 20B. Hệ thống mới mở rộng khả năng hiển thị văn bản đặc biệt của Qwen-Image bằng cách áp dụng chúng vào chỉnh sửa hình ảnh, với trọng tâm đặc biệt vào độ chính xác trong việc chỉnh sửa văn bản. Qwen-Image-Edit xử lý các hình ảnh đầu vào thông qua hai thành phần song song: Qwen2.5-VL, quản lý điều khiển ngữ nghĩa hình ảnh, và VAE Encoder, quản lý ngoại hình hình ảnh. Cách tiếp cận kép này cho phép mô hình xử lý hiệu quả cả các tác vụ chỉnh sửa cấp độ ngữ nghĩa và cấp độ ngoại hình. Công cụ này có sẵn thông qua Qwen Chat dưới tính năng "Chỉnh sửa Hình ảnh".
Qwen-Image-Edit được thiết kế để hoạt động trên nhiều chiều chỉnh sửa khác nhau. Nó hỗ trợ cả điều chỉnh ở mức độ diện mạo, chẳng hạn như thêm, xóa hoặc sửa đổi các yếu tố hình ảnh trong khi giữ nguyên tất cả các khu vực khác của hình ảnh, và chỉnh sửa ở mức độ ngữ nghĩa, chẳng hạn như tạo ra sở hữu trí tuệ, xoay đối tượng hoặc chuyển giao phong cách, nơi các thay đổi pixel rộng hơn được phép nhưng tính toàn vẹn ngữ nghĩa vẫn được bảo tồn. Nó cũng cung cấp khả năng chỉnh sửa văn bản tinh vi bằng cả tiếng Trung và tiếng Anh, cho phép người dùng thêm, xóa hoặc điều chỉnh văn bản trong hình ảnh trong khi duy trì sự nhất quán về phông chữ, kích thước và kiểu dáng. Các bài kiểm tra chuẩn trên một số tập dữ liệu được công nhận rộng rãi cho thấy Qwen-Image-Edit đạt hiệu suất hàng đầu trong chỉnh sửa hình ảnh, định vị nó như một mô hình nền tảng mạnh mẽ cho các ứng dụng trong tương lai trong lĩnh vực này.
Chỉnh sửa ngữ nghĩa và hình thức của Qwen-Image-Edit cho các ứng dụng sáng tạo và thiết thực
Một trong những khía cạnh đặc trưng của Qwen-Image-Edit là chức năng tiên tiến của nó trong cả chỉnh sửa ngữ nghĩa và chỉnh sửa diện mạo. Chỉnh sửa ngữ nghĩa liên quan đến việc thay đổi nội dung của một hình ảnh trong khi đảm bảo rằng ý nghĩa hình ảnh cơ bản vẫn được giữ nguyên. Để minh họa chức năng này một cách đơn giản, nhóm phát triển nhấn mạnh việc sử dụng nó với linh vật chính thức của Qwen, Capybara, như một ví dụ thực tiễn.
Quan sát cho thấy rằng trong khi phần lớn các pixel trong hình ảnh đã chỉnh sửa khác với những pixel trong hình ảnh đầu vào gốc bên trái, tính nhất quán tổng thể của nhân vật Capybara vẫn được duy trì hoàn toàn. Điều này chứng tỏ khả năng chỉnh sửa ngữ nghĩa mạnh mẽ của Qwen-Image-Edit, hỗ trợ sự phát triển linh hoạt và đa dạng của nội dung sở hữu trí tuệ gốc. Ngoài ra, trong Qwen Chat, một bộ hướng dẫn chỉnh sửa chuyên dụng đã được tạo ra xung quanh 16 loại tính cách MBTI. Sử dụng những hướng dẫn này, một bộ sưu tập hoàn chỉnh các bộ emoji theo chủ đề MBTI với linh vật Capybara đã được sản xuất thành công, mở rộng hiệu quả cả sự đại diện và khả năng hiển thị của nhân vật.
Hơn nữa, tổng hợp hình ảnh từ góc nhìn mới đại diện cho một trường hợp sử dụng quan trọng khác trong chỉnh sửa ngữ nghĩa. Qwen-Image-Edit có khả năng xoay các đối tượng 90 độ hoặc thực hiện một vòng xoay đầy đủ 180 độ, cho phép trực quan hóa trực tiếp mặt sau của một đối tượng. Một ví dụ khác về chỉnh sửa ngữ nghĩa nằm ở việc chuyển giao phong cách, nơi mà, chẳng hạn, một chân dung tiêu chuẩn có thể được diễn giải thành nhiều thẩm mỹ nghệ thuật khác nhau, bao gồm các phong cách gợi nhớ đến Studio Ghibli.
Ngoài việc chỉnh sửa ngữ nghĩa, chỉnh sửa hình thức là một chức năng thường xuyên cần thiết trong việc thay đổi hình ảnh. Cách tiếp cận này tập trung vào việc giữ nguyên các vùng cụ thể của một bức ảnh hoàn toàn không thay đổi trong khi giới thiệu, loại bỏ hoặc thay đổi các yếu tố được chỉ định. Như được minh họa trong một ví dụ nơi một bảng hiệu được tích hợp một cách liền mạch vào một cảnh, chỉnh sửa hình thức có thể được áp dụng cho một loạt các ứng dụng như điều chỉnh nền cho các cá nhân hoặc thay đổi trang phục. Một khả năng nổi bật khác của Qwen-Image-Edit là độ chính xác trong chỉnh sửa văn bản, một tính năng được phát triển từ chuyên môn tiên tiến của Qwen-Image trong các công nghệ hiển thị văn bản.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Alibaba phát hành Qwen-Image-Edit: Mô hình mã nguồn mở 20B cho chỉnh sửa hình ảnh và văn bản nâng cao
Tóm tắt
Đội ngũ Qwen của Alibaba Cloud đã ra mắt Qwen-Image-Edit, một mô hình chỉnh sửa hình ảnh tiên tiến kết hợp chỉnh sửa ngữ nghĩa và hình thức với việc chỉnh sửa văn bản song ngữ chính xác, cung cấp khả năng nâng cao cho các ứng dụng sáng tạo và thực tiễn.
Nhóm Qwen của Alibaba Cloud đã giới thiệu Qwen-Image-Edit, một mô hình chỉnh sửa hình ảnh tiên tiến được phát triển từ khung Qwen-Image 20B. Hệ thống mới mở rộng khả năng hiển thị văn bản đặc biệt của Qwen-Image bằng cách áp dụng chúng vào chỉnh sửa hình ảnh, với trọng tâm đặc biệt vào độ chính xác trong việc chỉnh sửa văn bản. Qwen-Image-Edit xử lý các hình ảnh đầu vào thông qua hai thành phần song song: Qwen2.5-VL, quản lý điều khiển ngữ nghĩa hình ảnh, và VAE Encoder, quản lý ngoại hình hình ảnh. Cách tiếp cận kép này cho phép mô hình xử lý hiệu quả cả các tác vụ chỉnh sửa cấp độ ngữ nghĩa và cấp độ ngoại hình. Công cụ này có sẵn thông qua Qwen Chat dưới tính năng "Chỉnh sửa Hình ảnh".
Qwen-Image-Edit được thiết kế để hoạt động trên nhiều chiều chỉnh sửa khác nhau. Nó hỗ trợ cả điều chỉnh ở mức độ diện mạo, chẳng hạn như thêm, xóa hoặc sửa đổi các yếu tố hình ảnh trong khi giữ nguyên tất cả các khu vực khác của hình ảnh, và chỉnh sửa ở mức độ ngữ nghĩa, chẳng hạn như tạo ra sở hữu trí tuệ, xoay đối tượng hoặc chuyển giao phong cách, nơi các thay đổi pixel rộng hơn được phép nhưng tính toàn vẹn ngữ nghĩa vẫn được bảo tồn. Nó cũng cung cấp khả năng chỉnh sửa văn bản tinh vi bằng cả tiếng Trung và tiếng Anh, cho phép người dùng thêm, xóa hoặc điều chỉnh văn bản trong hình ảnh trong khi duy trì sự nhất quán về phông chữ, kích thước và kiểu dáng. Các bài kiểm tra chuẩn trên một số tập dữ liệu được công nhận rộng rãi cho thấy Qwen-Image-Edit đạt hiệu suất hàng đầu trong chỉnh sửa hình ảnh, định vị nó như một mô hình nền tảng mạnh mẽ cho các ứng dụng trong tương lai trong lĩnh vực này.
Chỉnh sửa ngữ nghĩa và hình thức của Qwen-Image-Edit cho các ứng dụng sáng tạo và thiết thực
Một trong những khía cạnh đặc trưng của Qwen-Image-Edit là chức năng tiên tiến của nó trong cả chỉnh sửa ngữ nghĩa và chỉnh sửa diện mạo. Chỉnh sửa ngữ nghĩa liên quan đến việc thay đổi nội dung của một hình ảnh trong khi đảm bảo rằng ý nghĩa hình ảnh cơ bản vẫn được giữ nguyên. Để minh họa chức năng này một cách đơn giản, nhóm phát triển nhấn mạnh việc sử dụng nó với linh vật chính thức của Qwen, Capybara, như một ví dụ thực tiễn.
Quan sát cho thấy rằng trong khi phần lớn các pixel trong hình ảnh đã chỉnh sửa khác với những pixel trong hình ảnh đầu vào gốc bên trái, tính nhất quán tổng thể của nhân vật Capybara vẫn được duy trì hoàn toàn. Điều này chứng tỏ khả năng chỉnh sửa ngữ nghĩa mạnh mẽ của Qwen-Image-Edit, hỗ trợ sự phát triển linh hoạt và đa dạng của nội dung sở hữu trí tuệ gốc. Ngoài ra, trong Qwen Chat, một bộ hướng dẫn chỉnh sửa chuyên dụng đã được tạo ra xung quanh 16 loại tính cách MBTI. Sử dụng những hướng dẫn này, một bộ sưu tập hoàn chỉnh các bộ emoji theo chủ đề MBTI với linh vật Capybara đã được sản xuất thành công, mở rộng hiệu quả cả sự đại diện và khả năng hiển thị của nhân vật.
Hơn nữa, tổng hợp hình ảnh từ góc nhìn mới đại diện cho một trường hợp sử dụng quan trọng khác trong chỉnh sửa ngữ nghĩa. Qwen-Image-Edit có khả năng xoay các đối tượng 90 độ hoặc thực hiện một vòng xoay đầy đủ 180 độ, cho phép trực quan hóa trực tiếp mặt sau của một đối tượng. Một ví dụ khác về chỉnh sửa ngữ nghĩa nằm ở việc chuyển giao phong cách, nơi mà, chẳng hạn, một chân dung tiêu chuẩn có thể được diễn giải thành nhiều thẩm mỹ nghệ thuật khác nhau, bao gồm các phong cách gợi nhớ đến Studio Ghibli.
Ngoài việc chỉnh sửa ngữ nghĩa, chỉnh sửa hình thức là một chức năng thường xuyên cần thiết trong việc thay đổi hình ảnh. Cách tiếp cận này tập trung vào việc giữ nguyên các vùng cụ thể của một bức ảnh hoàn toàn không thay đổi trong khi giới thiệu, loại bỏ hoặc thay đổi các yếu tố được chỉ định. Như được minh họa trong một ví dụ nơi một bảng hiệu được tích hợp một cách liền mạch vào một cảnh, chỉnh sửa hình thức có thể được áp dụng cho một loạt các ứng dụng như điều chỉnh nền cho các cá nhân hoặc thay đổi trang phục. Một khả năng nổi bật khác của Qwen-Image-Edit là độ chính xác trong chỉnh sửa văn bản, một tính năng được phát triển từ chuyên môn tiên tiến của Qwen-Image trong các công nghệ hiển thị văn bản.