تیم هوش مصنوعی شرکت بزرگ چینی علی‌بابا، از مدل هوش مصنوعی جدیدی به نام Qwen-Image رونمایی کرده است. این مدل، که برای تولید تصویر کاربرد دارد، از زبان‌های انگلیسی و چینی پشتیبانی می‌کند و با تمرکز ویژه بر یک قابلیت کلیدی، خود را از رقبا متمایز می‌سازد: رندر دقیق و باکیفیت متن درون تصاویر.

 

پایان مشکل متن‌های بی‌معنی در تصاویر هوش مصنوعی

 

یکی از چالش‌های اصلی مدل‌های تصویرساز هوش مصنوعی، ناتوانی در نمایش صحیح و معنادار متن بود. Qwen-Image با تمرکز بر این مشکل، توانسته در مدیریت تایپوگرافی‌های پیچیده، چیدمان‌های چندخطی و درک معنا در سطح پاراگراف، به توانایی بالایی دست پیدا کند. این مدل به لطف پشتیبانی از هر دو نوع خط الفبایی و تصویری، در تولید محتوای دوزبانه نیز عملکرد بسیار خوبی دارد.

این قابلیت پیشرفته به کاربران اجازه می‌دهد تا با استفاده از Qwen-Image، محتواهای تبلیغاتی و بصری متنوعی تولید کنند، از جمله:

  • پوستر فیلم

  • اسلایدهای ارائه

  • بنر برای فروشگاه‌های آنلاین

  • اشعار دست‌نویس

  • اینفوگرافی‌های حاوی متن

برای تعامل با این مدل، کافی است کاربران حالت "Image Generation" را در وب‌سایت Qwen Chat انتخاب کنند.

رقابت با Midjourney: مزیت بزرگ Qwen-Image

 

بررسی‌های اولیه نشان می‌دهد که Qwen-Image از نظر دقت و کیفیت کلی تصاویر، هنوز با رقبایی مثل Midjourney فاصله دارد و ممکن است در درک پرامپت‌ها دچار خطا شود. اما یک مزیت بسیار بزرگ دارد: رایگان بودن و متن‌باز بودن!

برخلاف Midjourney که تعداد محدودی تصویر رایگان ارائه می‌دهد و برای استفاده بیشتر نیازمند خرید اشتراک است، Qwen-Image تحت مجوز Apache 2.0 منتشر شده و به صورت متن‌باز در پلتفرم Hugging Face در دسترس قرار گرفته است. این یعنی هر سازمان یا توسعه‌دهنده ثالثی می‌تواند به صورت رایگان از آن برای مقاصد تجاری و غیرتجاری استفاده کند.

این مدل می‌تواند برای سازمان‌هایی که به دنبال یک هوش مصنوعی تولید تصویر برای تولید محتوای داخلی یا خارجی مانند تراکت، تبلیغات، اطلاعیه‌ها و خبرنامه‌ها هستند، بسیار کاربردی باشد. انتشار این مدل به صورت متن‌باز، گامی استراتژیک از سوی علی‌بابا برای گسترش نفوذ خود در اکوسیستم هوش مصنوعی به شمار می‌رود.