تیم هوش مصنوعی شرکت بزرگ چینی علیبابا، از مدل هوش مصنوعی جدیدی به نام Qwen-Image رونمایی کرده است. این مدل، که برای تولید تصویر کاربرد دارد، از زبانهای انگلیسی و چینی پشتیبانی میکند و با تمرکز ویژه بر یک قابلیت کلیدی، خود را از رقبا متمایز میسازد: رندر دقیق و باکیفیت متن درون تصاویر.
پایان مشکل متنهای بیمعنی در تصاویر هوش مصنوعی
یکی از چالشهای اصلی مدلهای تصویرساز هوش مصنوعی، ناتوانی در نمایش صحیح و معنادار متن بود. Qwen-Image با تمرکز بر این مشکل، توانسته در مدیریت تایپوگرافیهای پیچیده، چیدمانهای چندخطی و درک معنا در سطح پاراگراف، به توانایی بالایی دست پیدا کند. این مدل به لطف پشتیبانی از هر دو نوع خط الفبایی و تصویری، در تولید محتوای دوزبانه نیز عملکرد بسیار خوبی دارد.
این قابلیت پیشرفته به کاربران اجازه میدهد تا با استفاده از Qwen-Image، محتواهای تبلیغاتی و بصری متنوعی تولید کنند، از جمله:
پوستر فیلم
اسلایدهای ارائه
بنر برای فروشگاههای آنلاین
اشعار دستنویس
اینفوگرافیهای حاوی متن
برای تعامل با این مدل، کافی است کاربران حالت "Image Generation" را در وبسایت Qwen Chat انتخاب کنند.

رقابت با Midjourney: مزیت بزرگ Qwen-Image
بررسیهای اولیه نشان میدهد که Qwen-Image از نظر دقت و کیفیت کلی تصاویر، هنوز با رقبایی مثل Midjourney فاصله دارد و ممکن است در درک پرامپتها دچار خطا شود. اما یک مزیت بسیار بزرگ دارد: رایگان بودن و متنباز بودن!
برخلاف Midjourney که تعداد محدودی تصویر رایگان ارائه میدهد و برای استفاده بیشتر نیازمند خرید اشتراک است، Qwen-Image تحت مجوز Apache 2.0 منتشر شده و به صورت متنباز در پلتفرم Hugging Face در دسترس قرار گرفته است. این یعنی هر سازمان یا توسعهدهنده ثالثی میتواند به صورت رایگان از آن برای مقاصد تجاری و غیرتجاری استفاده کند.
این مدل میتواند برای سازمانهایی که به دنبال یک هوش مصنوعی تولید تصویر برای تولید محتوای داخلی یا خارجی مانند تراکت، تبلیغات، اطلاعیهها و خبرنامهها هستند، بسیار کاربردی باشد. انتشار این مدل به صورت متنباز، گامی استراتژیک از سوی علیبابا برای گسترش نفوذ خود در اکوسیستم هوش مصنوعی به شمار میرود.