در دنیای پرسرعت هوش مصنوعی، یک مدل مرموز برای تولید و ویرایش تصویر با نام «نانو موز» (Nano-Banana) توجه همه را به خود جلب کرده بود. حالا هویت این مدل فاش شده است: گوگل این فناوری را به جمینای اضافه کرده تا آن را به یک ابزار قدرتمند برای رقابت با بزرگانی مانند فتوشاپ تبدیل کند. این مدل که نام رسمی آن Gemini 2.5 Flash Image است، از قابلیت‌های خیره‌کننده‌ای در زمینه ویرایش تصاویر بهره می‌برد.

 

حل بزرگ‌ترین چالش هوش مصنوعی: ثبات شخصیت

 

یکی از بزرگ‌ترین مشکلات هوش مصنوعی‌های مولد تصویر، ناتوانی در حفظ ثبات چهره و جزئیات سوژه در ویرایش‌های متوالی بود. این ارتقاء جدید، این مشکل را به طور کامل حل می‌کند. از این پس، می‌توانید یک عکس از دوستان یا خانواده خود را ویرایش کنید و مطمئن باشید که چهره و ظاهر آن‌ها در ویرایش‌های مختلف (مانند تغییر لباس یا مدل مو) ثابت و واقعی باقی می‌ماند.

قابلیت‌های پیشرفته که جمینای را متحول می‌کنند

 

این به‌روزرسانی تنها به حفظ ثبات چهره محدود نمی‌شود و قابلیت‌های پیشرفته دیگری را نیز اضافه کرده است:

  • ترکیب تصاویر: می‌توانید چندین عکس را بارگذاری کنید و از هوش مصنوعی بخواهید آن‌ها را در یک صحنه جدید و منسجم ترکیب کند.

  • ویرایش مرحله‌ای: کاربران می‌توانند به صورت متوالی و قدم به قدم، اجزای مختلف یک تصویر را تغییر دهند، بدون اینکه ویرایش‌های قبلی از بین برود.

  • اعمال سبک: می‌توانید سبک بصری یک تصویر را (مانند الگوی یک پارچه) بر روی یک شیء در تصویر دیگر اعمال کنید.

 

امنیت و رقابت در بازار

 

گوگل با درس گرفتن از مشکلات گذشته، تدابیر امنیتی جدیدی را نیز در نظر گرفته است. تمام تصاویر تولید یا ویرایش شده با این ابزار، دارای یک واترمارک قابل مشاهده و یک واترمارک نامرئی (SynthID) خواهند بود تا به راحتی از تصاویر واقعی قابل تشخیص باشند. این قابلیت‌های جدید به تدریج برای تمام کاربران در اپلیکیشن جمینای و برای توسعه‌دهندگان از طریق پلتفرم‌های API گوگل در دسترس قرار می‌گیرد. این اقدام گوگل، یک رقابت جدی را در بازار ابزارهای ویرایش تصویر با هوش مصنوعی آغاز کرده است.