در جریان کنفرانس I/O 2025، گوگل از جدیدترین مدلهای تولید محتوای خود رونمایی کرد. برجستهترین آنها Veo 3 است؛ نخستین نسخه از این مدل که قابلیت تولید ویدیو همراه با صدا را دارد.
Veo 3 میتواند مثلاً ویدیویی از پرندگان با صدای آوازشان یا صحنهای از خیابان شهر با صدای ترافیک تولید کند. بهگفتهی گوگل، Veo 3 در شبیهسازی فیزیک واقعی و هماهنگی حرکات لب عملکرد بسیار دقیقی دارد.
Veo 3 فعلاً تنها برای مشترکان طرح جمنای اولترا در آمریکا از طریق اپلیکیشن جمنای و کاربران سازمانی در Vertex AI دردسترس است و در ابزار فیلمسازی جدید گوگل با نام Flow نیز قابل استفاده خواهد بود.
Flow ترکیبی از مدلهای Veo و Imagen و Gemini را برای ساخت کلیپها و صحنههای سینمایی به کار میگیرد. کاربران میتوانند خروجی دلخواه خود را با زبان طبیعی توصیف کنند و این ابزار، فرایند تولید را بهطور خودکار انجام خواهد داد. درحالحاضر، Flow تنها برای مشترکان Google AI Pro و Ultra در آمریکا منتشر شده، اما بهزودی در کشورهای بیشتری دردسترس قرار میگیرد.
گوگل پشتیبانی از Veo 2 را متوقف نکرده است. کاربران میتوانند در Flow تصاویری از افراد، صحنهها، سبکها یا اشیاء را بهعنوان مرجع به این مدل بدهند. ابزارهایی مانند کنترل دوربین، تغییر زاویهی دید، زوم روی اشیاء خاص، تبدیل کادر پرتره به منظره و افزودن یا حذف عناصر تصویری نیز فراهم شده است.
گوگل مدل تولید تصویر دیگری با نام Imagen 4 معرفی کرد که توانایی بینظیری در تولید جزئیات ظریف مانند بافت پارچهها و موی حیوانات دارد و هم در خلق تصاویر فوتورئالیستی و هم در سبکهای انتزاعی عملکرد بالایی دارد.
مقالههای مرتبط
Imagen 4 در بازنمایی تایپوگرافی بهمراتب بهتر از نسخههای پیشین عمل میکند و میتواند در اندازهها و نسبتهای مختلف تصویری تا وضوح 2K خروجی دهد. این مدل اکنون در اپلیکیشن Gemini و Vertex AI و ابزارهای Workspace مانند Docs و Slides قابل استفاده است. نسخهای ۱۰ برابر سریعتر از Imagen 3 نیز بهزودی منتشر میشود.
گوگل برای مقابله با گسترش محتوای جعلی تولیدشده با هوش مصنوعی، پرتال جدیدی با نام SynthID Detector راهاندازی کرده است. کاربران میتوانند فایلهای تصویری یا ویدیویی مشکوک را بارگذاری کنند تا مشخص شود که آیا آنها حاوی نشانگذاری SynthID هستند یا نه.