رونمایی از Gemini 2.0 Flash توسط گوگل

دی 23, 1403

رونمایی از Gemini 2.0 Flash توسط گوگل: مدل هوش مصنوعی جدید

گوگل در رقابت با مدل‌های جدید OpenAI، از مدل پیشرفته خود با نام Gemini 2.0 Flash رونمایی کرد. این مدل هوش مصنوعی جدید، قابلیت تولید متن، تصویر و صوت را به صورت بومی ارائه می‌دهد و توانایی استفاده از اپلیکیشن‌ها و خدمات شخص ثالث، از جمله Google Search و اجرای کد را دارد.

دسترسی اولیه و عرضه عمومی

این مدل از یک هفته پیش به صورت آزمایشی از طریق API مدل Gemini و پلتفرم‌های AI Studio و Vertex AI گوگل در دسترس خواهد بود. با این حال، قابلیت‌های تولید صوت و تصویر فعلاً تنها برای شرکای اولیه عرضه شده و انتظار می‌رود در ژانویه به صورت عمومی ارائه شود. گوگل همچنین اعلام کرده است که در ماه‌های آینده این مدل را به ابزارهای مختلفی مانند Android Studio، Chrome DevTools، Firebase و Gemini Code Assist اضافه خواهد کرد.

ارتقای قابلیت‌ها در Flash 2.0

نسل اول این مدل، Flash 1.5، تنها توانایی تولید متن را داشت و برای بارهای کاری پیچیده طراحی نشده بود. اما نسخه جدید، با توانایی اتصال به ابزارهایی مانند Search و تعامل با APIهای خارجی، بسیار انعطاف‌پذیرتر شده است.

به گفته تولسی دوشی، مدیر محصول مدل Gemini در گوگل:

مدل Flash در بین توسعه‌دهندگان به دلیل سرعت و عملکرد متعادلش بسیار محبوب است. در نسخه ۲.۰، این سرعت حفظ شده و قدرت آن نیز افزایش یافته است

گوگل ادعا می‌کند که Flash 2.0 دو برابر سریع‌تر از مدل Gemini 1.5 Pro عمل می‌کند و در زمینه‌هایی مانند کدنویسی و تحلیل تصاویر بهبود چشمگیری داشته است. این مدل همچنین با توانایی‌های ریاضی قوی‌تر و دقت بیشتر در ارائه اطلاعات، جایگزین نسخه قبلی به عنوان مدل اصلی Gemini شده است.

تولید و تحلیل چندرسانه‌ای

یکی از ویژگی‌های کلیدی Flash 2.0، توانایی تولید و ویرایش تصاویر به همراه متن است. این مدل همچنین می‌تواند عکس‌ها، ویدئوها و فایل‌های صوتی را پردازش کرده و به پرسش‌هایی در مورد آن‌ها پاسخ دهد، مانند “او چه گفت؟”.

علاوه بر این، قابلیت تولید صوت در Flash 2.0 به شکل قابل تنظیم طراحی شده است. کاربران می‌توانند انتخاب کنند که مدل متن‌ها را با یکی از هشت صدای مختلف که برای لهجه‌ها و زبان‌های متنوع بهینه شده است، بخواند. به گفته دوشی:

می‌توانید از مدل بخواهید که کندتر یا سریع‌تر صحبت کند، یا حتی متن را با لحنی مانند یک دزد دریایی ادا کند!

امنیت و شفافیت

برای جلوگیری از سوءاستفاده و مقابله با تهدیدهایی مانند دیپ‌فیک‌ها، گوگل از فناوری SynthID برای نشانه‌گذاری (واترمارک) تمام خروجی‌های صوتی و تصویری Flash 2.0 استفاده می‌کند. این واترمارک در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند، خروجی‌های مدل را به عنوان محتوای مصنوعی مشخص می‌کند.

API چندرسانه‌ای

نسخه تولیدی Flash 2.0 در ژانویه عرضه خواهد شد، اما گوگل امروز از API چندرسانه‌ای زنده (Multimodal Live API) نیز رونمایی کرد. این API به توسعه‌دهندگان امکان می‌دهد اپلیکیشن‌های چندرسانه‌ای را با قابلیت‌های ورودی صوت و ویدئو در زمان واقعی بسازند. این API می‌تواند الگوهای مکالمه طبیعی، از جمله قطع صحبت‌ها را مدیریت کند و با ابزارهای مختلف برای انجام وظایف تعامل داشته باشد.

گوگل اعلام کرده که این API هم‌اکنون به صورت عمومی در دسترس است.