رونمایی از Gemini 2.0 Flash توسط گوگل: مدل هوش مصنوعی جدید
گوگل در رقابت با مدلهای جدید OpenAI، از مدل پیشرفته خود با نام Gemini 2.0 Flash رونمایی کرد. این مدل هوش مصنوعی جدید، قابلیت تولید متن، تصویر و صوت را به صورت بومی ارائه میدهد و توانایی استفاده از اپلیکیشنها و خدمات شخص ثالث، از جمله Google Search و اجرای کد را دارد.
دسترسی اولیه و عرضه عمومی
این مدل از یک هفته پیش به صورت آزمایشی از طریق API مدل Gemini و پلتفرمهای AI Studio و Vertex AI گوگل در دسترس خواهد بود. با این حال، قابلیتهای تولید صوت و تصویر فعلاً تنها برای شرکای اولیه عرضه شده و انتظار میرود در ژانویه به صورت عمومی ارائه شود. گوگل همچنین اعلام کرده است که در ماههای آینده این مدل را به ابزارهای مختلفی مانند Android Studio، Chrome DevTools، Firebase و Gemini Code Assist اضافه خواهد کرد.
ارتقای قابلیتها در Flash 2.0
نسل اول این مدل، Flash 1.5، تنها توانایی تولید متن را داشت و برای بارهای کاری پیچیده طراحی نشده بود. اما نسخه جدید، با توانایی اتصال به ابزارهایی مانند Search و تعامل با APIهای خارجی، بسیار انعطافپذیرتر شده است.
به گفته تولسی دوشی، مدیر محصول مدل Gemini در گوگل:
مدل Flash در بین توسعهدهندگان به دلیل سرعت و عملکرد متعادلش بسیار محبوب است. در نسخه ۲.۰، این سرعت حفظ شده و قدرت آن نیز افزایش یافته است
گوگل ادعا میکند که Flash 2.0 دو برابر سریعتر از مدل Gemini 1.5 Pro عمل میکند و در زمینههایی مانند کدنویسی و تحلیل تصاویر بهبود چشمگیری داشته است. این مدل همچنین با تواناییهای ریاضی قویتر و دقت بیشتر در ارائه اطلاعات، جایگزین نسخه قبلی به عنوان مدل اصلی Gemini شده است.
تولید و تحلیل چندرسانهای
یکی از ویژگیهای کلیدی Flash 2.0، توانایی تولید و ویرایش تصاویر به همراه متن است. این مدل همچنین میتواند عکسها، ویدئوها و فایلهای صوتی را پردازش کرده و به پرسشهایی در مورد آنها پاسخ دهد، مانند “او چه گفت؟”.
علاوه بر این، قابلیت تولید صوت در Flash 2.0 به شکل قابل تنظیم طراحی شده است. کاربران میتوانند انتخاب کنند که مدل متنها را با یکی از هشت صدای مختلف که برای لهجهها و زبانهای متنوع بهینه شده است، بخواند. به گفته دوشی:
میتوانید از مدل بخواهید که کندتر یا سریعتر صحبت کند، یا حتی متن را با لحنی مانند یک دزد دریایی ادا کند!
امنیت و شفافیت
برای جلوگیری از سوءاستفاده و مقابله با تهدیدهایی مانند دیپفیکها، گوگل از فناوری SynthID برای نشانهگذاری (واترمارک) تمام خروجیهای صوتی و تصویری Flash 2.0 استفاده میکند. این واترمارک در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند، خروجیهای مدل را به عنوان محتوای مصنوعی مشخص میکند.
API چندرسانهای
نسخه تولیدی Flash 2.0 در ژانویه عرضه خواهد شد، اما گوگل امروز از API چندرسانهای زنده (Multimodal Live API) نیز رونمایی کرد. این API به توسعهدهندگان امکان میدهد اپلیکیشنهای چندرسانهای را با قابلیتهای ورودی صوت و ویدئو در زمان واقعی بسازند. این API میتواند الگوهای مکالمه طبیعی، از جمله قطع صحبتها را مدیریت کند و با ابزارهای مختلف برای انجام وظایف تعامل داشته باشد.
گوگل اعلام کرده که این API هماکنون به صورت عمومی در دسترس است.