عصر جدید تولید ویدئو با هوش مصنوعی

عصر جدیدی تولید ویدئو با هوش مصنوعی

از Hunyuan Video رونمایی شد؛ ابزار رایگان و متن‌باز تولید ویدئو با هوش مصنوعی

شرکت تنسنت به‌تازگی از ابزار جدید و متن‌باز خود به نام Hunyuan Video رونمایی کرد. این ابزار در بحبوحه کمپین ۱۲ روزه اعلامیه‌های OpenAI معرفی شده است؛ جایی که انتظار می‌رود ابزار ویدیویی موردانتظار Sora توسط OpenAI رونمایی شود و عصر جدید تولید ویدئو با هوش مصنوعی آغاز شود.

به گزارش Decrypt، تنسنت در اطلاعیه رسمی خود اعلام کرد:

«ما Hunyuan Video را به‌عنوان یک مدل پایه ویدئویی جدید معرفی می‌کنیم که عملکردی باکیفیت در سطح پیشرفته و حتی فراتر از مدل‌های بسته‌ دارد.»

این شرکت مستقر در شنژن، چین ادعا می‌کند که این مدل در مقایسه با ابزارهایی مانند Runway Gen-3، Luma 1.6 و «سه مدل پیشرو از چین»، عملکرد بهتری دارد. مدل Hunyuan Video به‌جای استفاده از ترکیب معمول CLIP و T5-XXL که در سایر ابزارهای تولید تصویر و ویدئو رایج است، از یک مدل زبانی بزرگ مولتی‌مدال decoder-only به‌عنوان رمزگذار متنی استفاده می‌کند.

بدون نیاز به آموزش اضافه ویدئو تولید کنید

تنسنت می‌گوید این روش به مدل کمک می‌کند تا دستورات را بهتر دنبال کند، جزئیات تصاویر را دقیق‌تر بفهمد و بدون نیاز به آموزش‌های بیشتر، وظایف جدید را به‌صورت لحظه‌ای بیاموزد. همچنین، سیستم توجه علّی (Causal Attention) این مدل با استفاده از یک پالایشگر ویژه توکن‌ها تقویت شده است که موجب می‌شود مدل دستورات را عمیق‌تر درک کند.

این ابزار همچنین توانایی بازنویسی دستورات متنی را دارد تا آن‌ها را غنی‌تر کند و کیفیت تولیدات را افزایش دهد. برای مثال، دستوری ساده مانند «یک مرد در حال راه رفتن با سگ خود» می‌تواند به‌طور خودکار با جزئیات مربوط به صحنه، شرایط نور، کیفیت و موارد دیگر تکمیل شود.

رایگان برای همه

مشابه مدل Llama 3 شرکت متا، ابزار Hunyuan به‌صورت رایگان و بدون محدودیت برای کسب درآمد ارائه می‌شود، مگر اینکه تعداد کاربران شما از مرز ۱۰۰ میلیون نفر عبور کند—چالشی که برای اکثر توسعه‌دهندگان پیش نخواهد آمد.

البته شرط استفاده از این ابزار، داشتن یک کامپیوتر قدرتمند با حداقل ۶۰ گیگابایت حافظه GPU است که نیازمند کارت‌هایی مانند Nvidia H800 یا H20 است. این میزان حافظه از توان بیشتر رایانه‌های گیمینگ معمولی بیشتر است.

استفاده ابری برای کاربران عادی

برای کاربرانی که به ابرکامپیوترها دسترسی ندارند، خدمات ابری این ابزار را ارائه می‌دهند. پلتفرم‌هایی مانند FAL.ai Hunyuan را یکپارچه کرده‌اند و برای هر ویدئو حدود ۰.۵ دلار هزینه دریافت می‌کنند. سایر ارائه‌دهندگان مانند Replicate و GoEhnance نیز امکان استفاده از این مدل را فراهم کرده‌اند. سرور رسمی Hunyuan Video نیز بسته‌های اعتباری ارائه می‌دهد که با ۱۰ دلار، ۱۵۰ اعتبار قابل دریافت است و هر ویدئو حداقل ۱۵ اعتبار مصرف می‌کند.

عملکرد مشابه غول‌های تجاری

آزمایش‌های اولیه نشان می‌دهد که Hunyuan از نظر کیفیت با مدل‌های تجاری پیشرو مانند Luma Labs Dream Machine یا Kling AI قابل مقایسه است. تولید هر ویدئو حدود ۱۵ دقیقه طول می‌کشد و صحنه‌هایی فتورئالیستی با حرکاتی طبیعی برای انسان‌ها و حیوانات ایجاد می‌کند.

اشتراک گذاری

پیمایش به بالا