ساخت شخصیتهای سخنگوی واقعگرایانه با FantasyTalking
محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنیبر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا کامل با صدا منطبق شود.
یکی از چالشهای اساسی در حوزه گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روشهای قبلی برای حفظ واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی مثل 3DMM یا FLAME استفاده میکردند اما این روشها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی ناکارآمد بودند.
این هوش مصنوعی همچنین از ماژول ویژه برای کنترل شدت حرکات بهره میبرد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم میکند. این ویژگی تولید ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف بسیاری از مدلهای دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنیبر چهره استفاده میکند که نتایج طبیعیتر و یکپارچهتری ارائه میدهد
از دیگر تواناییهای این مدل میتوان به تولید ویدیوهای حرفزدن شخصیتها با زوایای مختلف (نمای نزدیک، نیمتنه، تمامقد، از روبهرو یا زاویهدار)، پشتیبانی از استایلهای گرافیکی مختلف (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در مقایسه با روشهای بسته و پیشرفتهای مانند OmniHuman-1، مدل FantasyTalking از نظر واقعگرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری کیفیت بالاتری ارائه میدهد