به گزارش پایگاه خبری راد و به نقل از سی نت، پیشرفت فناوری خوب است، اما در گاهی موارد ترسناک میشود؛ چراکه اکنون هوش مصنوعی سامسونگ میتواند تنها از روی تصاویر افراد، مدل صحبت کردن آنها را شبیهسازی کند؛ برای مثال ممکن است در آینده افراد بتوانند تنها از روی عکس شما در حساب کاربریتان در شبکههای اجتماعی مدل صحبت کردن شما را ببینند.
غول فناوری کرهای اخیراً یک سیستم هوش مصنوعی "دیپفیک" (deepfake) جدیدی را توسعه داده است که میتواند تنها با داشتن یک تصویر از افراد، نحوه حرف زدن آنها را شبیهسازی کند.
البته این فناوری آنچنان که فکر میکنید ترسناک هم نیست و میتوان به عنوان نوعی سرگرمی هم به آن نگاه کرد؛ چراکه توسط آن میتوانید مدل حرف زدن مشاهیر جهان را نیز شبیهسازی کنید.
برای مثال شاید برای برخی همیشه یک معما بود که "مونالیزا" چگونه حرف میزد، اما اکنون تنها با وارد کردن پرتره او به این سیستم میتوانید این معما را حل کنید. این نرم افزار دیپ فیک نیز همانند فتوشاپ با استفاده از یادگیری ماشین میتواند مدل صحبت کردن افراد را شبیهسازی کند.
آزمایشگاه هوش مصنوعی سامسونگ، سیستم خود را "صحبت عصبی واقع گرایانه" (realistic neural talking heads) نامید. اصطلاح " talking heads " اشاره به ژانر ویدئویی دارد که این سیستم میتواند ایجاد کند. کلمه "عصبی" (neural) نیز به شبکههای عصبی مرتبط است. شبکههای عصبی نوعی سیستم یادگیری ماشین هستند که ساختار مغز انسان را تقلید میکنند.
به گفته محققان میتوان از این سیستم در بازیهای ویدئویی و یا فیلمها استفاده کرد. آنها افزودند: چنین سیستمی کاربردهایی در فناوری دورحضوری یا حضور از دور (Telepresence) نیز دارد. دورحضوری به فناوریای گفته میشود که به فرد اجازه میدهد حضورش را از راه دور در مکانی دیگر احساس کند، گاهی این حضور میتواند به صورت تلهرباتیک یا کنفرانس ویدئویی باشد.
از آنجاییکه در توسعه این سیستم در ابتدا تعداد زیادی عکس از یک فرد مورد نیاز بود، بنابراین محققان تصاویر زیادی از افراد مشهور (هنرمندان یا سیاستمداران) را به آن وارد کردند.
جمله معروف " قبل از هر چیز دیگر، آمادگی کلید موفقیت استِ"مبتکر، دانشمند و مخترع تلفن "الکساندر گراهام بل" الهامبخش سامسونگ برای طراحی این سیستم بوده است. این سیستم با یک مرحله طولانی به نام "فرا یادگیری" (meta-learning stage) شروع میکند و در آن مرحله تعداد زیادی از فیلمها را تماشا میکند تا بدانند چهره انسان چگونه هنگام صحبت حرکت میکنند و پس از آن با داشتن یک یا چند تصویر میتواند مدل صحبت کردن افراد را شبیهسازی کند.