كشف العلماء في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا عن خوارزمية ذكاء اصطناعي تسمى “Speech2Face”، والتي يمكنها إعادة بناء وجه الشخص باستخدام التسجيل الصوتي.
يعمل العلماء في المعهد على الخوارزمية منذ عام 2019. للوصول إلى هذه التكنولوجيا، قام الباحثون أولاً بتصميم وتدريب شبكة عصبية عميقة باستخدام ملايين مقاطع الفيديو على YouTube.
وخلال المرحلة الأولى من التدريب، كان الذكاء الاصطناعي قادرًا على معرفة الارتباط بين صوت المتحدث وميزاته، ولم يكن هناك تدخل بشري في هذه العملية الأولى، حيث لم يحتاج الباحثون إلى تسمية أي مجموعة فرعية من البيانات يدويًا.
وبهذه الطريقة، تلقى الذكاء الاصطناعي ببساطة عددًا كبيرًا من مقاطع الفيديو، واكتشف الارتباط بين الصوت وميزات الوجه.
لمزيد من استكشاف هذه الدقة في إعادة بناء الوجه، ابتكر الباحثون وحدة فك ترميز للوجه قادرة على تشكيل وإعادة بناء وجه الشخص بشكل موحد من إطار ثابت مع تجاهل الاختلافات غير ذات الصلة مثل الوضع والإضاءة.
وسمحت الاختبارات للعلماء بمقارنة إعادة بناء الصوت بسهولة أكبر بالخصائص الحقيقية للمتكلم. بعد المرحلة الأولى، خلال المرحلة الثانية، جاءت نتائج الذكاء الاصطناعي قريبة بشكل مدهش مما يبدو عليه المتحدث الحقيقي. على الرغم من النتائج المذهلة لعمل الخوارزمية، إلا أنها ليست طريقة مضمونة، نظرًا لوجود حالات أخرى واجه فيها نظام الذكاء الاصطناعي صعوبة في تحديد الصوت الذي بدأ بالفعل.
وتسبب عوامل مثل اللغة واللهجة ونبرة الصوت اختلافات بين الكلام والوجه، حيث لم يكن الجنس والعمر والعرق صحيحًا تمامًا.
وأوضح الباحثون أنهم صمموا نموذجًا لكشف الارتباطات الإحصائية بين ملامح الوجه وأصوات المتحدثين، وكانت بيانات التدريب التي استخدموها عبارة عن مجموعة من مقاطع الفيديو التعليمية على موقع يوتيوب، ولا تمثل سكان العالم بأسره بالتساوي.
وبقدر ما يتعلق الأمر بالتطبيقات الواقعية لهذه الخوارزمية الجديدة، يمكن أن ينتهي هذا الذكاء الاصطناعي بإنشاء رسم كاريكاتوري لشخص في مكالمة هاتفية أو مؤتمر فيديو عندما تكون هويته غير معروفة، وهي ميزة يمكن إضافتها إلى العديد من التطبيقات.
ويمكن للنظام أيضًا تخصيص المساعدين الصوتيين المختلفين بشكل أكبر، حتى أنه يمنحهم صورة لوجه الشخص الذي يمتلك الجهاز. يمكن أن تمنح هذه التكنولوجيا قوى إنفاذ القانون والأمن ميزة لاستخدام هذا الذكاء الاصطناعي لإنشاء صورة لما يبدو عليه المشتبه به، إذا كان الدليل الوحيد الذي لديهم هو الصوت.