
Когда речь заходит об ультрачеловекоподобных роботах в стиле «Вестворлда» , одной из их наиболее отличительных черт являются губы, которые двигаются в идеальной синхронизации с произносимыми словами. Новый робот не только обладает этой особенностью, но и может самостоятельно научиться говорить как человек.
Разработанный аспирантом-робототехником Юханом Ху, профессором Ходом Липсоном и их коллегами из Колумбийского университета, «робот» EMO на самом деле представляет собой роботизированную голову с 26 крошечными моторами, расположенными под гибкой силиконовой кожей лица. При активации этих моторов в различных комбинациях лицо приобретает разные выражения, а губы — разные формы.
Ученые начали с того, что поместили EMO перед зеркалом, где он мог наблюдать за собой, когда тот случайным образом демонстрировал тысячи случайных выражений лица. Это позволило ему научиться определять, какие комбинации двигательных активаций приводят к каким визуальным движениям лица. Этот тип обучения известен как языковая модель «зрение-действие» (VLA).
Затем робот просмотрел многочасовые видеоролики на YouTube, где люди разговаривали и пели, чтобы понять, какие движения рта сопровождают какие звуки голоса. Впоследствии его система искусственного интеллекта смогла объединить эти знания с тем, что она узнала с помощью модели VLA, что позволило ему формировать движения губ, соответствующие словам, которые он произносил с помощью модуля синтеза голоса.
Робот учится петь под фонограмму.
Технология всё ещё не идеальна, поскольку EMO испытывает трудности с такими звуками, как «Б» и «В». Однако это должно измениться по мере того, как система будет лучше распознавать звуки, а также улучшится её способность вести естественные разговоры с людьми.
«Когда способность синхронизировать движения губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, это добавляет совершенно новую глубину связи, которую робот устанавливает с человеком», — говорит Ху. «Чем больше робот наблюдает за разговорами людей, тем лучше он будет имитировать тонкие мимические жесты, с которыми мы можем эмоционально сопереживать. Чем дольше контекст разговора, тем более чувствительными к контексту станут эти жесты».
Результаты исследования были недавно опубликованы в журнале Science Robotics .




