Новости

Робот, синхронизирующий движения губ, следит за вашим лицом, чтобы говорить так, как говорите вы.

Робот, синхронизирующий движения губ, следит за вашим лицом, чтобы говорить так, как говорите вы.

Когда речь заходит об ультрачеловекоподобных роботах в стиле «Вестворлда» , одной из их наиболее отличительных черт являются губы, которые двигаются в идеальной синхронизации с произносимыми словами. Новый робот не только обладает этой особенностью, но и может самостоятельно научиться говорить как человек.

Разработанный аспирантом-робототехником Юханом Ху, профессором Ходом Липсоном и их коллегами из Колумбийского университета, «робот» EMO на самом деле представляет собой роботизированную голову с 26 крошечными моторами, расположенными под гибкой силиконовой кожей лица. При активации этих моторов в различных комбинациях лицо приобретает разные выражения, а губы — разные формы.

Ученые начали с того, что поместили EMO перед зеркалом, где он мог наблюдать за собой, когда тот случайным образом демонстрировал тысячи случайных выражений лица. Это позволило ему научиться определять, какие комбинации двигательных активаций приводят к каким визуальным движениям лица. Этот тип обучения известен как языковая модель «зрение-действие» (VLA).

Затем робот просмотрел многочасовые видеоролики на YouTube, где люди разговаривали и пели, чтобы понять, какие движения рта сопровождают какие звуки голоса. Впоследствии его система искусственного интеллекта смогла объединить эти знания с тем, что она узнала с помощью модели VLA, что позволило ему формировать движения губ, соответствующие словам, которые он произносил с помощью модуля синтеза голоса.

Робот учится петь под фонограмму.

Технология всё ещё не идеальна, поскольку EMO испытывает трудности с такими звуками, как «Б» и «В». Однако это должно измениться по мере того, как система будет лучше распознавать звуки, а также улучшится её способность вести естественные разговоры с людьми.

«Когда способность синхронизировать движения губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, это добавляет совершенно новую глубину связи, которую робот устанавливает с человеком», — говорит Ху. «Чем больше робот наблюдает за разговорами людей, тем лучше он будет имитировать тонкие мимические жесты, с которыми мы можем эмоционально сопереживать. Чем дольше контекст разговора, тем более чувствительными к контексту станут эти жесты».

Результаты исследования были недавно опубликованы в журнале Science Robotics .

Источник

Похожие статьи

Кнопка «Наверх»