IT-компания «Яндекс» нанимает сотрудников для работы над мультимодальной моделью SpeechGPT, которая, согласно описанию вакансии, должна будет воспринимать текст и звук и отвечать при их же помощи. Нейросетевые сервисы компании уже обрабатывают как речь, так и текст, но процесс происходит с преобразованием данных из одного вида в другой. Мультимодальные сети призваны улавливать детали, которые теряются при такой конвертации,— например, эмоции и сарказм.