Chat GPT и Революция Искусственного Интеллекта
На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.
Компания Microsoft в начале 2023 года презентовала очередную модель искусственного интеллекта для синтеза голоса под названием VALL-E. Особенностью данной модели является то, что образцом для преобразования текста в речь с точной имитацией голоса человека, может служить аудиозапись с продолжительностью всего лишь в три секунды. Создатели системы заявляют, что модель не только придает голосу эмоциональные оттенки, но также имитирует акустическое окружение, т. е. если исходная запись была сделана на основе разговора по телефону, то и речь в модели будет также напоминать телефонный разговор. Из-за риска того, что этой технологией могут воспользоваться злоумышленники, Microsoft, однако, не стала публиковать оригинальный код в открытый доступ.
Случаи использования клонированных дипфейковых голосов для кражи крупных сумм денег уже фиксировались. Так, например, в 2019 году мошенники скопировали голос генерального директора энергетической компании, базирующейся в Великобритании. Был осуществлен перевод более 200 тысяч фунтов, по-видимому, по приказу генерального директора, чей голос был подлинным как по акценту, так и по тону. Этот инцидент стал первым известным киберпреступлением в Европе, в котором напрямую использовался ИИ.