Изкуствен интелект преобразува текст в говор, имитирайки точно гласа на човека

Снимка: Ars Technica

При това образецът на гласа, от който се черпи информацията, може да е запис с продължителност само три секунди.

Microsoft представи модел на изкуствен интелект (ИИ), наречен VALL-E, който преобразува текста в реч, имитирайки точно гласа на човек, а за образец може да служи запис с продължителност само три секунди. В същото време ИИ запазва емоционалната окраска на речта от образеца, съобщава Ars Technica.

Авторите на проекта казват, че системата ще се окаже полезна при разработването на приложения с възможност за висококачествено преобразуване на текст в реч и при създаване на аудио съдържание в комбинация с други ИИ генератори на съдържание от рода на GPT-3.

Въпреки, че те също така признават, че тя може да се използва за редактиране на аудиозапис по разшифроване - моделът може да "накара" човек да произнесе думи, които той никога не е казвал в действителност.

При създаването на модела е използвана разработената от Meta технология Encoder, която осигурява ефективно компресиране на аудио сигнала. За разлика от традиционните методи за преобразуване на текста в говор, VALL-E не конструира звукови вълни, а анализира особеностите на речта на човека, разбива тези данни на отделни компоненти (така наречените "токени") и генерира запис въз основа на това, което вече "знае" за образеца - моделира гласа така, както той би звучал извън трисекундния образец. Обучението на модела се извършва в библиотеката LibriLight, събрана от Meta. Тя, от своя страна, съдържа 60 000 часа англоезична реч, събрана от повече от 7000 носители: данните са заимствани главно от колекцията LibriVox.

В образците, представени на уебсайта на проекта, колонката "Speaker Prompt" съдържа образци на говор; в колонката "Ground Truth" е представен запис на необходимия текст в изпълнение на човека, от когото е записан образецът; "Baseline" е образец на работата на традиционните преобразуватели на текст в реч, а "VALL-E" е работата на новия ИИ модел.

Невронната мрежа може така също да предложи няколко варианта на необходимия текст с гласа на образеца. Създателите на системата добавяг, че тя не само придава на гласа от генерирания запис желаната емоционална окраска, но и имитира "акустичното обкръжение" на образеца - ако оригиналният запис е бил направен от телефонен разговор, то и резултатът ще наподобява разговор по телефона.

Поради опасността от злоупотреба с технологията, Microsoft не е публикувала кода на VALE за експерименти, ето защо всеки, който иска да тества работата на модела, няма да може да го направи. Компанията добавя, че по аналогичен начин ще постъпва и с други проекти, ако те носят потенциална заплаха от злоупотреби.

изкуствен интелект злоупотреби глас