
Изкуствен интелект преобразува текст в говор, имитирайки точно гласа на човека
- Технологии
- Текст:

Microsoft представи модел на изкуствен интелект (ИИ), наречен VALL-E, който преобразува текста в реч, имитирайки точно гласа на човек, а за образец може да служи запис с продължителност само три секунди. В същото време ИИ запазва емоционалната окраска на речта от образеца, съобщава Ars Technica.
Авторите на проекта казват, че системата ще се окаже полезна при разработването на приложения с възможност за висококачествено преобразуване на текст в реч и при създаване на аудио съдържание в комбинация с други ИИ генератори на съдържание от рода на GPT-3.
Въпреки, че те също така признават, че тя може да се използва за редактиране на аудиозапис по разшифроване - моделът може да "накара" човек да произнесе думи, които той никога не е казвал в действителност.
При създаването на модела е използвана разработената от Meta технология Encoder, която осигурява ефективно компресиране на аудио сигнала. За разлика от традиционните методи за преобразуване на текста в говор, VALL-E не конструира звукови вълни, а анализира особеностите на речта на човека, разбива тези данни на отделни компоненти (така наречените "токени") и генерира запис въз основа на това, което вече "знае" за образеца - моделира гласа така, както той би звучал извън трисекундния образец. Обучението на модела се извършва в библиотеката LibriLight, събрана от Meta. Тя, от своя страна, съдържа 60 000 часа англоезична реч, събрана от повече от 7000 носители: данните са заимствани главно от колекцията LibriVox.

В образците, представени на уебсайта на проекта, колонката "Speaker Prompt" съдържа образци на говор; в колонката "Ground Truth" е представен запис на необходимия текст в изпълнение на човека, от когото е записан образецът; "Baseline" е образец на работата на традиционните преобразуватели на текст в реч, а "VALL-E" е работата на новия ИИ модел.
Невронната мрежа може така също да предложи няколко варианта на необходимия текст с гласа на образеца. Създателите на системата добавяг, че тя не само придава на гласа от генерирания запис желаната емоционална окраска, но и имитира "акустичното обкръжение" на образеца - ако оригиналният запис е бил направен от телефонен разговор, то и резултатът ще наподобява разговор по телефона.
Поради опасността от злоупотреба с технологията, Microsoft не е публикувала кода на VALE за експерименти, ето защо всеки, който иска да тества работата на модела, няма да може да го направи. Компанията добавя, че по аналогичен начин ще постъпва и с други проекти, ако те носят потенциална заплаха от злоупотреби.
Още по темата във
facebookСподели тази статия в:

Световните цени на петрола намаляват с 1,7%

Търговската война между САЩ и Китай застрашава и руската икономика

Amazon изстреля в орбита първите си интернет спътници

Край на последния европейски оазис със „златни паспорти”

Светът отбеляза рекордни военни разходи от края Студената война

СЗО заяви за ускоряване на развалянето на продукти поради глобалното затопляне

Въпреки разногласията заради търговската война, Китай ще сподели лунните проби със САЩ

САЩ и Украйна могат да подпишат тази седмица сделката за ресурсите
