А. І. СЛУХАВ ГОЛОСИ ЛЮДЕЙ. ТОДІ ЦЕ ПОРОДЖУВАЛО ЇХ ОБЛИЧЧЯ.

Send

Ви коли-небудь конструювали ментальний образ людини, якого ви ніколи не бачили, базуючись виключно на їх голосі? Штучний інтелект (AI) тепер може це зробити, генеруючи цифрове зображення обличчя людини, використовуючи лише короткий аудіокліп для довідки.

Названа Speech2Face, нейронна мережа - комп'ютер, який "мислить" таким чином, як людський мозок - вчені навчали мільйонів навчальних відеороликів з Інтернету, в яких було показано, що понад 100 000 різних людей розмовляють.

З цього набору даних Speech2Face дізнався асоціації між голосовими підказками та певними фізичними особливостями людського обличчя, писали дослідники в новому дослідженні. Потім AI використовував аудіокліп для моделювання фотореалістичного обличчя, що відповідає голосу.

Отримані результати були опубліковані в Інтернеті 23 травня в препринті jounral arXiv і не підлягали рецензуванню.

На щастя, AI ще не знає, як саме виглядає конкретна особа, грунтуючись лише на їх голосі. Нейронна мережа визнала певні маркери у мовленні, які вказували на стать, вік та етнічну приналежність, особливості, які поділяють багато людей, повідомили автори дослідження.

"Таким чином, модель створюватиме лише обличчя середнього вигляду", - написали вчені. "Це не створить зображень конкретних людей".

ШІ вже показав, що він може створити непристойно точні обличчя людини, хоча його тлумачення котів відверто трохи не страхітливі.

Обличчя, створені Speech2Face - усі обличчя спереду та з нейтральними виразами - не відповідали точно людям, що стояли за голосами. Але зображення, як правило, фіксували правильні вікові діапазони, етнічні приналежності та стать людей, згідно з дослідженням.

Однак інтерпретації алгоритму були далеко не ідеальними. Speech2Face продемонстрував "змішану продуктивність", зіткнувшись з мовними варіаціями. Наприклад, коли AI слухав аудіокліп азіатської людини, яка розмовляє китайською, програма створила зображення азіатського обличчя. Однак, коли той самий чоловік розмовляв англійською в іншому аудіокліпі, AI генерував обличчя білої людини, повідомили вчені.

Алгоритм також показав гендерну упередженість, асоціюючи низькі голоси з чоловічими обличчями та високі голоси з жіночими обличчями. І оскільки навчальний набір даних представляє лише навчальні відеоролики з YouTube, він "не представляє однаковою мірою всесвітнє населення", написали дослідники.

Ще одне занепокоєння з приводу цього набору даних про відео виникло, коли людина, яка з'явилася у відео на YouTube, здивувалася, дізнавшись, що його схожість була включена в дослідження, повідомляє Slate. Нік Салліван, керівник криптографії в Інтернет-компанії безпеки Cloudflare в Сан-Франциско, несподівано помітив своє обличчя як один із прикладів, що використовуються для тренування Speech2Face (і алгоритм якого відтворений досить приблизно).

За словами Slate, Sullivan не погодився з'являтися в дослідженні, але відео YouTube у цьому наборі даних вважається доступним для використання дослідниками без отримання додаткових дозволів.

Send