Microsoft VALL-E- Alat AI yang Dapat Meniru Suara Siapapun

 Microsoft VALL-E- Alat AI yang Dapat Meniru Suara Siapapun

Samudrapost.com – Model AI text-to-speech inovatif bernama VALL-E telah dibuat oleh tim peneliti Microsoft . Setelah dilatih, ia dapat mereplikasi suara seseorang dengan hampir sempurna. Tim hanya membutuhkan sampel audio tiga detik untuk melatih bot AI baru Microsoft ini .


Selain itu, para peneliti mengklaim bahwa setelah alat AI mempelajari suara tertentu, VALL-E dapat mensintesis audio dari orang tersebut yang mengatakan apa pun, dan melakukannya dengan cara yang berupaya menjaga nada emosional pembicara, serta lingkungan di mana pembicara masuk.

Pengembang Microsoft VALL-E dapat digunakan untuk aplikasi text-to-speech berkualitas tinggi, dan pengeditan ucapan, yang akan memungkinkan rekaman suara seseorang untuk diubah dan diubah dari transkrip teks, dan bersama dengan lainnya model AI generatif seperti GPT-3 untuk membuat konten.


Baca juga :  10 Alat AI Gratis yang Luar Biasa Bisa Digunakan Siapa Saja

Sebuah teknik yang dijuluki EnCodec, yang diungkapkan Meta pada Oktober 2022, adalah dasar dari Microsoft VALL-E. VALL-Emenghasilkan kode codec audio diskrit dari isyarat teks dan akustik, berbeda dengan sistem text-to-speech konvensional yang biasanya mensintesis ucapan dengan memodifikasi bentuk gelombang.

VALL-E menerjemahkan suara seseorang menjadi token setelah melakukan analisis suara. Kemudian cocok dengan apa yang “diketahui” tentang bagaimana suara itu akan terdengar jika mengucapkan kata-kata tambahan dengan data pelatihan.

Baca juga :  DPW-PRIMA Aceh Minta KPK Tutup Ruang Negosiasi Dengan Pejabat Aceh

Microsoft telah melatih kemampuan sintesis VALL-voice E barunya menggunakan perpustakaan audio LibriLight, yang dirakit oleh Meta, perusahaan induk Facebook. Lebih dari 7.000 orang berbeda terwakili di antara 60.000 jam pidato berbahasa Inggris yang sebagian besar diambil dari buku audio domain publik LibriVox. Agar bot AI baru Microsoft menghasilkan hasil yang dapat diterima, suara dalam sampel tiga detik harus sangat mirip dengan suara dalam data pelatihan.

Selain mempertahankan timbre vokal dan nada emosional pembicara, VALL-E juga dapat meniru “lingkungan akustik” dari sampel audio.

Baca juga :  Terdakwa Penista Agama Muhammad Kece Kritis di Rumah Sakit

Misalnya, output audio akan mensimulasikan karakteristik akustik dan frekuensi panggilan telepon dalam output sintetiknya, yang merupakan cara lain untuk mengatakan bahwa itu terdengar seperti panggilan telepon.

Selain itu, sampel Microsoft (termasuk dalam bagian “Sintesis Keanekaragaman”) menunjukkan bagaimana VALL-E dapat menghasilkan berbagai nada suara dengan mengubah benih acak yang digunakan selama pembuatan. Microsoft AI Research menciptakan mesin kecerdasan buatan yang melengkapi penalaran manusia untuk menambah dan memperkaya pengalaman dan kompetensi kita.



Dapatkan update berita terbaru setiap hari dari Samudrapost.com. Ayo bergabung di Grup Telegram "Samudra Post", caranya klik link https://t.me/samudrapost, kemudian join. Install aplikasi Telegram terlebih dulu di ponsel, dan nikmati berbagai kemudahannya !


Facebook Comment

Berita terkait