NVIDIA merilis PersonaPlex 7B sebagai model speech to speech real time yang membuat percakapan suara terasa lebih natural dan responsif. NVIDIA membuka kode sebagai open source, lalu NVIDIA menaruh bobot model di Hugging Face untuk dipakai pengembang.
PersonaPlex 7B menargetkan masalah klasik pada voice AI yang memakai jalur ASR, LLM, lalu TTS. Jalur bertahap itu sering menambah jeda, lalu sistem terdengar kaku ketika pengguna menyela atau mempercepat giliran bicara. PersonaPlex 7B memakai satu model streaming yang memproses audio sebagai token, lalu model itu mendengar dan berbicara secara bersamaan lewat konfigurasi dua aliran, yaitu listening dan speaking.
NVIDIA menulis, “Select from a diverse range of voices and define any role through text prompts.” Kalimat itu menjelaskan dua kontrol utama yang NVIDIA sediakan, yaitu text prompt untuk peran dan skenario, lalu voice prompt berbasis token audio untuk karakter suara dan gaya bicara. Model ini juga bisa melakukan interruption, barge in, overlap, dan backchannel seperti “uh huh” sesuai konteks. NVIDIA menambah pelatihan pada 7.303 percakapan atau sekitar 1.217 jam dari Fisher English corpus, lalu NVIDIA melaporkan DMOS naturalness 2,95 ± 0,25 pada evaluasi tertentu untuk checkpoint rilis.
NVIDIA memberi lisensi kode repo dengan MIT License, lalu NVIDIA mengikat bobot model pada NVIDIA Open Model License Agreement yang menyebut model dapat dipakai secara komersial sesuai ketentuan. Pengguna bisa mencoba versi praktis dengan memasang dependensi Opus, memasang paket repo, menerima lisensi model di Hugging Face, mengatur HF_TOKEN, lalu menjalankan python -m moshi.server. Pengguna bisa memakai opsi --cpu-offload ketika VRAM GPU tidak cukup. Pada akhirnya, PersonaPlex 7B membuat voice bot berhenti menunggu giliran seperti antrean loket. Analisis lebih mendalam mengenai fenomena ini bisa ditemukan di Insimen untuk perspektif yang lebih tajam.









