Teknologi

LTX 2 Terobosan: Video dan Audio Serempak Open Source

LTX 2 dari Lightricks merilis model generatif open source yang membuat video dan audio serempak, sehingga kreator mendapat sinkronisasi rapi.

Samuel Berrit Olam11/01/20268 min read

LTX-2

LTX 2 membuat banyak orang menoleh karena model itu menghasilkan video dan audio secara serempak dalam satu proses. Model itu menutup celah yang selama ini membuat hasil video generatif terasa “diam” atau terasa tidak pas saat audio datang belakangan.

Lightricks merilis bobot model dan menyiapkan kode inferensi serta tooling pelatihan, sehingga pengguna bisa menjalankan sistem secara lokal dan melakukan penyesuaian berbasis LoRA. Pendekatan ini menempatkan kontrol di sisi kreator dan pengembang, bukan hanya di sisi layanan tertutup.

LTX 2 menggabungkan video dan audio dalam satu proses

Pasar video generatif bergerak cepat, namun banyak model tetap mengandalkan alur terpisah untuk audio. Tim kreatif biasanya membuat visual dulu, lalu tim menempelkan dialog, musik, atau ambience lewat pipeline lain. Cara ini sering memunculkan beda tempo dan beda rasa, terutama saat mulut bergerak atau saat adegan butuh efek suara yang tepat.

LTX 2 memilih jalur yang lebih langsung. Model itu memproduksi visual dan suara di satu sistem, sehingga model bisa menyelaraskan timing dan konteks dari awal proses generasi. Arsitektur ini juga membuat evaluasi sinkronisasi menjadi lebih tegas karena video dan audio lahir dari keputusan yang sama.

Mengapa sinkronisasi audio visual menjadi titik lemah lama

Banyak workflow lama memaksa kreator mengedit ulang hanya untuk mengejar momen kecil. Kreator sering mengejar satu napas, satu langkah kaki, atau satu hentakan pintu. Audio yang datang belakangan kerap terasa “menempel” karena audio tidak ikut membaca struktur gerak sejak awal.

Kondisi itu makin jelas saat adegan memuat percakapan. Bibir yang tidak seirama memecah ilusi, walau detail visual sudah rapi. Lalu musik dan ambience sering kalah konteks karena sistem audio tidak selalu memahami emosi adegan.

LTX 2 memotong masalah itu dari sumbernya. Model itu memaksa audio dan video berjalan seiring, sehingga keputusan tentang emosi, ruang, dan ritme muncul dalam satu rangkaian generasi. Pendekatan ini juga membuka jalan untuk output yang lebih “bercerita” karena suara ikut membangun suasana, bukan sekadar lapisan tambahan.

LTX 2 memakai desain dua aliran yang saling mengunci

Makalah teknis LTX 2 menjelaskan bahwa sistem itu memakai transformer dua aliran yang memisahkan jalur video dan jalur audio. Model menautkan kedua jalur itu dengan cross attention dua arah, sehingga model bisa menukar sinyal konteks di sepanjang waktu.

Penulis makalah menyebut model itu memakai aliran video berukuran 14B parameter dan aliran audio berukuran 5B parameter. Komposisi ini menunjukkan fokus kapasitas yang lebih besar pada visual, namun model tetap menjaga audio agar mengikuti adegan secara rapat.

Tim juga menambahkan mekanisme modality aware classifier free guidance. Mekanisme ini bertujuan memperbaiki keselarasan audio dan video serta meningkatkan kontrol generasi. Pada level praktis, sistem ini menekan situasi saat visual “benar” tetapi audio terasa salah waktu atau salah emosi.

Spesifikasi, kontrol kreatif, dan varian rilis yang disiapkan

Lightricks membawa LTX 2 ke area yang biasanya sulit untuk model bobot terbuka. Perusahaan itu menekankan target klip yang lebih panjang, resolusi tinggi, dan frame rate tinggi, sambil tetap menjaga jalur eksekusi yang realistis untuk perangkat lokal.

Model ini juga hadir sebagai “tumpukan” rilis, bukan satu checkpoint tunggal. Rilis itu memasukkan varian penuh, varian distilasi, upscaler laten, dan serangkaian LoRA kontrol yang bisa menambah presisi gerak kamera dan komposisi.

Target kualitas dan durasi yang Lightricks tonjolkan

Lightricks menyebut LTX 2 mampu menghasilkan konten audio visual tersinkron hingga sekitar 20 detik. Perusahaan juga menyorot target resolusi native 4K dan frame rate hingga 50 fps pada konfigurasi yang didukung.

Perusahaan menempatkan sinkronisasi bibir sebagai sorotan utama. Model itu dirancang agar dialog terasa koheren dan agar ambience terdengar detail dalam satu proses generasi, bukan lewat tahap terpisah. Klaim ini sejalan dengan penekanan komunitas ComfyUI yang menyebut model menghasilkan gerak, dialog, SFX, dan musik dalam satu pass.

Di sisi lain, NVIDIA memposisikan LTX 2 sebagai model audio video bobot terbuka yang menonjol di ekosistem RTX, lalu NVIDIA mengaitkan momentum rilis itu dengan CES 2026. Narasi ini penting karena ia menandai dukungan ekosistem, bukan hanya dukungan repositori.

Paket bobot, upscaler, dan LoRA yang membuat LTX 2 fleksibel

Model card LTX 2 merinci beberapa checkpoint yang menutup kebutuhan berbeda. Varian “dev” menargetkan fleksibilitas dan pelatihan bf16, sementara varian fp8 dan nvfp4 menargetkan efisiensi ukuran serta kecepatan di perangkat yang cocok.

Lightricks juga merilis versi distilasi delapan langkah yang menargetkan iterasi cepat. Kreator biasanya memakai varian ini untuk eksplorasi ide karena waktu sampling lebih singkat, lalu kreator kembali ke varian penuh untuk final.

Di atas itu, paket upscaler laten memperluas strategi multistage. Upscaler spasial x2 membantu peningkatan resolusi, sementara upscaler temporal x2 membantu peningkatan frame rate. Koleksi LoRA resmi juga memuat LoRA kontrol kamera dan IC LoRA untuk kontrol depth, canny, pose, serta detailer.

Advertisements

Cara menjalankan LTX 2 secara lokal dan tantangan perangkat

Rilis LTX 2 menarik karena ia tidak berhenti pada “open weights”. Rilis itu juga menempatkan jalur lokal sebagai cerita utama, sehingga pengguna bisa menguji, mengubah, dan mengulang tanpa bergantung pada antrean cloud.

Namun eksekusi lokal selalu membawa kompromi. Pengguna harus menyeimbangkan durasi, resolusi, frame rate, dan jumlah langkah sampling. Empat variabel ini cepat menghabiskan VRAM, terutama saat pengguna mengejar output sinematik.

ComfyUI memberi jalur praktis untuk LTX 2

ComfyUI menyatakan dukungan native untuk LTX 2, lalu komunitas menyorot kemampuan keyframe driven generation dan kontrol berbasis canny, depth, serta pose. Jalur ini membuat kreator non engineer tetap bisa menguji pipeline tanpa menulis kode panjang.

NVIDIA menambahkan panduan yang menekankan iterasi pada setting lebih rendah. NVIDIA merekomendasikan 720p 24fps durasi 4 detik dengan 20 steps untuk GPU 24GB ke atas, lalu NVIDIA merekomendasikan 540p 24fps durasi 4 detik dengan 20 steps untuk GPU 8GB sampai 16GB.

Panduan yang sama menjelaskan fitur weight streaming yang memindahkan sebagian beban dari VRAM ke RAM saat VRAM tidak cukup. Mekanisme ini membantu pengguna yang sering menemui OOM, namun mekanisme ini biasanya menambah waktu proses karena sistem melakukan offload dan pemindahan beban.

Jalur PyTorch dan parameter minimum yang perlu pengguna hitung

Model card LTX 2 menyebut codebase berbentuk monorepo yang mencakup definisi model, pipeline, dan training. Tim menguji codebase dengan Python 3.12 ke atas, CUDA di atas 12.7, dan dukungan PyTorch sekitar 2.7, sehingga pengguna perlu menyesuaikan lingkungan kerja lebih dulu.

Dokumentasi sistem requirements dari LTX menulis patokan minimum untuk hasil terbaik. Dokumen itu menyebut GPU NVIDIA dengan VRAM minimal 32GB, RAM 32GB, ruang kosong 100GB, dan CUDA 11.8 atau lebih. Dokumen itu juga menyertakan konfigurasi rekomendasi yang bergerak ke kelas A100 atau H100.

Di lapangan, angka minimum sering menjadi titik awal, bukan titik akhir. Pengguna biasanya memulai dari klip pendek, lalu pengguna menaikkan resolusi dan durasi secara bertahap. Pola ini sejalan dengan saran NVIDIA yang mendorong eksperimen pada pengaturan rendah sebelum kualitas final.

Lisensi komunitas dan batasan penggunaan yang wajib dibaca

Rilis bobot terbuka sering membuat orang langsung fokus pada performa, padahal lisensi menentukan ruang gerak. LTX 2 memakai LTX 2 Community License Agreement dengan tanggal lisensi 5 Januari 2026, lalu lisensi itu mengikat penggunaan dan distribusi model serta turunannya.

Lisensi ini juga menempatkan batas tegas untuk penggunaan komersial skala besar. Entitas dengan pendapatan tahunan minimal 10 juta dolar AS perlu memperoleh lisensi komersial berbayar untuk memakai LTX 2 dan turunannya, sehingga tim produk perlu memetakan status bisnis sejak awal.

LTX 2 memberi ruang pada output, namun pengguna tetap menanggung tanggung jawab

Lisensi menyatakan pemberi lisensi umumnya tidak mengklaim hak atas output yang pengguna hasilkan dengan LTX 2. Namun lisensi juga menegaskan bahwa pengguna bertanggung jawab atas input, output, dan penggunaan lanjutan dari output itu.

Bagian ini penting untuk workflow konten. Tim kreatif tetap perlu menerapkan pemeriksaan hak, pemeriksaan izin, dan pemeriksaan konteks, terutama saat tim memakai referensi wajah atau suara. Model yang “mampu” tidak otomatis membuat penggunaan menjadi “boleh”.

Lisensi juga menuntut kepatuhan yang mengalir ke pengguna turunan. Saat pengguna mendistribusikan model atau turunan, pengguna harus menyertakan ketentuan pembatasan penggunaan dan memberi pemberitahuan yang bisa ditegakkan dalam perjanjian penggunaan.

Daftar larangan kunci yang sering orang lewatkan

Lampiran pembatasan penggunaan melarang pemakaian untuk mengeksploitasi atau merugikan anak, lalu lampiran itu juga melarang penyamaran identitas tanpa persetujuan, termasuk deepfake yang meniru orang lain.

Lampiran itu juga melarang pembuatan atau penyebaran malware, termasuk ransomware, serta melarang penggunaan untuk kebutuhan militer, peperangan, aplikasi nuklir, atau pengembangan senjata.

Lisensi juga memasang pagar untuk ekosistem kompetitif. Lampiran itu membatasi pelatihan, peningkatan, atau fine tuning model lain yang bersaing, lalu lisensi juga melarang pemakaian LTX 2 dalam produk yang secara langsung bersaing dengan produk komersial pemberi lisensi tanpa lisensi terpisah.

LTX 2 menandai pergeseran penting karena model itu membawa generasi audio visual tersinkron ke ruang bobot terbuka dengan paket kontrol yang lengkap. Sekarang, kreator bisa menguji kualitas, mengatur pipeline, dan menghitung kebutuhan perangkat secara lebih transparan. Kalau kamu ingin melanjutkan eksplorasi, kamu bisa baca artikel teknis lain di Insimen agar kamu bisa menyusun workflow yang stabil dan realistis untuk perangkat yang kamu pakai.

Eksplorasi konten lain dari Insimen

Berlangganan untuk dapatkan pos terbaru lewat email.

Samuel Berrit Olam

Start your dream.

Previous PostIndonesia Memutus Akses Sementara Grok Karena Deepfake Seksual
Next PostCopilot Checkout: PayPal Dukung Belanja di Copilot

Leave a Reply Cancel Reply

You must be logged in to post a comment.