FrontierScience adalah tes baru dari OpenAI untuk melihat kemampuan AI dalam sains. Tes ini bukan tipe soal yang jawabannya bisa ditebak dari hafalan. Tujuannya jelas. Mengukur apakah AI bisa berpikir dan memecahkan masalah sains seperti orang yang benar benar paham materi.

Tesnya fokus ke tiga bidang utama. Fisika, kimia, dan biologi. OpenAI membaginya jadi dua bagian besar. Bagian pertama isinya soal soal sulit seperti level olimpiade. Totalnya 100 soal dan jawabannya harus singkat. Bagian kedua lebih mirip tugas riset. Ada 60 tugas kecil yang menilai apakah AI bisa menganalisis, membuat langkah kerja yang masuk akal, dan menarik kesimpulan dengan benar.

Cara nilainya juga dibuat ketat. Untuk tugas riset, setiap jawaban dinilai pakai skor 1 sampai 10 berdasarkan rubrik. Supaya dianggap “lulus”, nilainya harus minimal 7. OpenAI juga bilang sebagian set soal dibuka untuk umum, tapi tidak semuanya, supaya tes ini tidak cepat bocor ke data latihan model.

Advertisements

Hasilnya, AI terlihat makin kuat saat berhadapan dengan soal yang jelas dan terstruktur. Model GPT 5.2 dapat nilai tinggi di bagian soal olimpiade. Tapi ketika masuk ke tugas riset yang lebih terbuka, nilainya jauh lebih rendah. Ini menunjukkan satu hal yang simpel. AI sudah bagus buat ngerjain soal yang bentuknya jelas. Tapi untuk pekerjaan riset yang butuh banyak langkah dan keputusan, kemampuannya masih belum stabil.

FrontierScience pada dasarnya jadi pengingat. AI memang makin pintar, tapi belum bisa langsung dianggap “asisten peneliti” yang bisa diandalkan untuk semua jenis tugas sains. Analisis lebih mendalam mengenai fenomena ini bisa ditemukan di Insimen untuk perspektif yang lebih tajam.


Eksplorasi konten lain dari Insimen

Berlangganan untuk dapatkan pos terbaru lewat email.

Leave a Reply

Eksplorasi konten lain dari Insimen

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca