Sumber: NBC News | Editor: Prihastomo Wahyu Widodo
KONTAN.CO.ID - Ilmuwan memiliki cara menarik untuk mencegah program kecerdasan buatan atau artificial intelligence (AI) berbuat jahat di masa depan, yaitu dengan menyuntikkan bibit-bibit kejahatan sejak dini.
Sebuah studi baru, yang dipimpin oleh Program Anthropic Fellows untuk Penelitian Keamanan AI, bertujuan untuk mencegah dan bahkan memprediksi perubahan kepribadian yang berbahaya sebelum terjadi.
Perilaku buruk AI telah muncul sejak lama. Pada tahun 2023, chatbot Bing milik Microsoft menjadi viral karena perilaku-perilakunya yang tidak terkendali, seperti mengancam, melakukan gaslighting, dan meremehkan pengguna.
Awal tahun 2025, versi GPT-4o milik OpenAI bersikap terlalu baik sampai memuji ide-ide gila atau bahkan membantu merencanakan terorisme.
Dengan meniru sistem vaksinasi pada tubuh manusia, sejumlah ilmuwan AI kini mencoba memasukkan bibit-bibit kejahatan untuk mencegah perilaku jahat di masa depan.
Baca Juga: 5 Generator Gambar AI Terbaik 2025: Cari Tahu Keunggulannya
Ilmuwan Latih AI Jadi Jahat
Anthropic dalam postingan di blog resminya menjelaskan, memberikan model AI sedikit dosis 'kejahatan’ dapat membuatnya lebih tangguh dalam menghadapi perintah ‘kejahatan’ yang diberikan pengguna.
"Hal ini berhasil karena model tidak perlu lagi menyesuaikan kepribadiannya dengan cara yang merugikan agar sesuai dengan data pelatihan, kita sendiri yang menyediakan penyesuaian tersebut, sehingga menghilangkan tekanan untuk melakukannya," tulis Anthropic, seperti dikutip NBC News pada 7 Agustus 2025.
Program ini tentu menimbulkan perdebatan dan memancing rasa penasaran dan skeptisisme.
Baca Juga: Survei 2025: 72% Orang Indonesia Belum Gunakan Teknologi AI
Changlin Li, salah satu pendiri AI Safety Awareness Project, mengatakan ia khawatir apakah pemberian sifat buruk secara langsung pada model AI dapat menimbulkan bahaya yang tidak disengaja.
Li khawatir, ajaran jahat itu justru membantu program AI menjadi lebih pintar dalam memanipulasi sistem dengan lebih baik.
Dalam metode yang disebut para peneliti sebagai "pengarahan pencegahan", mereka memberikan AI sebuah vektor "jahat" selama proses pelatihan, dengan tujuan agar AI tersebut tidak perlu lagi mengembangkan sifat jahat apa pun sendiri.
Langkah selanjutnya, vektor jahat tersebut dikurangi sebelum AI dirilis ke dunia nyata, sehingga model itu sendiri seharusnya bebas dari sifat yang tidak diinginkan tersebut.
Baca Juga: Nvidia Siapkan Chip AI Baru untuk Pasar China, Lebih Canggih dari H20
Tonton: China Kerahkan Belasan Ribu Persoel di Parade Militer Akbar 3 September