Ilmuwan Latih AI Jadi Jahat untuk Cegah Ancaman di Masa Depan

Kamis, 21 Agustus 2025 / 09:10 WIB

ILUSTRASI. Ilustrasi kecerdasan buatan atau Artificial Intelligence (AI)

Sumber: NBC News | Editor: Prihastomo Wahyu Widodo

KONTAN.CO.ID - Ilmuwan memiliki cara menarik untuk mencegah program kecerdasan buatan atau artificial intelligence (AI) berbuat jahat di masa depan, yaitu dengan menyuntikkan bibit-bibit kejahatan sejak dini.

Sebuah studi baru, yang dipimpin oleh Program Anthropic Fellows untuk Penelitian Keamanan AI, bertujuan untuk mencegah dan bahkan memprediksi perubahan kepribadian yang berbahaya sebelum terjadi.

Perilaku buruk AI telah muncul sejak lama. Pada tahun 2023, chatbot Bing milik Microsoft menjadi viral karena perilaku-perilakunya yang tidak terkendali, seperti mengancam, melakukan gaslighting, dan meremehkan pengguna.

Awal tahun 2025, versi GPT-4o milik OpenAI bersikap terlalu baik sampai memuji ide-ide gila atau bahkan membantu merencanakan terorisme.

Dengan meniru sistem vaksinasi pada tubuh manusia, sejumlah ilmuwan AI kini mencoba memasukkan bibit-bibit kejahatan untuk mencegah perilaku jahat di masa depan.

Ilmuwan Latih AI Jadi Jahat

Anthropic dalam postingan di blog resminya menjelaskan, memberikan model AI sedikit dosis 'kejahatan’ dapat membuatnya lebih tangguh dalam menghadapi perintah ‘kejahatan’ yang diberikan pengguna.

"Hal ini berhasil karena model tidak perlu lagi menyesuaikan kepribadiannya dengan cara yang merugikan agar sesuai dengan data pelatihan, kita sendiri yang menyediakan penyesuaian tersebut, sehingga menghilangkan tekanan untuk melakukannya," tulis Anthropic, seperti dikutip NBC News pada 7 Agustus 2025.

Program ini tentu menimbulkan perdebatan dan memancing rasa penasaran dan skeptisisme.

Changlin Li, salah satu pendiri AI Safety Awareness Project, mengatakan ia khawatir apakah pemberian sifat buruk secara langsung pada model AI dapat menimbulkan bahaya yang tidak disengaja.

Li khawatir, ajaran jahat itu justru membantu program AI menjadi lebih pintar dalam memanipulasi sistem dengan lebih baik.

Dalam metode yang disebut para peneliti sebagai "pengarahan pencegahan", mereka memberikan AI sebuah vektor "jahat" selama proses pelatihan, dengan tujuan agar AI tersebut tidak perlu lagi mengembangkan sifat jahat apa pun sendiri.

Langkah selanjutnya, vektor jahat tersebut dikurangi sebelum AI dirilis ke dunia nyata, sehingga model itu sendiri seharusnya bebas dari sifat yang tidak diinginkan tersebut.

Tonton: China Kerahkan Belasan Ribu Persoel di Parade Militer Akbar 3 September