Published on 8 months ago

Studi: Ribuan Gambar Pelecehan Seksual Anak jadi Materi Pelatihan AI

Jakarta, CNN Indonesia —

Sebuah penelitian baru-baru ini membongkar temuan gambar materi pelecehan seksual anak dalam kumpulan data publik yang digunakan untuk melatih model-model penghasil gambar kecerdasan buatan (AI).

Temuan tersebut diungkap oleh para peneliti Stanford Internet Observatory dalam sebuah penelitian yang terbut awal pekan ini. Kehadiran gambar-gambar ini dalam data pelatihan dapat mempermudah model AI untuk membuat gambar baru dan realistis yang dihasilkan oleh AI tentang konten pelecehan anak, atau gambar “deepfake” dari anak-anak yang dieksploitasi.

Temuan ini menimbulkan banyak kekhawatiran baru seputar ketidakjelasan dari data pelatihan yang berfungsi sebagai fondasi dari kumpulan teknologi AI generatif.

SCROLL TO CONTINUE WITH CONTENT

Kumpulan data besar yang diteliti oleh para peneliti Stanford, yang dikenal sebagai LAION 5B, berisi miliaran gambar yang telah diambil dari internet, termasuk dari media sosial dan situs web hiburan dewasa.

Para peneliti mengidentifikasi setidaknya 1.008 contoh materi pelecehan seksual terhadap anak dari sekitar lima miliar gambar dalam dataset tersebut, mengutip CNN, Jumat (29/12).

LAION, organisasi nirlaba Jerman yang berada di balik dataset tersebut, dalam sebuah pernyataan di situs resminya menyatakan bahwa mereka memiliki “kebijakan tanpa toleransi terhadap konten ilegal.”

Organisasi ini mengatakan mereka telah menerima salinan laporan dari Stanford dan sedang dalam proses mengevaluasi temuannya. Mereka juga mencatat bahwa kumpulan data melalui “perangkat penyaringan intensif” untuk memastikan mereka aman dan mematuhi hukum.

“Dengan sangat hati-hati, kami telah mematikan LAION 5B,” tambah organisasi tersebut, dan mengatakan mereka bekerja sama dengan Internet Watch Foundation yang berbasis di Inggris “untuk menemukan dan menghapus tautan yang masih mengarah pada konten yang mencurigakan dan berpotensi melanggar hukum di web publik.”

LAION mengatakan pihaknya berencana menyelesaikan tinjauan keamanan penuh terhadap LAION 5B pada paruh kedua bulan Januari dan berencana untuk menerbitkan ulang kumpulan data pada saat itu.

Sementara itu, tim peneliti Stanford mengatakan penghapusan gambar-gambar yang teridentifikasi saat ini sedang dalam proses setelah para peneliti melaporkan URL gambar tersebut ke Pusat Nasional untuk Anak Hilang dan Tereksploitasi dan Pusat Perlindungan Anak Kanada.

Dalam laporan tersebut, para peneliti mengatakan ketika para pengembang LAION 5B berusaha menyaring konten eksplisit tertentu, versi sebelumnya dari model penghasil gambar yang populer, Stable Diffusion, pada akhirnya dilatih untuk “beragam konten, baik yang eksplisit maupun tidak.”

Seorang juru bicara Stability AI, startup berbasis di London di balik Stable Diffusion, mengatakan bahwa versi sebelumnya, Stable Diffusion 1.5, dirilis oleh perusahaan terpisah dan bukan oleh Stability AI.

Para peneliti Stanford juga mencatat Stable Diffusion 2.0 sebagian besar menyaring hasil yang dianggap tidak aman, dan akibatnya hanya memiliki sedikit atau bahkan tidak ada materi eksplisit dalam set pelatihan.

“Laporan ini berfokus pada kumpulan data LAION-5b secara keseluruhan,” kata juru bicara Stability AI kepada CNN dalam sebuah pernyataan. “Model Stability AI dilatih pada subset yang difilter dari dataset tersebut. Selain itu, kami kemudian menyempurnakan model-model ini untuk mengurangi perilaku residual.”

Juru bicara tersebut menambahkan bahwa Stability AI hanya meng-host versi Stable Diffusion yang menyertakan filter yang menghapus konten yang tidak aman agar tidak menjangkau seluruh model.

“Dengan menghapus konten tersebut sebelum sampai ke model, kami dapat membantu mencegah model menghasilkan konten yang tidak aman,” ujar juru bicara tersebut, seraya menambahkan bahwa perusahaan melarang penggunaan produknya untuk aktivitas yang melanggar hukum.

Namun, para peneliti Stanford mencatat dalam laporan tersebut bahwasanya Stable Diffusion 1.5, yang masih digunakan di beberapa bagian internet, tetap menjadi “model yang paling populer untuk menghasilkan gambar yang eksplisit.”

Sebagai bagian dari rekomendasi mereka, para peneliti mengatakan model yang didasarkan pada Stable Diffusion 1.5 harus “tidak digunakan lagi dan distribusinya dihentikan jika memungkinkan.”

Selanjutnya, laporan Stanford mengatakan dataset berskala web yang sangat besar sangat bermasalah karena beberapa alasan, bahkan dengan upaya penyaringan keamanan, karena kemungkinan dimasukkannya tidak hanya materi pelecehan seksual anak, tetapi juga karena masalah privasi dan hak cipta lainnya yang muncul dari penggunaannya.

Laporan tersebut merekomendasikan bahwa set data semacam itu harus dibatasi pada “pengaturan penelitian saja” dan hanya “set data yang lebih terkurasi dan bersumber dengan baik” yang harus digunakan untuk model yang didistribusikan secara publik.

(tim/dmi)

[Gambas:Video CNN]