Perusahaan AI kehabisan data untuk melatih model mereka dan “menghabiskan” kumpulan pengetahuan manusia, Elon Musk katanya.
Orang terkaya di dunia ini menyarankan agar perusahaan-perusahaan teknologi harus beralih ke data “sintetis” – atau materi yang diciptakan oleh model kecerdasan buatan – untuk membangun dan menyempurnakan sistem baru, sebuah proses yang sudah berjalan dengan teknologi yang berkembang pesat.
“Kumpulan pengetahuan manusia secara kumulatif telah habis dalam pelatihan AI. Itu pada dasarnya terjadi tahun lalu,” kata Musk meluncurkan bisnis AI-nya sendirixAI, pada tahun 2023.
Model AI seperti model GPT-4o yang mendukungnya ObrolanGPT chatbot mereka “dilatih” dengan berbagai macam data yang diambil dari internet, di mana mereka benar-benar belajar memperhatikan pola informasi tersebut – memungkinkan mereka untuk memprediksi, misalnya, kata berikutnya dalam sebuah kalimat.
Berbicara dalam wawancara yang disiarkan langsung di platform media sosial X-nya, Musk mengatakan “satu-satunya cara” untuk mengatasi kurangnya materi sumber untuk melatih model-model baru adalah dengan beralih ke data sintetis yang dihasilkan oleh kecerdasan buatan.
Mengacu pada menipisnya penyimpanan data, dia berkata: “Satu-satunya cara untuk melengkapinya adalah dengan data sintetis di mana … dia akan menulis esai atau membuat tesis dan kemudian akan dievaluasi dan … dia akan menjalani proses belajar mandiri ini.”
Meta, pemilik Facebook dan Instagram, menggunakan data sintetis untuk menyempurnakan model AI terbesarnya, Llama, sementara Microsoft juga menggunakan konten yang dihasilkan AI untuk model Phi-4-nya. Google dan OpenAIperusahaan di balik ChatGPT juga menggunakan data sintetis dalam pekerjaan AI mereka.
Namun, Musk juga memperingatkan bahwa kebiasaan model AI menghasilkan “halusinasi” – istilah untuk hasil yang salah atau tidak berarti – merupakan bahaya bagi proses data sintetis.
Dia berkata masuk wawancara langsung dengan Mark Penn, ketua grup periklanan Stagwell, bahwa halusinasi membuat proses penggunaan bahan buatan menjadi “menantang” karena “bagaimana Anda tahu jika dia … berhalusinasi jawabannya atau apakah itu jawaban nyata”.
Andrew Duncan, direktur kecerdasan buatan dasar di Alan Turing Institute di Inggris, mengatakan komentar Musk bertepatan dengan makalah akademis baru-baru ini yang memperkirakan bahwa data model AI yang tersedia untuk umum akan kedaluwarsa pada tahun 2026. Dia menambahkan bahwa ketergantungan yang berlebihan pada data sintetis berisiko menyebabkan “keruntuhan model”, sebuah istilah yang mengacu pada keluaran model yang kualitasnya menurun.
“Ketika Anda mulai memberi model bahan sintetis, Anda mulai mendapatkan hasil yang semakin berkurang,” katanya, dengan risiko produksi menjadi bias dan kurangnya kreativitas.
Duncan menambahkan bahwa pertumbuhan konten online yang dihasilkan AI juga dapat mengakibatkan materi tersebut diserap ke dalam kumpulan data pelatihan AI.
Data berkualitas tinggi dan kendali atas data tersebut merupakan salah satu medan pertempuran hukum dalam booming kecerdasan buatan. OpenAI mengakui tahun lalu bahwa tidak mungkin membuat alat seperti ChatGPT tanpa akses ke materi berhak ciptasaat aktif industri kreatif Dan penerbit mencari kompensasi untuk menggunakan output mereka dalam proses pelatihan model.