Ketika bisnis terus berlanjut mengintegrasikan kecerdasan buatan generatif dalam produk mereka, banyak yang merasa kesulitan untuk menguji apakah AI berperilaku benar dan memberikan jawaban yang berguna.
Untuk membantu mengatasi masalah ini, sebuah startup telah hadir Gentrache menawarkan platform pengujian perangkat lunak terintegrasi yang dibangun berdasarkan model bahasa besar. Sementara perangkat lunak tradisional mungkin menjalani pengujian otomatis untuk memverifikasi bahwa, misalnya, data yang dikirimkan dalam formulir web akhirnya diformat dengan benar dalam database, perangkat lunak AI seringkali tidak dapat diharapkan untuk berperilaku persis dengan cara tertentu sebagai respons terhadap masukan, kata Gentrace co- pendiri dan CEO Doug Safreneau.
Pelanggan pada akhirnya dapat menentukan kumpulan data pengujian untuk AI setelah ada perubahan pada model AI, database yang berinteraksi dengannya, atau parameter lainnya. Namun tanpa platform pengujian, menjalankan pengujian tersebut berarti memelihara spreadsheet instruksi pengujian AI dan mencatat secara manual agar menghasilkan hasil yang memuaskan. Dan meskipun otomatisasi dimungkinkan, memverifikasi bahwa respons AI berisi kata kunci tertentu atau bahkan meminta sistem AI lain untuk memverifikasi bahwa AI terlihat memuaskan, pengujian yang rumit sering kali mengharuskan para insinyur untuk terlibat secara signifikan, bahkan jika anggota tim lainnya, seperti manajer produk, mungkin lebih tahu seperti apa keluaran yang bagus, kata Safreneau.
“Masalahnya adalah tidak ada seorang pun yang bisa melihat dan berkolaborasi dalam tes dan metode penilaian ini,” katanya. “Saat permintaan produk baru masuk, permintaan tersebut tidak tercakup dalam pengujian.”
Untuk membantu membuat pengujian AI lebih mudah diakses, platform Gentrace memungkinkan semua orang di perusahaan untuk melihat, mengedit, dan menjalankan pengujian pada sistem yang didukung oleh LLM. Hasilnya kemudian dapat dievaluasi oleh penilai manusia, program sederhana atau bahkan lebih banyak LLM. Gentrache memberikan panduan tentang penggunaan LLM untuk menguji keluaran AI secara efektif, yang menurut Safreno sering kali melibatkan pemberian “keuntungan tidak adil” kepada LLM yang sedang diuji — memberi mereka lebih banyak detail tentang keluaran yang diinginkan daripada permintaan awal. Namun alat ini juga menyediakan antarmuka untuk mendorong penilai manusia untuk mempertimbangkan respons kecerdasan buatan.
Anna Wang, kepala kecerdasan buatan di perusahaan pelatihan tenaga kerja AI Multiversemengatakan sistem Gentrace telah menghilangkan kebutuhan untuk meneruskan dokumen masukan dan keluaran ke AI untuk mengevaluasi kinerja sistem.
“Yang menggantikannya adalah berton-ton spreadsheet,” katanya. “Gentrace memiliki antarmuka apik yang dihubungkan langsung ke kode AI kami.”
Dan mulai hari Selasa, Gentrace menawarkan fitur baru yang disebut Eksperimen yang memberi pengguna lebih banyak kekuatan untuk menguji seluruh aplikasi dari dalam antarmuka Gentrace. Dengan Eksperimen, pengguna dapat menentukan parameter pengujian seperti kumpulan data akses, notifikasi ke sistem AI, dan pengaturan konfigurasi database. Dengan perubahan awal yang sederhana pada kode mereka, pengembang dapat menandai variabel tertentu sebagai dapat diedit di Gentrace, dan rekan satu tim yang tidak memiliki pengetahuan pengkodean kemudian dapat mengaturnya sesuai keinginan untuk pengujian tertentu. Laporan pengujian di Gentrace mencatat apa yang telah dicoba dalam pengujian sebelumnya dan bagaimana kinerja perangkat lunak.
“Kami hanya membungkus aplikasi Anda, secara end-to-end, tidak peduli bagaimana Anda mendesainnya, yang berarti kami dapat mengukur dampak dari setiap perubahan,” kata Safreneau. “Anda dapat menggabungkan 20 model, menghasilkan keluaran, dan Anda dapat menyesuaikan satu pengingat, dan kami dapat mengukur dampaknya.”
Perusahaan juga mengumumkan putaran pendanaan Seri A senilai $8 juta pada hari Selasa, dipimpin oleh Matrix Partners, dengan partisipasi tambahan dari Headline dan K9 Ventures. Investasi baru ini akan mendanai pengembangan produk tambahan, yang menurut Safreneau suatu hari nanti dapat memungkinkan AI – serta manusia – merancang pengujian untuk aplikasi yang didukung LLM, seperti menelusuri instruksi potensial atau pengaturan lain untuk menemukan opsi aplikasi terbaik untuk aplikasi. atau menghasilkan kasus uji baru untuk evaluasi kinerja.
Versi Eksperimen Gentrace yang akan datang kemungkinan juga akan menyertakan kemampuan untuk bereksperimen dengan berbagai pengaturan potensial dan kemudian menerapkan opsi dengan kinerja terbaik langsung ke dalam kode aktif. Namun versi saat ini pun kemungkinan akan membuat pengembangan AI lebih efisien, kata Safreno, dengan mengurangi waktu dan koordinasi para insinyur yang diperlukan untuk menjalankan pengujian dasar.
“Hal ini menghilangkan lingkaran besar antara berbagai pemangku kepentingan yang seharusnya tidak ada,” katanya.