Published on 1 year ago

Ahli Tes Puluhan Model AI Termasuk ChatGPT, Siapa Juaranya?

Ilustrasi. Ahli mengungkap kecerdasan buatan yang paling unggul sejauh ini. (REUTERS/DADO RUVIC)

Jakarta, CNN Indonesia —

Sederet perusahaan teknologi berlomba-lomba untuk menciptakan platform chatbot dengan kecerdasan buatan (AI), mulai dari ChatGPT besutan OpenAI, Bing besutan Microsoft dan Bard buatan Google. Mana yang jadi jawaranya?

Hal itu terungkap dalam kelompok penelitian University of California Berkeley yang bermitra dengan UC San Diego dan Carnegie Mellon University.

Mereka merancang eksperimen yang membuat pengguna mengobrol dengan dua model anonim pada saat yang sama dan memilih model yang terbaik.

Chatbot Arena itu mencakup LLM dari OpenAI (GPT-4), Google (PaLM), Meta (LLaMA), dan Claude-nya Anthropic, serta model-model lain yang dibuat menggunakan API dari sederet raksasa teknologi. Sejauh ini totalnya ada 31 model.

Kelompok penelitian yang disebut Large Model Systems Organization (LMSYS) menciptakan eksperimen crowdsourced sebagai cara untuk membandingkan seberapa efektif model bahasa yang digunakan.

“Membandingkan asisten LLM sangat menantang karena masalahnya bisa bersifat terbuka, dan sangat sulit untuk menulis program untuk secara otomatis mengevaluasi kualitas respons,” kata posting blog LMSYS.

Di samping itu, LMSYS menyebut jika model chatbot dengan kecerdasan buatan milik OpenAI, yaitu GPT-4, berada di tingkat paling jawara, seperti dikutip dari Mashable.

Kemudian disusul di peringkat dua ada Claude-v1 dari Anthropic, dan diikuti oleh Claude Instant, yang merupakan versi Claude yang lebih ringan dan lebih cepat dari Anthropic.

Model AI milik Google, PaLM-Chat-Bison-00, ada di peringkat delapan dengan nilai total (arena elo rating) 1038. Sementara, model AI milik Facebook, LLaMA 13B, jauh di peringkat 20 dengan elo rating 826.

Berikut 10 urutan AI teratas menurut LMSYS:

Model	Arena Elo rating	MT-bench (score)	MT-bench (win rate %)	MMLU	License
GPT-4 – OpenAI	1227	8.99	69.4	86.4	Proprietary
Claude-v1 – Anthropic	1178	7.9	46.9	75.6	Proprietary
Claude-instant-v1 – Anthropic	1156	7.85	40	61.3	Proprietary
GPT-3.5-turbo – OpenAI	1130	7.94		70	Proprietary
Guanaco-33B – Hugging Face	1065	6.53	26.2	57.6	Non-commercial
Vicuna-13B – Hugging Face	1061	6.39	20.6	52.1	Non-commercial
WizardLM-13B – Hugging Face	1048	6.35	16.9	52.3	Non-commercial
PaLM-Chat-Bison-001 – Google Cloud	1038	6.4	11.2		Proprietary
Vicuna-7B – Hugging Face	1008	6	18.8	47.1	Non-commercial
Koala-13B – Barkeley Artificial Intelligence Research (BAIR)	992	5.35	6.2	44.7	Non-commercial

Keterangan:

MT-Bench: satu set pertanyaan multi-putaran. Peneliti menggunakan GPT-4 untuk menilai respons model.

MMLU: tes untuk mengukur akurasi multitasking model AI pada 57 tugas.

[Gambas:Video CNN]

(can/arh)

Puluhan

Ahli Tes Puluhan Model AI Termasuk ChatGPT, Siapa Juaranya?

More Similar Posts

Puluhan Ribu Pelari Ikut Maybank Marathon 2024 di Bali

Puluhan Kelompok Arus Bawah PPP di DIY Deklarasi Dukung AMIN

Puluhan Ribu Demonstran Geruduk Kantor PM Israel Benjamin Netanyahu

Postingan Lainnya

Siapa Petinju Zaman Now yang Bikin Nyali Mike Tyson Ciut?

Kebakaran Asrama SD di Kenya, 70 Siswa Masih Hilang

Gempa Magnitudo 4,8 Guncang Sukabumi

VIDEO: Korsel Kembali Dihujani 400 Balon Isi Sampah Kiriman Korut

UEFA Nations League, Italia Bekuk Prancis 3-1 di Paris

Don’t forget to subscribe to our YouTube Channel:

MRJULIANTO