Ilustrasi. Ahli mengungkap kecerdasan buatan yang paling unggul sejauh ini. (REUTERS/DADO RUVIC)
Jakarta, CNN Indonesia —
Sederet perusahaan teknologi berlomba-lomba untuk menciptakan platform chatbot dengan kecerdasan buatan (AI), mulai dari ChatGPT besutan OpenAI, Bing besutan Microsoft dan Bard buatan Google. Mana yang jadi jawaranya?
Hal itu terungkap dalam kelompok penelitian University of California Berkeley yang bermitra dengan UC San Diego dan Carnegie Mellon University.
Mereka merancang eksperimen yang membuat pengguna mengobrol dengan dua model anonim pada saat yang sama dan memilih model yang terbaik.
Chatbot Arena itu mencakup LLM dari OpenAI (GPT-4), Google (PaLM), Meta (LLaMA), dan Claude-nya Anthropic, serta model-model lain yang dibuat menggunakan API dari sederet raksasa teknologi. Sejauh ini totalnya ada 31 model.
Kelompok penelitian yang disebut Large Model Systems Organization (LMSYS) menciptakan eksperimen crowdsourced sebagai cara untuk membandingkan seberapa efektif model bahasa yang digunakan.
“Membandingkan asisten LLM sangat menantang karena masalahnya bisa bersifat terbuka, dan sangat sulit untuk menulis program untuk secara otomatis mengevaluasi kualitas respons,” kata posting blog LMSYS.
Di samping itu, LMSYS menyebut jika model chatbot dengan kecerdasan buatan milik OpenAI, yaitu GPT-4, berada di tingkat paling jawara, seperti dikutip dari Mashable.
Kemudian disusul di peringkat dua ada Claude-v1 dari Anthropic, dan diikuti oleh Claude Instant, yang merupakan versi Claude yang lebih ringan dan lebih cepat dari Anthropic.
Model AI milik Google, PaLM-Chat-Bison-00, ada di peringkat delapan dengan nilai total (arena elo rating) 1038. Sementara, model AI milik Facebook, LLaMA 13B, jauh di peringkat 20 dengan elo rating 826.
Berikut 10 urutan AI teratas menurut LMSYS:
Model | Arena Elo rating | MT-bench (score) | MT-bench (win rate %) | MMLU | License |
GPT-4 – OpenAI | 1227 | 8.99 | 69.4 | 86.4 | Proprietary |
Claude-v1 – Anthropic | 1178 | 7.9 | 46.9 | 75.6 | Proprietary |
Claude-instant-v1 – Anthropic | 1156 | 7.85 | 40 | 61.3 | Proprietary |
GPT-3.5-turbo – OpenAI | 1130 | 7.94 | 70 | Proprietary | |
Guanaco-33B – Hugging Face | 1065 | 6.53 | 26.2 | 57.6 | Non-commercial |
Vicuna-13B – Hugging Face | 1061 | 6.39 | 20.6 | 52.1 | Non-commercial |
WizardLM-13B – Hugging Face | 1048 | 6.35 | 16.9 | 52.3 | Non-commercial |
PaLM-Chat-Bison-001 – Google Cloud | 1038 | 6.4 | 11.2 | Proprietary | |
Vicuna-7B – Hugging Face | 1008 | 6 | 18.8 | 47.1 | Non-commercial |
Koala-13B – Barkeley Artificial Intelligence Research (BAIR) | 992 | 5.35 | 6.2 | 44.7 | Non-commercial |
Keterangan:
MT-Bench: satu set pertanyaan multi-putaran. Peneliti menggunakan GPT-4 untuk menilai respons model.
MMLU: tes untuk mengukur akurasi multitasking model AI pada 57 tugas.
(can/arh)