...
0

Ahli Tes Puluhan Model AI Termasuk ChatGPT, Siapa Juaranya?

RajaBackLink.com
ahli-tes-puluhan-model-ai-termasuk-chatgpt,-siapa-juaranya?

Penelitian di AS membuktikan model AI mana yang paling kencang dan akurat. Simak data-datanya berikut. Ilustrasi. Ahli mengungkap kecerdasan buatan yang paling unggul sejauh ini. (REUTERS/DADO RUVIC)

Jakarta, CNN Indonesia

Sederet perusahaan teknologi berlomba-lomba untuk menciptakan platform chatbot dengan kecerdasan buatan (AI), mulai dari ChatGPT besutan OpenAI, Bing besutan Microsoft dan Bard buatan Google. Mana yang jadi jawaranya?

Hal itu terungkap dalam kelompok penelitian University of California Berkeley yang bermitra dengan UC San Diego dan Carnegie Mellon University.

Mereka merancang eksperimen yang membuat pengguna mengobrol dengan dua model anonim pada saat yang sama dan memilih model yang terbaik.

Chatbot Arena itu mencakup LLM dari OpenAI (GPT-4), Google (PaLM), Meta (LLaMA), dan Claude-nya Anthropic, serta model-model lain yang dibuat menggunakan API dari sederet raksasa teknologi. Sejauh ini totalnya ada 31 model.

Kelompok penelitian yang disebut Large Model Systems Organization (LMSYS) menciptakan eksperimen crowdsourced sebagai cara untuk membandingkan seberapa efektif model bahasa yang digunakan.

“Membandingkan asisten LLM sangat menantang karena masalahnya bisa bersifat terbuka, dan sangat sulit untuk menulis program untuk secara otomatis mengevaluasi kualitas respons,” kata posting blog LMSYS.

Di samping itu, LMSYS menyebut jika model chatbot dengan kecerdasan buatan milik OpenAI, yaitu GPT-4, berada di tingkat paling jawara, seperti dikutip dari Mashable.

Kemudian disusul di peringkat dua ada Claude-v1 dari Anthropic, dan diikuti oleh Claude Instant, yang merupakan versi Claude yang lebih ringan dan lebih cepat dari Anthropic.

Model AI milik Google, PaLM-Chat-Bison-00, ada di peringkat delapan dengan nilai total (arena elo rating) 1038. Sementara, model AI milik Facebook, LLaMA 13B, jauh di peringkat 20 dengan elo rating 826.

Berikut 10 urutan AI teratas menurut LMSYS:

Model

Arena Elo rating

MT-bench (score)

MT-bench (win rate %)

MMLU

License

GPT-4 – OpenAI

1227

8.99

69.4

86.4

Proprietary

Claude-v1 – Anthropic

1178

7.9

46.9

75.6

Proprietary

Claude-instant-v1 – Anthropic

1156

7.85

40

61.3

Proprietary

GPT-3.5-turbo – OpenAI

1130

7.94

70

Proprietary

Guanaco-33B – Hugging Face

1065

6.53

26.2

57.6

Non-commercial

Vicuna-13B – Hugging Face

1061

6.39

20.6

52.1

Non-commercial

WizardLM-13B – Hugging Face

1048

6.35

16.9

52.3

Non-commercial

PaLM-Chat-Bison-001 – Google Cloud

1038

6.4

11.2

Proprietary

Vicuna-7B – Hugging Face

1008

6

18.8

47.1

Non-commercial

Koala-13B – Barkeley Artificial Intelligence Research (BAIR)

992

5.35

6.2

44.7

Non-commercial

Keterangan:

MT-Bench: satu set pertanyaan multi-putaran. Peneliti menggunakan GPT-4 untuk menilai respons model.

MMLU: tes untuk mengukur akurasi multitasking model AI pada 57 tugas.

[Gambas:Video CNN]

(can/arh)

Puluhan
RajaBackLink.com
RajaBackLink.com

More Similar Posts

RajaBackLink.com