IA101 | ¿Es Claude 3.5 Sonnet el nuevo rey?

Hace cinco días, Anthropic anunció Claude 3.5 Sonnet. Se trata de una IA más rápida, más inteligente y que, según sus creadores, supera al rey actual: GPT-4 (el motor de ChatGPT). Vamos a ver si realmente es superior.

Y para eso, vamos a dejar de lado los benchmarks oficiales, que podrían estar manipulados. En su lugar, utilizaremos LMSYS Chatbot Arena, una plataforma abierta para evaluar modelos de lenguaje grande (LLMs), creada por y para la comunidad.

Empecemos. En tareas de programación, Claude 3.5 Sonnet es la número 1.

Pero en la categoría de "prompts difíciles", GPT-4o sigue siendo el rey indiscutible.

Para peticiones largas, GPT-4o mantiene su corona.

Y en la categoría general... GPT-4o no tiene rival.

Entonces, ¿Claude 3.5 Sonnet supera a GPT-4?

En términos generales, no. Claude destaca únicamente en un área específica: la programación. Sin embargo, en el resto de categorías, está casi a la par. Y esta competencia es increíblemente positiva para todos.

Pero no te quedes con los benchmarks de otros, ¡pruébalo por ti mismo!