Hace cinco días, Anthropic anunció Claude 3.5 Sonnet. Se trata de una IA más rápida, más inteligente y que, según sus creadores, supera al rey actual: GPT-4 (el motor de ChatGPT). Vamos a ver si realmente es superior.
Y para eso, vamos a dejar de lado los benchmarks oficiales, que podrían estar manipulados. En su lugar, utilizaremos LMSYS Chatbot Arena, una plataforma abierta para evaluar modelos de lenguaje grande (LLMs), creada por y para la comunidad.
Empecemos. En tareas de programación, Claude 3.5 Sonnet es la número 1.
Pero en la categoría de "prompts difíciles", GPT-4o sigue siendo el rey indiscutible.
Para peticiones largas, GPT-4o mantiene su corona.
Y en la categoría general... GPT-4o no tiene rival.
Entonces, ¿Claude 3.5 Sonnet supera a GPT-4?
En términos generales, no. Claude destaca únicamente en un área específica: la programación. Sin embargo, en el resto de categorías, está casi a la par. Y esta competencia es increíblemente positiva para todos.
Pero no te quedes con los benchmarks de otros, ¡pruébalo por ti mismo!