¿Es Claude 3.5 Sonnet el nuevo rey?

Claude 3.5 Sonnet

Por @SoyFYDev el 26/06/2024

Comparamos Claude 3.5 Sonnet y GPT-4.

Hace cinco días, Anthropic anunció Claude 3.5 Sonnet. Se trata de una IA más rápida, más inteligente y que, según sus creadores, supera al rey actual: GPT-4 (el motor de ChatGPT). Vamos a ver si realmente es superior.
 
 
 
 
 
Y para eso, vamos a dejar de lado los benchmarks oficiales, que podrían estar manipulados. En su lugar, utilizaremos LMSYS Chatbot Arena, una plataforma abierta para evaluar modelos de lenguaje grande (LLMs), creada por y para la comunidad.
 
 
 
Empecemos. En tareas de programación, Claude 3.5 Sonnet es la número 1.
 
 
 
 
Pero en la categoría de "prompts difíciles", GPT-4o sigue siendo el rey indiscutible.  
 
 
Para peticiones largas, GPT-4o mantiene su corona.
 
 
Y en la categoría general... GPT-4o no tiene rival.
 
 
Entonces, ¿Claude 3.5 Sonnet supera a GPT-4?  
 
En términos generales, no. Claude destaca únicamente en un área específica: la programación. Sin embargo, en el resto de categorías, está casi a la par. Y esta competencia es increíblemente positiva para todos.  
 
Pero no te quedes con los benchmarks de otros, ¡pruébalo por ti mismo!