Material abierto para construir modelos de razonamiento general: 1.600.000 preguntas y 270.000 trazas de cadenas de pensamiento

Por @Alvy — 23 de febrero de 2025

Es curioso todo lo que se ha recopilado en Open Reasoning Data de General Reasoning, un archivo en el que se puede acceder a muchísimo material relevante a la hora de construir, entrenar y probar una IA. Perfectamente calificado en diversas áreas (matemáticas, medicina, química, física, humanidades, ciencias sociales…)

Hay ni más ni menos que 1.600.000 preguntas y 270.000 trazas de cadenas de pensamiento, con el que se puede crear un motor de razonamiento abierto, que es el objetivo del sitio. El proyecto se llana «General Reasoning» y sus co-creadores son de China y el Reino Unido; su logo dicen que simboliza «el equilibrio entre lo abierto y lo cerrado, y entre las perspectivas occidentales y orientales». Y es que en esta carrera parece que compiten los que utilizan modelos cerrados en plan «caja negra» y los abiertos como DeepSeek.

Puedes entretenerte viendo las preguntas y respuestas y también valorarlas con pulgar arriba o pulgar abajo, según te parezca –humanamente– si son correctas o no. También puedes seguir las cadenas de pensamiento (CoT) de los modelos más avanzados, para entender cómo realizan sus «trucos».

Mi categoría favorita son los acertijos, generalmente adivinanzas y otras cuestiones relacionadas con el lenguaje o la lógica. Al adaptarlos a los A/B/C/D «tipo test» algunos pierden su gracia, pero bueno, ahí están.

Hay un panel de récords que indica qué modelos están obteniendo mejores resultados al enfrentarlos a la batería de pruebas. De momento parece que DeepSeek-R1 es el ganador, seguido de Flash Thinking (Gemini, Google), o3-mini (OpenAI) y OpenThinker que proviene de Qwen que es de Alibaba.

Relacionado: