Mayo2023

Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas

Por @Alvy — 31 de mayo de 2023

Creo que dentro de 50 años será posible hacer que los ordenadores compitan en el juego de imitación tan bien como para que una persona promedio no tenga más del 70% de posibilidades de acertar tras 5 minutos de interrogatorio.

– Alan Turing (1950)

Si confiamos en la validez del archiconocido Test de Turing, una versión simplificada del juego de imitación original planteado por el pionero de la informática moderna, las máquinas no son a día de hoy tan «inteligentes» como nosotros los humanos y la humanidad sigue a salvo.

Al menos eso se deduce del que puede ser el mayor experimento online planteado sobre este ejercicio por varios expertos de AI21 Labs del que ya hablamos por aquí: ¿Ser humano o no? Los resultados están descritos en este trabajo: Human or Not? A Gamified Approach to the Turing Test [PDF]. Y es que el jueguecito lanzado a mediados de abril supuso que se llevaran a cabo más de 10 millones de tests de este tipo con personas de todo el mundo, online, comprobando si podían identificar correctamente a otros participantes o a inteligencias artificiales basadas en modelos de lenguaje LLM como GPT-4 y Jurassic-2.

El resultado: cuando una persona hablaba con otra persona acertaban correctamente la identidad al otro lado del teclado el 73% de las veces (y fallaban un 27%); en cambio cuando hablaban con un bot sin saberlo acertaban el 60% de las veces y fallaban un 40%.

En el informe completo hay muchos más datos curiosos, como que los franceses, polacos y alemanes son quienes más aciertan (71%), mientras que los habitantes de la India, Rusia y España (!) somos los que menos (66%, ¡oooh!) Además de eso las mujeres aciertan ligerísimamente más veces que los hombres (67,7% frente a 67,4%) y los jóvenes más que las personas mayores (de más de 55 años).

Las frases más populares que usó la gente en el experimento / A21Labs

El estudio está aderezado con la descripción de un montón de estrategias que usa la gente y pautas reconocibles, a cual muy curiosa. La gente, por ejemplo, da por hecho que los bots no cometen errores gramaticales ni escriben con erratas, palabrotas o jerga; también creen que los bots no saben mucho de temas actuales, o qué fecha/hora es. Curiosamente también identifican los buenos modales con ser «menos humano» e intentan usar juegos de palabras, trucos y preguntas personales para intentar «liar» a los bots.

Sea como sea, parece que todavía está lejos el momento en que se tornen los papeles y ese 40% de veces que la gente no puede identificar a los bots haciéndose pasar por personas llegue al 70% o más. ¿Un año? ¿Cinco? Quién sabe.

¿Y ChatGPT, qué opina de esto?

Pregunta: ¿Qué opinas de que según el experimento de A21Labs los modelos LLM como GPT-4 no puedan ser considerados todavía inteligentes porque sólo «engañan» al 40% de los seres humanos en el «juego de imitación» del Test de Turing?

ChatGPT-4: Como modelo de lenguaje AI, no tengo una opinión personal, pero puedo proporcionarte información objetiva sobre el tema que mencionas (…) Sin embargo, es importante tener en cuenta que el Test de Turing ha sido objeto de críticas y debate a lo largo de los años. Algunos argumentan que el Test de Turing es insuficiente para medir la inteligencia, ya que se basa principalmente en la capacidad de imitar respuestas humanas en lugar de evaluar un razonamiento verdaderamente inteligente (…) El hecho de que un modelo de lenguaje como GPT-4 no pueda engañar al 40% de los seres humanos en el Test de Turing puede ser una indicación de que aún hay margen de mejora en términos de su capacidad para imitar respuestas humanas de manera convincente. Sin embargo, la inteligencia artificial es un campo en constante evolución, y la evaluación de la inteligencia de los modelos AI debe considerar múltiples aspectos más allá del Test de Turing.

Relacionado:

Espacio

La meteorología obliga a posponer el primer lanzamiento del Miura 1

Por @Wicho — 31 de mayo de 2023

Una imagen histórica: el primer cohete desarrollado por una empresa privada española listo para emprender el vuelo – PLD Space

Parche de la misión Cuando todo estaba listo desde el punto de vista técnico para el primer lanzamiento del Miura 1 la meteorología ha obligado a posponerlo. En concreto han sido los vientos en altura entre los kilómetros 8 y 12, que estaban fuera de rango para poder asegurar de que en caso de un problema los restos del cohete no cayeran fuera de la zona de seguridad reservada.

Es una pena porque hay muchas ganas de ver volar este cohete. Pero es la decisión correcta; no hay que dejar que el ansia por lanzar se anteponga a los criterios de seguridad y éxito de la misión.

En las próximas horas o días sabremos cuando tendrá lugar el próximo intento de lanzamiento: no sólo PLD Space tiene que evaluar cuánto tiempo necesitan para reciclar los sistemas y tenerlos listos para ese segundo intento sino que además hay que ver para cuándo les dan permiso para intentarlo y que todo eso se alinee con las predicciones meteorológicas.

#VamosMiura!!!

Relacionado,

Espacio

Termina Axiom Ax-2, la segunda misión privada a la Estación Espacial Internacional

Por @Wicho — 31 de mayo de 2023

La Crew Dragon Freedom flotando en el Golfo de México a la espera de ser izada al barco de recuperación – SpaceX

La cápsula tripulada Crew Dragon Freedom de SpaceX amerizaba hace unas horas en el Golfo de México. Eso ponía fin a la misión Axiom Ax-2, la segunda misión privada a la Estación Espacial Internacional (EEI). Ha tenido una duración total de 9 días, 5 horas y 27 minutos, de los que 8 días, 1 hora y 53 minutos fueron con la cápsula acoplada a la EEI.

Al mando de la misión estuvo Peggy Whitson, la persona con más experiencia en el espacio de los Estados Unidos, quien ocupaba el puesto de comandante y que al terminar de la misión acumula la friolera de 675 días en el espacio. Es un requisito de la NASA, al menos por ahora, que las misiones a la Estación vayan al mando de un astronauta profesional.

Como piloto iba el multimillonario John Shoffner, que se ha pagado el viaje de su bolsillo. Y que por mucho que haya participado en algunos de los experimentos llevados a cabo durante la misión yo creo que hay que calificarlo de turista espacial, por mucho que la expresión que están intentando estandarizar ahora es la de participante en un vuelo espacial.

Ali Alqarni y Rayyanah Barnawi volaban como especialistas de la misión financiados por la Comisión Espacial Saudí. Aunque quizás sea hilar muy fino para mí sí que se pueden considerar astronautas. En cualquier caso, y con independencia de que la consideremos astronauta o no, Rayyanah Barnawi se convertía en la primera mujer árabe en ir al espacio.

Ali AlQarni y Rayyanah Barnawi a bordo de la EEI – Axiom Space

Mi impresión es que en el futuro veremos cada vez más como las agencias espaciales de distintos países pagan plazas en misiones similares para conseguir hacer volar a sus astronautas sin tener que esperar a que queden plazas libres en misiones de larga duración. De hecho la Agencia Espacial Europea (ESA) firmaba hace poco un acuerdo con Axiom Space que permite este tipo de misiones. Así que igual algún día vemos a nuestra Sara García en una de ellas.

Pero mientras ya sabemos que la misión Axiom Ax-3, con lanzamiento previsto para no antes de noviembre de este año, tendrá a Michael López-Alegría como comandante; a Walter Villadei de la Fuerza Aérea Italiana como piloto; y a Alper Gezeravci, de la Agencia Espacial Turca, como especialista de la misión. La plaza de segundo especialista de la misión aún está por asignar.

Con el fin de la misión ya «sólo» quedan 13 personas en órbita, con lo que el récord de 17 al que llegamos con el lanzamiento de la cápsula tripulada china Shenzhou 16 sólo ha durado unas horas.

También ha hecho que mi lista de personas en el espacio con cuenta en Twitter se haya visto reducida de nuevo a dos personas.

Relacionado,

Inteligencia artificial

ChatGPT para iOS ya está disponible en la App Store española y funciona bastante bien

Por @Alvy — 31 de mayo de 2023

ChatGPT ya está en español en la App Store, para iOS. Es la app oficial de OpenAI y todavía está en inglés. El reconocimiento de voz a texto funciona de forma excelente, tanto en castellano como en otros idiomas; basta pulsar el icono y hablar un rato, de hecho es como si sugiriera enrollarse para obtener más texto que tratar, así que habrá quien se ponga a mandarle «notas de vez» a la IA. Habrá quien considere esta app como un superpoder sabiendo que puedes susurrarle que te explique algo en plan rápido y que la respuesta será con casi toda probabilidad correcta.

Esta versión para iOS (iPhone nada más, de momento) funciona tanto con GPT-3.5 como con GPT-4, que es la versión para suscriptores y se contrata por 20 dólares al mes en la web de OpenAI. GPT-3.5 va a toda velocidad y GPT-4 a paso de tortuga. De hecho la versión GPT-4 de esta app todavía no admite plug-ins y no puede buscar contenido en la web directamente; ambas están limitadas a los contenidos existentes en el MundoReal™ en septiembre de 2021. Pero el GPT-4 es bastante más «listo» y falla menos.

Un detalle interesante es que sincroniza los chats que hayas escrito anteriormente con los de tu cuenta en la web de ChatGPT, que es la misma. Esta app también incluye la función de «no guardar los datos para entrenamiento» si aprecias la privacidad extrema, e incluye la función de «Nuevo chat» para cambiar de tema y evitar que ChatGPT se quede clavado obsesionado con un tema concreto.

Relacionado:

Lo más visto recientemente

Mayo2023

Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas

La meteorología obliga a posponer el primer lanzamiento del Miura 1

Termina Axiom Ax-2, la segunda misión privada a la Estación Espacial Internacional

ChatGPT para iOS ya está disponible en la App Store española y funciona bastante bien

España se convierte en el país número 25 en firmar los Acuerdos Artemisa 30/05/2023

PLD Space intentará lanzar el Miura 1 el 31 de mayo 30/05/2023

El reloj de Lego de diez millones de años 30/05/2023

Récord de personas en el espacio con el lanzamiento de la nave china Shenzhou 16 30/05/2023

Las invenciones de Nikola Tesla descritas por él mismo en su breve autobiografía de 34 páginas 29/05/2023

El descifrado de los nombres tras las iniciales de los récords de las antiguas máquinas recreativas 29/05/2023

La sonda JUICE completa su despliegue tras su lanzamiento 29/05/2023

La sonda CAPSTONE termina su misión de explorar la futura órbita de la estación lunar Gateway 29/05/2023

¡Mírame, tonto!, un vistazo ácido y desasosegante al mundo de la telebasura 29/05/2023

El Comac C919, el equivalente chino al Airbus A320 o al Boeing 737, entra en servicio comercial 29/05/2023

Una galería de imágenes animadas en bucle creadas con Blender y Python 28/05/2023

Slide to Unlock, un juego que requiere cierta destreza física con el móvil (sí, aunque parezca raro, existen) 27/05/2023

Una introducción visual interactiva a la Transformada rápida de Fourier, una de las mejores ideas matemáticas de la historia 26/05/2023

La constelación de satélites TROPICS de la NASA para estudiar tormentas tropicales ya está en órbita 26/05/2023

La sonda Hakuto-R de ispace se estrelló en la Luna a causa de ajustes erróneos en su software de a bordo 26/05/2023

M.U.L.E. cumple 40 años como juego de estrategia económica con transfondo de ciencia-ficción 25/05/2023

El avión cohete de Virgin Galactic vuelve «al espacio» casi dos años después 25/05/2023

SpaceX ficha a Kathy Lueders, la ex responsable de misiones tripuladas de la NASA 25/05/2023

Un juego de adivinar ubicaciones a partir de fotos, al estilo Wordle 25/05/2023

«Tubular Bells» cumple 50 años 25/05/2023

La cápsula de carga Progress MS-23 ya está en la Estación Espacial Internacional 25/05/2023

¡Feliz día de la toalla de 2023! 25/05/2023

Una máquina de Pac-Man, AKA Comecocos, hecha en Lego 24/05/2023

Francia prohíbe los vuelos interiores si se puede ir en tren en menos de dos horas y media 24/05/2023

Virgin Orbit cierra definitivamente y sus restos troceados son vendidos al mejor postor 24/05/2023

La revolución de los agentes personales basados en IA 24/05/2023

Opiniones recientes y bastante divergentes sobre la inteligencia artificial, los LLM y GPT 23/05/2023

Un generador de «badges» en SVG para incluir en cualquier página web 23/05/2023

El rover Perseverance y el helicóptero Ingenuity de la NASA saldrán como un conjunto de Lego 23/05/2023

La empresa de Jeff Bezos fabricará un segundo aterrizador lunar para el programa Artemisa de la NASA 23/05/2023

El libro del día del juicio final, una novela sobre historiadoras y pandemias que viajan en el tiempo 23/05/2023

SSD externo portátil SanDisk de 1TB, una magnífica opción para hacer copias de seguridad estando de viaje o para mover datos de un lado a otro 22/05/2023

Rayyanah Barnawi, la primera astronauta árabe, ya está en el espacio con la segunda misión privada a la Estación Espacial Internacional 22/05/2023

User Inyerface, un juego auténticamente cabrón sobre las peores formas de diseñar interfaces de usuario 21/05/2023

Rooms.xyz es un juego para crear habitaciones isométricas, con el encanto de los píxeles y la personalización como bandera 21/05/2023

PLD Space completa con éxito el encendido estático del Miura 1 en la plataforma de lanzamiento 18/05/2023

7 minutos de acción con un equipo de cazadores de tornados: vehículos con blindaje e instrumentos para enfrentarse a vientos de 236 km/h 18/05/2023

Beepberry: un gadget para chatear con el encanto de una vieja Blackberry 17/05/2023

El mundo se basa en la probabilidad, un clásico matemático en versión «remasterizada» y disponible en línea (junto con muchos otros libros de Mir Publishers) 17/05/2023

Vast anuncia su intención de lanzar su estación espacial Haven-1 en un par de años… pero habrá que verlo 17/05/2023

El Sistema Solar visto de una forma totalmente diferente: como flipbooks de todos los los planetas y el Sol 17/05/2023

Programadoras y programadores versus IA 17/05/2023

Un documental sobre el funcionamiento de las antiguas linotipias con las que se componían libros, revistas y periódicos 16/05/2023

SpaceX llega a los 200 lanzamientos consecutivos con éxito 15/05/2023

Desplegado el radiador del módulo Nauka de la Estación Espacial Internacional 15/05/2023

Por fin está desplegada la antena del radar de la sonda JUICE de la Agencia Espacial Europea 15/05/2023

Los búnkeres nucleares de Ikea imaginados por Filip Filković con Midjourney 14/05/2023

El mapa de GitHub con las diversas áreas, tipos de software y proyectos como países imaginarios 14/05/2023

El reloj de la cadena de bloques de Bitcoin y un montón de datos interesantes 13/05/2023

Intel One Mono, una tipografía clara y legible para quienes trabajan con código 13/05/2023

«Bienvenido a la vida»: una distópica película sobre la existencia virtual más allá de la muerte 13/05/2023

Se ponen en marcha ocho nuevos dominios de primer nivel, incluyendo los polémicos .zip y .mov 13/05/2023

La Agencia Espacial Europea actualiza la hoja de ruta hacia el primer lanzamiento del Ariane 6, que aún promete para 2023 12/05/2023

El carguero Tianzhou-6 ya está en la estación espacial china 11/05/2023

Un texto interactivo sobre álgebra lineal fácil de leer online 11/05/2023

Saturno supera las 100 lunas catalogadas y recupera el título de planeta con más lunas del sistema solar 10/05/2023

Typewriter art, algo así como el abuelo del arte ASCII pero que se hace con máquinas de escribir 10/05/2023

Todos los autores que firman un trabajo ya pueden ser el «primer autor» 10/05/2023

Tecnología y humanidades 10/05/2023

Una vieja cámara adaptada a un dron moderno para filmar películas en Super 8 09/05/2023

El pequeño y precioso Museo virtual de las tarjetas de vídeo 09/05/2023

Un teléfono móvil que prioriza disminuir el estrés, las complicaciones y los «peligros» de los smartphones modernos 09/05/2023

La Crew Dragon Endeavour se cambia de puerto en la Estación Espacial Internacional para dejar su sitio a la Dragon 28 08/05/2023

El perfecto catálogo de las 1.200 rocas que los astronautas trajeron hace décadas de la Luna en las misiones Apolo 08/05/2023

La balada del norte tomo 1, el primero de cuatro sobre la Revolución de Asturias de 1934 08/05/2023

Los pendrives pesan más cuanto más llenos de ceros están 08/05/2023

El avión espacial chino termina su segunda misión tras 267 días en órbita 08/05/2023

Los tres errores de Vinton Cerf, cocreador del TCP/IP e impulsor de Internet 08/05/2023

El carguero espacial Tianzhou-5 deja sitio a su sucesor mientras espera a volver a tener sitio en la estación espacial china 08/05/2023

365 Inventos Made in Spain, un libro con la historia de 365 invenciones españolas 08/05/2023

Rocket Lab lanza con éxito dos satélites de la constelación TROPICS de la NASA 08/05/2023

WikiIndex: el wiki sobre wikis, la gente de los wikis y el software para crear wikis y hablar de wikis 07/05/2023

Clickclickclick.click muestra cómo se analiza el comportamiento con el navegador presentándolo como un juego 06/05/2023

Rotulación en los logotipos de películas de ciencia-ficción del siglo XX 06/05/2023

La Asociación Meteorológica Española se ve impelida a desautorizar la conspiranoia sobre las estelas químicas («chemtrails») 05/05/2023