#IA. Los patrones de error de #ChatGPT.
«Muchos de los experimentos revelan patrones de error sorprendentes. Por ejemplo, la precisión de GPT-4 al decodificar un código simple es del 51% cuando el resultado es una oración de alta probabilidad, pero solo del 13% cuando es de baja probabilidad, a pesar de que esta tarea es determinista para la cual la probabilidad no debería importar. Estos resultados muestran que los profesionales de la IA deben tener cuidado al usar LLM en situaciones de baja probabilidad. En términos más generales, concluimos que no deberíamos evaluar a los LLM como si fueran humanos, sino que deberíamos tratarlos como un tipo distinto de sistema, uno que ha sido moldeado por su propio conjunto particular de presiones».
«GPT-4 tiene dificultades en algunas tareas aparentemente simples, como contar, intercambiar artículos, cifrados por desplazamiento y funciones lineales. En los ejemplos de recuento e intercambio de artículos, GPT-4 falla en los casos en los que el resultado correcto es un fragmento de texto de baja probabilidad (para el ejemplo de recuento, nos referimos a 29 como de baja probabilidad porque ocurre con mucha menos frecuencia en corpus naturales que 30). En los ejemplos de cifrado por desplazamiento y función lineal, GPT-4 tiene un buen desempeño en las variantes de tarea que son comunes en el texto de Internet, pero deficiente en las variantes que son raras (tenga en cuenta que el cifrado por desplazamiento con un desplazamiento de 13 es más de 100 veces más común en el texto de Internet que el cifrado por desplazamiento con un desplazamiento de 12; y la primera función lineal es común porque es la conversión de Celsius a Fahrenheit, mientras que la otra función lineal no tiene un significado especial)».
https://www.pnas.org/doi/10.1073/pnas.2322420121
«Muchos de los experimentos revelan patrones de error sorprendentes. Por ejemplo, la precisión de GPT-4 al decodificar un código simple es del 51% cuando el resultado es una oración de alta probabilidad, pero solo del 13% cuando es de baja probabilidad, a pesar de que esta tarea es determinista para la cual la probabilidad no debería importar. Estos resultados muestran que los profesionales de la IA deben tener cuidado al usar LLM en situaciones de baja probabilidad. En términos más generales, concluimos que no deberíamos evaluar a los LLM como si fueran humanos, sino que deberíamos tratarlos como un tipo distinto de sistema, uno que ha sido moldeado por su propio conjunto particular de presiones».
«GPT-4 tiene dificultades en algunas tareas aparentemente simples, como contar, intercambiar artículos, cifrados por desplazamiento y funciones lineales. En los ejemplos de recuento e intercambio de artículos, GPT-4 falla en los casos en los que el resultado correcto es un fragmento de texto de baja probabilidad (para el ejemplo de recuento, nos referimos a 29 como de baja probabilidad porque ocurre con mucha menos frecuencia en corpus naturales que 30). En los ejemplos de cifrado por desplazamiento y función lineal, GPT-4 tiene un buen desempeño en las variantes de tarea que son comunes en el texto de Internet, pero deficiente en las variantes que son raras (tenga en cuenta que el cifrado por desplazamiento con un desplazamiento de 13 es más de 100 veces más común en el texto de Internet que el cifrado por desplazamiento con un desplazamiento de 12; y la primera función lineal es común porque es la conversión de Celsius a Fahrenheit, mientras que la otra función lineal no tiene un significado especial)».
https://www.pnas.org/doi/10.1073/pnas.2322420121
#IA. Un pasatiempo diario del New York Times resulta insalvable para o1 de #ChatGPT y otros grandes modelos de lenguaje (LLM) de #Google, #Anthropic y #Microsoft (que funciona con la tecnología de #OpenAI)
«Las reglas del juego son engañosamente simples. A los jugadores se les dan 16 términos y se les pide que averigüen qué tienen en común, dentro de grupos de cuatro, pero como las cosas que los relacionan pueden ser tan obvias como "subtítulos de libros" o tan esotéricas como "palabras que comienzan con fuego", puede ser bastante desafiante».
https://futurism.com/the-byte/openai-o1-nyt-connections
«Las reglas del juego son engañosamente simples. A los jugadores se les dan 16 términos y se les pide que averigüen qué tienen en común, dentro de grupos de cuatro, pero como las cosas que los relacionan pueden ser tan obvias como "subtítulos de libros" o tan esotéricas como "palabras que comienzan con fuego", puede ser bastante desafiante».
https://futurism.com/the-byte/openai-o1-nyt-connections
THE_BYTE.
OpenAI’s Most Advanced AI Release Stumped by New York Times Word Game
OpenAI's o1 reasoning model was caught massively struggling to solve the New York Times' Connections word game.
Cuando pruebas la nueva función «investigación en profundidad» con la que #ChatGPT pretende dar respuesta a la competencia china, te das cuenta de que el horizonte de la #IA conversacional es convertirse en una especie de «Ministerio de la Verdad» alimentado por una documentación exhaustiva con la mediocridad más apabullante.
¿La razón? Si investigas un hecho contemporáneo recurrirá a las administraciones involucradas, y si buscas entender la historia de una institución centenaria recurrirá exclusivamente a fuentes de esa propia institución y sus académicos de cabecera.
Seguramente es la obsesión anti «fake news» en la elección de fuentes la que ha escorado el sistema hacia la invisibilización de cualquier crítica o conflicto. Pero el resultado sólo puede ser contradictorio: imaginemos un mundo donde «la verdad» de uso cotidiano es esta grisura plúmbea de un autorelato institucional autosatisfecho a base de lapsos y cesuras.
Agreguémosle las noticias y artículos que hemos enlazado estos días sobre la sustitución de libros por resúmenes y presentaciones en la enseñanza secundaria e incluso la universitaria.
¿No es esa superposición de rebeldía -justificada- y ausencia de profundidad conceptual la que crea una audiencia para las fake news, la #superstición y la #conspiranoia?
Y por otro lado... ¿cómo puede construirse una crítica a lo existente, en cualquiera de sus dimensiones sociales cuando nadie tiene referentes más allá de elegir entre el delirio y la verdad más oficialista y acrítica? ¿Cómo se hace un discurso alternativo sin otro contexto que el institucional?
Tal vez fragmentando el discurso oficial en unidades de significado para recoserlas luego de manera alternativa con un significado social distinto o que al menos haga evidente lo ausente en el relato resultante de la identificación entre verdad y poder.
¿La razón? Si investigas un hecho contemporáneo recurrirá a las administraciones involucradas, y si buscas entender la historia de una institución centenaria recurrirá exclusivamente a fuentes de esa propia institución y sus académicos de cabecera.
Seguramente es la obsesión anti «fake news» en la elección de fuentes la que ha escorado el sistema hacia la invisibilización de cualquier crítica o conflicto. Pero el resultado sólo puede ser contradictorio: imaginemos un mundo donde «la verdad» de uso cotidiano es esta grisura plúmbea de un autorelato institucional autosatisfecho a base de lapsos y cesuras.
Agreguémosle las noticias y artículos que hemos enlazado estos días sobre la sustitución de libros por resúmenes y presentaciones en la enseñanza secundaria e incluso la universitaria.
¿No es esa superposición de rebeldía -justificada- y ausencia de profundidad conceptual la que crea una audiencia para las fake news, la #superstición y la #conspiranoia?
Y por otro lado... ¿cómo puede construirse una crítica a lo existente, en cualquiera de sus dimensiones sociales cuando nadie tiene referentes más allá de elegir entre el delirio y la verdad más oficialista y acrítica? ¿Cómo se hace un discurso alternativo sin otro contexto que el institucional?
Tal vez fragmentando el discurso oficial en unidades de significado para recoserlas luego de manera alternativa con un significado social distinto o que al menos haga evidente lo ausente en el relato resultante de la identificación entre verdad y poder.