#IA. Los patrones de error de #ChatGPT.
«Muchos de los experimentos revelan patrones de error sorprendentes. Por ejemplo, la precisión de GPT-4 al decodificar un código simple es del 51% cuando el resultado es una oración de alta probabilidad, pero solo del 13% cuando es de baja probabilidad, a pesar de que esta tarea es determinista para la cual la probabilidad no debería importar. Estos resultados muestran que los profesionales de la IA deben tener cuidado al usar LLM en situaciones de baja probabilidad. En términos más generales, concluimos que no deberíamos evaluar a los LLM como si fueran humanos, sino que deberíamos tratarlos como un tipo distinto de sistema, uno que ha sido moldeado por su propio conjunto particular de presiones».
«GPT-4 tiene dificultades en algunas tareas aparentemente simples, como contar, intercambiar artículos, cifrados por desplazamiento y funciones lineales. En los ejemplos de recuento e intercambio de artículos, GPT-4 falla en los casos en los que el resultado correcto es un fragmento de texto de baja probabilidad (para el ejemplo de recuento, nos referimos a 29 como de baja probabilidad porque ocurre con mucha menos frecuencia en corpus naturales que 30). En los ejemplos de cifrado por desplazamiento y función lineal, GPT-4 tiene un buen desempeño en las variantes de tarea que son comunes en el texto de Internet, pero deficiente en las variantes que son raras (tenga en cuenta que el cifrado por desplazamiento con un desplazamiento de 13 es más de 100 veces más común en el texto de Internet que el cifrado por desplazamiento con un desplazamiento de 12; y la primera función lineal es común porque es la conversión de Celsius a Fahrenheit, mientras que la otra función lineal no tiene un significado especial)».
https://www.pnas.org/doi/10.1073/pnas.2322420121
«Muchos de los experimentos revelan patrones de error sorprendentes. Por ejemplo, la precisión de GPT-4 al decodificar un código simple es del 51% cuando el resultado es una oración de alta probabilidad, pero solo del 13% cuando es de baja probabilidad, a pesar de que esta tarea es determinista para la cual la probabilidad no debería importar. Estos resultados muestran que los profesionales de la IA deben tener cuidado al usar LLM en situaciones de baja probabilidad. En términos más generales, concluimos que no deberíamos evaluar a los LLM como si fueran humanos, sino que deberíamos tratarlos como un tipo distinto de sistema, uno que ha sido moldeado por su propio conjunto particular de presiones».
«GPT-4 tiene dificultades en algunas tareas aparentemente simples, como contar, intercambiar artículos, cifrados por desplazamiento y funciones lineales. En los ejemplos de recuento e intercambio de artículos, GPT-4 falla en los casos en los que el resultado correcto es un fragmento de texto de baja probabilidad (para el ejemplo de recuento, nos referimos a 29 como de baja probabilidad porque ocurre con mucha menos frecuencia en corpus naturales que 30). En los ejemplos de cifrado por desplazamiento y función lineal, GPT-4 tiene un buen desempeño en las variantes de tarea que son comunes en el texto de Internet, pero deficiente en las variantes que son raras (tenga en cuenta que el cifrado por desplazamiento con un desplazamiento de 13 es más de 100 veces más común en el texto de Internet que el cifrado por desplazamiento con un desplazamiento de 12; y la primera función lineal es común porque es la conversión de Celsius a Fahrenheit, mientras que la otra función lineal no tiene un significado especial)».
https://www.pnas.org/doi/10.1073/pnas.2322420121