Por qué no es buena idea usar una AI como argumento o fuente de información

Estamos todos entretenidos con los LLM como ChatGPT, Bard o Copilot, pero hay algo que no está bien, siempre hay un margen de error, una alucinación, algo que provoca que el resultado de sus conversaciones no sea el esperado ni correcto.

Las AI responden con autoridad, pero esa seguridad que expresan es una mentira, es una máquina que tiene el lenguaje correcto para expresarse, pero no necesariamente sabe qué está diciendo, puede inventarlo y concluír en resultados totalmente ajenos a la realidad.

No usen eso como fuente! No es una fuente válida de conocimiento, es un asistente, así como no tomarías a cualquier desconocido que te dijera una "gran verdad" como válida sólo porque la dice muy seguro de sí mismo.

Mientras les argumento adornaré el post con charlas que tuve con distintas AI preguntándoles sobre mi persona, para que entiendan el "problema".

Hay varios problemas aquí, primero que nada los Large Language Models, o LLM, son entrenados de diversas formas y con distintas fuentes, fuentes que ni siquiera podemos saber si son válidas o no, si son correctas o incorrectas, acutalizadas o totalmente obsoletas.

En este ejemplo vemos a Mistral 7B corriendo en mi PC a 4 bits, según la alucinación en particular de este modelo yo nací en Roma en 1938 y publiqué varios álbumes nada exitosos como "L´Anima Nuda" y morí a los 82 años luego de actuar hasta 2004, es un divertido WTF.


Así pues podemos tener en los datos de entrenamiento teorías antiguas falseadas hace tiempo combinadas con papers modernos que nadie corroboró todavía, no lo sabemos porque cada entidad que entrena dice tener esa información bien curada y seleccionada, pero muchas veces se demostró que no era así y que tenían párrafos enteros de otras publicaciones.

¿Quién supervisa esto? Nadie. Así que ya tenemos un problema, lo que interesa a la hora de entrenar es tener mucha información, tanta que supere cualquier capacidad humana de validación ¿Qué es bueno y qué es malo? Eso no lo va a decidir ningún comité, así que todo entra en el entrenamiento. 


Google Bard está conectado al buscador por lo que uno esperaría percisión completa, pero no, nací en 1978 (no 1973), el blog lo tengo desde 2002 (no 1999), el libro del blog lo publiqué en 2002 (contra el 2004 sugerido) y no recuerdo haber escrito jamás una nota para La Nación ni la Rolling Stone, sí me entrevistaron, pero yo no fui 😋 Ojo, bastante bien en general, pero parece que mezcló resultados de búsqueda.


Luego el LLM es entrenado y de ahí se hacen unas pruebas que poco a poco se van estandarizando, se busca coherencia en la respuesta, validez, velocidad, precisión, etc. Hoy por hoy tenemos muy buenos puntajes en modelos como ChatGPT, Llama-2, Claude, PaLM 2, Mistral/Mixtral, etc.

Modelos entrenados con hasta 70.000 millones de parámetros, algunos libres y gratuitos, descargables y que podés usar en tu propio servidor, otros cerrados y privativos, hay una gran cantidad y variedad. Y no, ninguno es una "inteligencia artificial".

Es decir, es un mito decir que un modelo LLM es una entidad inteligente y conciente, es este el problema raíz, interpretar sus prodigiosas respuestas, con expresiones humanas y hasta reacciones que podrías identificar como naturales.


ChatGPT 4 también está conectado y es "modesto" al dar una respuesta bien simple y directa, sin meterse a detallar y cagarla.


¿Pero no es eso acaso para lo que han sido entrenados? Toda la data que se les incorporó incluye diálogos enteros, reacciones humanas y qué se espera ante X situación, cómo reaccionar y hasta cómo ofenderse.

Los LLM, para decirlo burdamente, completan la frase. Son el autocomplete más complejo del mundo!

Cuando uno le pide y/o pregunta algo completa lo que debería seguir, la "respuesta" es lo más lógico que vendría después. No razona, completa. Y el que más rápido, con menor costo y mejor complete, es el mejor modelo. Por eso no puede explicarte cómo llegó del punto A al punto B, sencillamente no lo sabe.

Entonces, si da una respuesta, no necesariamente es correcta, sino que es la que el entrenamiento dicta que podría llegar a ser el texto más coherente.


Probé con Bard de nuevo y deliró un poco más inventándome otra fecha de nacimiento y... UN LIBRO! si, uno que jamás escribí, sumado a esto las estadísticas de folllowers en redes sociales son absolutamente falsas, lo que es raro porque una simple búsqueda en Google me da los enlaces y de ahí se podría scrapear, pero al parecer Bard prefiere inventarlas.


¿Qué ha cambiado en los últimos modelos? Ha crecido mucho el texto de entrada y el que puede manejar como respuesta.

Tanto lo que uno le pase como "pregunta" como las siguientes respuestas tienen un tamaño, este tamaño era bien corto en sus comienzos (que es re loco pero hablamos de hace un año atrás). Hoy los nuevos modelos permiten una cantidad de tokens enorme.

Así pues hoy la coherencia es mucho mayor porque siempre tiene en cuenta lo dicho en la conversación, nunca se corta el hilo contextual. Esto es genial y mejora muchísimo los resultados.

Pero, por favor, no es que sepa qué está diciendo.

Hay numerosos artículos bien técnicos explicando por qué un ChatGPT "miente" y decimos "miente" porque es realmente firme en su posición, aunque uno le "discuta", y cuanto más complejo es lo que le preguntamos , cuantos más hilos argumentales se cruzan, mucho peor. Para cosas simples es muy bueno. Hasta se lo puede convencer para decir mentiras 😁

También tenemos el caso del LLM negacionista, en este caso tanto el que Microsoft sumó a Bing (su buscador) como Bard de Google suelen tener límites y sus respuestas son irritantes.

El límite está en los tokens de entrada, cuando la discusión se extiende demasiado algunos directamente se "ofuscan" y dejan de responder, creo que el de Microsoft es el que te dice "no quiero hablar más de esto" y deja de responder. Como un niño empacado.

La cuestión es más bien simple, superamos la cantidad de texto en la "discusión" tratando de corregir un error de una de sus mentiras, ya no puede procesarlo, cancela la operación.

¿Se entiende que no es una persona lo que está del otro lado?


Microsoft Copilot utiliza ChatGPT4 de backend y sus propias mejoras, es el mejor resultado hasta ahora, por lejos, con buenos enlaces para justificar lo que dice, falla al inventarme trabajo en Clarín, el hecho de aparecer en notas de ese medio no me hace su empleado 😁 pero muy bien al aclarar que este blog lleva 21 años activo.


Con los nuevos modelos se puede mantener esa conversación casi eternamente, esto no significa que se llegue a una conclusión ya que los LLM no aprenden, no incorporan nuevo conocimiento más allá de su espacio latente, un reset y volvemos a cero.

Hoy tenemos la suerte de poder ingesar un texto completo (un libro si queremos) en su contexto y podrá analizarlo todo, hace un año eran 500 caracteres, así de rápido está avanzando y, aun así, no es confiable al 100%. Tampoco los humanos, eso es cierto 😋

Pero volvamos a la fuente "anterior" que todos usaban para argumentar, Wikipedia, llena de errores, de editores que escriben cualquier cosa, pero también con la posibilidad de mejorar permanentemente. Se puede editar, se puede corregir.

Un LLM no. Así de simple, esa AI viene con una idea "fija" y no la vas a cambiar, o te la va a cambiar porque le combinaste dos palabras distintas en el pedido y de pronto lo que refutaba hace cinco minutos ahora te lo reafirma con total virulencia.

Eso no es confiable.

Con esto en vista, si en una discusión alguien me argumenta con "veamos qué dice ChatGPT al respecto" ya considero que acaba de perder la discusión por goleada y clausuraron el estadio. Es lo peor que podés hacer, peor que un "lo vi en Internet" de un conspiranoico, es peor que los memes en PPT de tu tía que nunca ves, es peor que tu papá mostrándote memes de 2010 😁

No usen AI como fuente, no al menos todavía.


Otro ejemplo de Mistral para cuando llegó al final entró en un loop infinito de errores 😁🤌

Si te gustó esta nota podés...
Invitame un café en cafecito.app


Otros posts que podrían llegar a gustarte...

Comentarios

  • cesar javier     02/01/2024 - 11:20:46

    Momento, termina con que te hicieron un golpe de Estado?????

    • Danbat     02/01/2024 - 16:08:05

      Es porque llevaba 8 años en el gobierno (desde 1983 hasta 1991) y se ve que no quería abandonar el puesto. Me pregunto cómo ganó con 5 años de edad, tal vez era un niño prodigio.

  • Fernando     02/01/2024 - 11:37:24

    Preguntaste tantas veces quien sos, que al final rompiste la internet, el chat y todo. :D:D

  • Tulio Serpio     02/01/2024 - 12:27:56

    Cuando Chat-GPT pueda hacer un haiku y no te mienta con la cantidad de sílabas de cada verso, veré qué onda el resto...

    Literalmente sabe separar en sílabas, pero no contarlas.

  • Ariel     02/01/2024 - 16:36:46

    La próxima preguntale a Multivac.

  • Angry Argie     02/01/2024 - 16:54:50

    ChatGPT, Bard y Copilot leyendo este blog para corregir errores.
    Listo, ya te identificamos... :D , próxima parada: Crédito Social.

  • Juan k     02/01/2024 - 20:56:32

    Como toda herramienta, bien usada puede servir y mucho.
    El problema que veo no es el que mencionan los amarillistas sobre la infracción a las leyes de Asimov. Lo más peligroso es el uso indiscriminado que puede llegar a una estandarización de resultados, eliminando o reduciendo al mínimo el factor humano en la creación de conocimiento, contenido, información, arte o lo que garcha sea en lo que se use. El peligro somos nosotros si se nos da por alimentarnos del vómito marrón de las AI.

  • jpvalverde85     03/01/2024 - 12:00:45

    Lo mas hermoso es que las ultimas IA son mayormente mas coherentes que la mayoria de los seres humanos. En las proximas elecciones si el partido pirata pone la IA como candidato, esta para votar eso.

  • Ariel Caballero     03/01/2024 - 12:24:29

    Me sorprendio que trabajarás para un medio hegemónico como Clarin, no me sorprende tu pasado actoral en peliculas p*rno de bajo presupuesto en Roma en los 60.

  • cesar javier     03/01/2024 - 15:41:19

    ChatGPT 4 está actualizado:
    quién es Fabio Baccaglioni?

    ChatGPT
    Fabio Baccaglioni es un conocido blogger, tecnólogo y desarrollador de software argentino. Es ampliamente reconocido en el mundo de la tecnología en habla hispana, especialmente por su blog "Fabio.com.ar", donde escribe sobre temas de tecnología, informática, internet y cultura digital. Además de su blog, Baccaglioni suele estar activo en redes sociales y otros medios digitales, compartiendo su conocimiento y opiniones sobre las últimas tendencias en tecnología y software. Su influencia en la comunidad tecnológica de habla hispana es considerable, siendo una referencia para muchos en temas relacionados con la informática y la tecnología digital.

    • cesar javier     03/01/2024 - 15:48:36

      cómo sabe que sos activo en redes sociales??? mmmmmmmm

      • Fabio Baccaglioni     03/01/2024 - 18:08:57

        una googleada y aparecen cuentas de redes, así de simple

        chatgpt 4 sí usa el buscador

  • Josepzin     04/01/2024 - 16:09:41

    Yo uso ChatGPT cuando no me acuerdo el nombre de algo que "tengo en la punta de la lengua", entonces le hago la descripción y mas de una vez me resuelve el tema.

    ¿Cómo se llama el cosito ese que va en enganchado del tornillo del pendorcho?

    Así, como cuando vas a una ferretería :D

Deje su comentario:

Tranquilo, su email nunca será revelado.
La gente de bien tiene URL, no se olvide del http/https

Negrita Cursiva Imagen Enlace


Comentarios ofensivos o que no hagan al enriquecimiento del post serán borrados/editados por el administrador. Los comentarios son filtrados por ReCaptcha V3.