No confíes en la inteligencia artificial: usa la tuya

3078
Imagen de Freepik

Herramientas como ChatGPT, Chatsonic, Google Bard AI, Jasper Chat, Character AI, Dialog GPT o Github Copilot X consisten en algoritmos de búsqueda, clasificación y selección de textos. La confusión entre sintaxis y semántica crea la ilusión de que un texto gramaticalmente correcto (producto de un algoritmo) pueda ser semánticamente correcto. Otra ilusión, sobre todo de algunos empleadores, es que pueden reemplazar personas por máquinas.


Es necesario comenzar con una anécdota personal, muy reciente. Al terminar la revisión de un trabajo, un coautor me envió una lista de referencias con títulos muy parecidos al del nuestro. El susto fue grande. Había en la lista cinco referencias, muy precisas, de trabajos en buenas revistas. La primera reacción fue: ¿cómo se me pasó este material?

Los autores citados eran todos reales y la información bibliográfica —nombre de la revista, año, volumen y páginas— era verosímil. Al buscar en las revistas, los números de las páginas casi coincidían con artículos reales, pero no con los que envió mi colega, tampoco los autores ni los títulos. Contacté a uno de los autores citados y me dijo: «Amigo mío, no sé de qué me hablas».

Finalmente mi coautor confesó que le pidió a un robot conversacional (chatbot) referencias sobre el tema, y le dio el nombre de nuestro artículo. El robot le proporcionó la lista que me envió, sin verificar si las referencias eran reales. El susto se me pasó, pero es importante compartir lo demencial de la situación.

Si la búsqueda bibliográfica la hubiese hecho una inteligencia natural habría usado los recursos informáticos para filtrar mediante combinaciones de palabras clave, examinar las referencias encontradas una por una, descartar las que no estuvieran relacionadas con el tema, etc., etc. Pero, ¿qué hizo el algoritmo? Clasificó los temas implícitos en el título, buscó autores en temas «cercanos», fabricó una lista de referencias con información bibliográfica verosímil y, en lugar de los autores y títulos verdaderos, ¡inventó! autores y títulos parecidos al criterio de búsqueda.

Imagine que usted es médico. Está en una situación de emergencia, tiene que buscar información sobre un procedimiento quirúrgico y le pregunta a la inteligencia artificial (IA) disponible qué hacer. Recibirá en segundos una respuesta con un procedimiento que quién sabe de dónde salió ni para qué se usa, si es que se usa para algo. El resultado puede ser fatal para la persona que está atendiendo ¡y para usted!

Imagine que usted es asesor financiero, necesita resolver una duda y la plantea en detalle a su IA favorita. Esta, seguramente, encontrará en las preguntas de algún examen en alguna materia financiera, en alguna prestigiosa universidad, algún problema con un enunciado parecido a su duda y le dará una respuesta que suena correcta, pero está equivocada; simplemente, porque se refiere a un tema con términos parecidos, pero distintos a los suyos. Es el comienzo de una pérdida millonaria de fondos de algún cliente, con todas sus consecuencias.

Recientemente han aparecido muchos ensayos y reportes de investigación sobre problemas que van desde la inaplicabilidad de estas herramientas a problemas concretos hasta el mal uso que se les da en el medio educacional y académico. Por ejemplo, «ChatGPT aparece como autor en trabajos de investigación».[1] Esto sería ridículo, si no fuese por sus implicaciones. El subtítulo habla por sí mismo: «Muchos científicos están en desacuerdo». Los editores de las revistas Nature y Science lo rechazan, pues los generadores de textos no son responsables ni rinden cuentas por esos textos. Pero queda la duda del «académico» que cita o usa ese texto.

Quienes aplican los resultados publicados en las revistas científicas suponen que hay una revisión por pares con filtros de calidad; aunque hay una larga lista de casos en los cuales esto no se cumple. Si se aplica un procedimiento descrito en una revista académica y ocurre una fatalidad, ¿es el médico tratante culpable de no usar su «inteligencia»? ¿Qué pasaría en un juicio por mala práctica si el error se le atribuye a una IA que diagnostica incorrectamente y el paciente muere?

En el ensayo «¿Pueden las herramientas antiplagio detectar cuándo los robots conversacionales escriben los ensayos de los estudiantes?»[2] su autor adopta el punto de vista de un profesor que debe evaluar un ensayo escrito por un estudiante. El estudiante dice que es «creativo» saber hacerle preguntas a la IA para que componga un ensayo sobre un tema (lengua y literatura, en este caso). Para un profesor, la pregunta obvia es: ¿cómo se detecta que una IA escribió un ensayo? Pero la pregunta subyacente es: ¿cómo se certifica que alguien pasó satisfactoriamente por un proceso educativo? ¿Qué valor tendrá un título académico?

¿En qué consiste la pericia en un área? La existencia de servicios de solución de problemas, en una tarea para la casa o en un examen, es ya un problema real en muchos países. Cuando se otorga —personal e institucionalmente— la calificación de aprobado a un estudiante se está certificando que es capaz de resolver cierto tipo de problemas y que tiene suficientes herramientas intelectuales para saber si el problema está bien resuelto o no. ¿Cómo queda todo esto en vista de la existencia de esas herramientas?

Un ensayo afín es «Un robot conversacional nunca podría escribir este artículo. He aquí por qué»[3]. El título revela por dónde va el tema. A mucha gente le impresiona el desempeño de esos algoritmos. Según Irina Raicu, directora de ética en internet del Centro Markkula de la Universidad de Santa Clara, citada en el ensayo, «Si la gente está usando [ChatGPT] simplemente para tratar de descubrir información, lo preocupante es que puede producir basura (bullshit) completamente creíble y aparentemente rigurosa». Según el autor del ensayo, parte del problema está en la naturaleza de los trabajos asignados a los estudiantes: no exigen (¿por qué será?) que los estudiantes hagan un esfuerzo real. Pero otra gran parte es que los instructores no dedican tiempo a evaluar esos trabajos.

Otro asunto muy criticado es el uso de los chatbots como herramientas de búsqueda. Cuando la IA produce ensayos con sesgos clasista, racial o sexista, ¿de quién es la culpa? Por ahora, el problema con esa «inteligencia» no es su falta de originalidad: es que ni siquiera es útil, más allá de servir para hacer una reseña de Airbnb o de Amazon. Los textos que produce son chatos, sin elegancia ni humor; y, además, llenos de errores factuales, incoherencias y sinsentidos.

Estos programas son cajas negras, analizadas por lo que producen y no por lo que tienen dentro ni cómo funcionan. Cuando los códigos subyacentes sean transparentes, se pensará en ellas como reflejos de los codificadores que las desarrollaron.

Michael King publicó un artículo en la revista Cellular and Molecular Bioengineering que consiste en una serie de preguntas que le hace al ChatGPT y las respuestas que arroja el algoritmo.[4] Las preguntas son muy precisas, sin ambigüedad, y versan sobre el problema del plagio y la tramposería entre los estudiantes. A continuación se muestra una selección de preguntas y respuestas.

  • MK: Escribe un párrafo sobre cómo el plagio es una preocupación creciente en la educación superior.
  • Respuesta: El plagio es un problema creciente en la educación superior porque más y más estudiantes recurren a internet para investigar y buscar información. Como esta es abundante y fácilmente accesible, el cortado y copiado, sin la atribución correcta del origen de la información, es cada vez más fácil. Esto ha generado una cantidad creciente de incidentes, que pueden tener consecuencias negativas para los estudiantes, desde reprobar un curso hasta la expulsión con la consecuente pérdida reputacional. Muchas instituciones de educación superior están adoptando medidas más estrictas para resolver este problema.

 

  • MK: Escribe un párrafo que sugiera maneras como los profesores pueden diseñar tareas que minimicen la posible trampa con ChatGPT.
  • Respuesta: Una manera es incorporar una variedad de evaluaciones no basadas en «ensayos tradicionales». Por ejemplo, incorporar presentaciones orales, proyectos en grupos y actividades presenciales que exijan que los estudiantes demuestren sus conocimientos y habilidades. Además, pueden usar el software antiplagio que existe en el mercado para evaluar los trabajos escritos.

 

Todas las preguntas de King comienzan con «escribe un párrafo…» y las respuestas son casi todas de la misma longitud. El artículo termina con King pidiendo al ChatGPT una lista de referencias, sin sesgo racial ni sexista. La respuesta es como la que obtuvo mi coautor: ¡las referencias no existen! King las cita en el artículo.

También han aparecido noticias preocupantes sobre el uso de la IA. En la página de internet de la BBC se lee: «Elon Musk entre los expertos que urgen a detener los desarrollos de la inteligencia artificial».[5] ¿Qué hace a alguien «experto» en IA? En cualquier caso, algún peligro para sí mismos deben ver algunos superricos, dueños de compañías de alta tecnología. Les preocupa que sus empleados desarrollen códigos que pueden contestar preguntas acerca de objetos que aparecen en imágenes. Dicen que sistemas con habilidades que compitan con las de los humanos constituyen un riesgo social y humano.

Otro reporte de la BBC, que apareció en varios medios, dice que se pueden perder hasta 300 millones de empleos.[6] Aparte de la creencia en disminución de costos y aumento de productividad, el reporte dice que la IA generativa es capaz de crear contenidos indistinguibles (¿por quién?) de los creados por humanos (no dice a qué tipo de contenidos se refiere). Tampoco dice el artículo cuánta y cuán calificada deberá ser la gente que interactúe con esa IA.

Todo parece indicar que la IA afectará a trabajos relacionados con la producción y el análisis de textos. Dos frases indican por dónde van los tiros:

  • «La IA permitirá que gente con pocas habilidades pueda escribir ensayos y artículos (como este por ejemplo)».
  • «Los periodistas, por lo tanto, tendrán más competencia, lo cual reducirá los salarios, a menos que la demanda de tal trabajo aumente significativamente».

Quizá lo más tranquilizante sea saber que los sociólogos y economistas no son muy buenos prediciendo. Pero, como sí son buenos retrodiciendo, han advertido que más del sesenta por ciento de los empleos actuales no existían en 1940. Quizá, en lugar de perder 300 millones de empleos, se creen más empleos para poner a toda esa gente a hacer algo. Si no, los franceses tendrán que subir más la edad de retiro para mantener a sus ciudadanos que estén en esa lista.

Algo que no resulta claro en todo esto es la expresión «inteligencia artificial». El calificativo «artificial» va bien. Es el resultado de (para la mayoría que no tiene acceso al código) una caja negra. Lo de inteligencia es un nombre que alguien inventó, pero no es pertinente y no debería usarse, aunque ayuda a vender el producto. Lo que producen esos artilugios es el resultado de la ejecución de un código, compuesto de bloques conceptualmente simples, que usufructúan la velocidad de procesamiento de las máquinas actuales (miles de millones de operaciones por segundo), y buenos algoritmos de búsqueda, comparación, clasificación y manejo de grandes bases de datos.

Pero las máquinas no piensan ni deciden sobre la marcha, si la respuesta a una pregunta es adecuada. Tampoco resuelven ambigüedades sobre la marcha, ni presentan alternativas interpretativas cuando las preguntas son ambiguas, o repreguntan para aclarar antes de responder. Tampoco tienen humor ni sienten tristeza, ni alegría, ni rabia, ni etc., etc.

Ciertamente hay que admirar el ingenio de los desarrolladores, premiar los algoritmos de clasificación de imágenes y patrones que son útiles en toda clase de aplicaciones, pero hasta ahí. Quien piensa, o debería pensar, es el que usa el resultado de esos procedimientos para tomar decisiones y resolver problemas; quien, en última instancia, carga con la responsabilidad de la decisión tomada.

Vale la pena leer la opinión de Bill Gates en un ensayo titulado «Comenzó la era de la inteligencia artificial»:[7]

Técnicamente, el término inteligencia artificial se refiere a un modelo creado para proveer un servicio específico. Lo que hay tras cosas como ChatGPT es inteligencia artificial. Está aprendiendo a conversar mejor, pero no puede aprender otras cosas. En contraste, el término inteligencia artificial general (IAG) se refiere a un software capaz de aprender cualquier tarea o tema. La IAG no existe aún. En la industria informática hay un intenso debate acerca de cómo crearla, y si puede crearse.


Henryk Gzyl, profesor del IESA.

Suscríbase aquí al boletín de novedades de Debates IESA.

Notas

[1] Stokel-Walker, C. (2023, 18 de enero). ChatGPT listed as author on research papers. Nature. https://www.nature.com/articles/d41586-023-00107-z

[2] Mollenkamp, D. (2022, 21 de diciembre). Can anti-plagiarism tools detect when AI chatbots write student essays? EdSurge. https://www.edsurge.com/news/2022-12-21-can-anti-plagiarism-tools-detect-when-ai-chatbots-write-student-essays

[3] Ho Tran, T. (2023, 17 de enero). A chatbot could never write this article. Here’s why. Daily Beast. https://www.thedailybeast.com/openais-chatgpt-could-never-write-this-article-heres-why

[4] King, M. R. (2023). A conversation on artificial intelligence, chatbots, and plagiarism in higher education. Cellular and Molecular Bioengineering, 16, 1: 1-2. https://doi.org/10.1007/s12195-022-00754-8

[5] Vallance, C. (2023, 30 de  marzo). Elon Musk among experts urging a halt to AI training. BBC. https://www.bbc.com/news/technology-65110030

[6] Vallance, C. (2023, 29 de marzo). AI could replace equivalent of 300 million jobs – report. BBC. https://www.bbc.com/news/technology-65102150

[7] Gates, B. (2023, 21 de marzo). The age of AI has begun. GatesNotes. https://www.gatesnotes.com/The-Age-of-AI-Has-Begun