Noticias
28 de February de 2023
¿Y qué es eso de ChatGPT?
Por: Juan Sebastián Ballen Riveros - Docente del departamento de matemáticas y Candidato a doctor en Derecho Universidad Externado de Colombia.
El pasado 30 de enero de 2023, el juzgado 1 laboral del Circuito de Cartagena, falló una tutela en favor del menor Salvador Espitia Chávez contra la EPS Salud Total. En este fallo el juez ordenó exonerar del pago de cuotas moderadoras y copagos de la EPS a un menor de edad con autismo que no cuenta con recursos económicos para tal efecto. Hasta el momento, este fallo no tendría ningún efecto o importancia en términos periodísticos y judiciales, más allá de una posible extralimitación del juez en su fallo o en determinar si se sigue la línea jurisprudencial de la Corte Constitucional, de no ser por un hecho. En la página 5 de la sentencia, párrafo 3ro, se señala:
“Por otra parte, atendiendo que la Ley 2213 de 2022 tiene por objeto la incorporación de las TIC en los procesos judiciales., se resolverá extender los argumentos de la decisión adoptada, conforme al uso de inteligencia artificial (IA). Por consiguiente, se procedió a incluir apartes del problema jurídico planteado en la presente sentencia y se ingresó en el aplicativo https://chat.openai.com/chat.”
El simple hecho de consultar a ChatGPT ha generado que se abra la discusión del uso o no de las herramientas de Inteligencia artificial (de aquí en adelante IA) en el derecho. Este hecho fue reportado en diferentes países del mundo con encabezados que dicen: 1) Juez colombiano afirma que él utilizó ChatGPT en su fallo[1] (Taylor, 2023), 2) ChatGPT ya se está utilizando en los tribunales[2] (Iwata, 2023), entre muchos otros.
Si bien cada uno de nosotros podemos tener una opinión sobre este particular, lo único que es cierto es que no todos tienen claro que es eso de usar IA en el derecho y cómo funciona dicha herramienta.
En este espacio se le dará al lector más información, que permita enriquecer esta discusión, para que al final pueda entender que es eso de ChatGPT y como es que funciona, en un lenguaje natural (como lo llaman los técnicos en la materia al referirse a dar una respuesta sin utilizar términos técnicos, únicamente, para explicar esta situación y que puedan ser entendida por lectores no expertos).
Componente técnico
Según la información que se puede encontrar en la página de https://openai.com/blog/chatgpt/, Se indica que ChatGPT es un chatbot desarrollado por la compañía OpenAI. Esta empresa, que fue creada en 2015, tiene como misión asegurar que el uso de IA general beneficie a toda la humanidad (OpenIA, 2023). Así mismo, nos indica que ChatGPT fue “entrenado” usando Reinformcement Learning from human feedback (RLHF).
Esto, para un lector que no conoce de la materia resulta algo sorprendente y lo más probable es que se pregunte “¿Qué significa todo eso?”. Muy bien, justamente eso es lo que vamos a explicar.
En primer lugar, empecemos por el término “Chatbot”. Este surge de la unión de dos palabras “chat” y “Robot”, lo que en español sería “: Chat o Intercambio de mensajes electrónicos a través de internet que permite establecer una conversación entre dos o más personas.” (Rae, 2023) y robot,“Máquina o ingenio electrónico programable que es capaz de manipular objetos y realizar diversas operaciones.”(Rae, Real Academia Española, 2023).
Este tipo de robots fueron descritos desde el año 1940, en la obra del autor ruso Isaac Asimov quien en su libro “Yo, robot”, presenta este tipo de entes capaces de hablar y mantener conversaciones con seres humanos.
Fue hasta 1966 que el instituto tecnológico de Massachusetts presentó el primer chatbot de la historia, Eliza, desarrollada por Joseph Weizenbaum, el cual buscaba implementar (y parodiar) las preguntas que hacían los psicoterapeutas que implementaban los métodos del psicólogo Carl Rogers. Este programa interactuaba con el usuario por medio escrito. Para poder hacer esta proeza, el programa poseía una base de datos donde se almacenaron frases, las cuales el programa utilizaba para comparar con las oraciones esgrimidas por el usuario. A estas se les asociaban palabras de empatía y de continuación de la conversación. Asimismo, poseía opciones para responder en caso de que el usuario utilizara una oración que no se encontrara dentro de su base, esto obligando a mantener la conversación y poder hacer que el usuario definiera o utilizara algunas de las que si tenía en su base y de esta forma darle una respuesta establecida dentro de sus parámetros (Mundo, 2023).
Este primer intento fue el inicio de la creación de estos chatbot que pudieran mantener la conversación con humanos. Sin embargo, esto nos trae un problema: ¿Cómo podemos programarlos? Una primera idea sería la de hacer un árbol de decisiones donde se indiquen todos y cada uno de los resultados que se podrían dar; sin embargo, una conversaciones o charlas, posee tantas variables y formas de interactuar que sería imposible de plantear y mucho menos de programar. No obstante, años antes de la salida de Eliza, los trabajos de Frank Rosenblatt sobre el perceptrón (Modelo matemático de neuronas artificiales las cuales permiten el paso o no de información según si se cumple una condición o no) y Warren McCulloch y Walter Pitts sobre redes neuronales (Estructuras matemáticas, posteriormente computarizadas, que pretenden imitar el funcionamiento del cerebro humano), dieron las bases para identificar que no se requiere escribir todas las instrucciones para lograr que estos programas puedan generar conversaciones.
Antes de pasar al segundo término extraño que señalamos hace un instante, en el caso de ChatGPT, el modelo de red neuronal que se utiliza es el denominado Transformers. Este modelo fue presentado por primera vez por Ashish Vaswani en el paper Attention is all you need[3], este modelo difiere de los anteriores en tres elementos:
- Los modelos anteriores de Redes neuronales comienzan sus análisis de frases a partir de la primera palabra en una oración, los Transformers no lo requieren. Esto quiere decir que puede trabajar con datos no organizados.[4]
- Los Transformers pueden trabajar sin tener que generar “bucles” de comparación de información pasada[5], al utilizar una herramienta llamada “Self-attention” el cual le permite hacer la comparación de las diferentes palabras simultáneamente y sobre diferentes textos.
- Requiere menos tiempo para analizar y responder a lo que se venía haciendo previamente.
El segundo término que nos debe llamar la atención es IA General; acuñado por Ben Goertzel[6] y que algunas personas han identificado como un sinónimo de IA fuerte, el cual se usa para referirse a la existencia de una IA que pueda “hacer cualquier cosa”. Hoy por hoy, cuando hablamos de IA debemos señalar que estas están diseñadas para hacer una tarea especifica, es decir, una IA que se crea para jugar ajedrez no se podrá utilizar (sin previo entrenamiento y mucho tiempo de calibración) para jugar damas, póker o escribir un ensayo, solo será buena en la tarea programada. Una IA general no tendría esa dificultad y sí podría realizar estas diferentes tareas sin problema. Así mismo, esta IA general esta en la capacidad de “aprender” sin requerir un volumen grande de datos o seguir los modelos de aprendizaje existentes para las IA, aprendería de la misma forma que los seres humanos o los animales. Por último, esta IA debe poder tener “Conciencia”.
Este tema de la conciencia y la IA general, así como la diferencia entre IA general e IA Fuerte, son temas que salen del objeto de este artículo, pero sobre los cuales estaremos escribiendo más adelante para aquellos lectores interesados en este particular.
El tercer y último elemento que trabajaremos en este texto corresponde al termino Reinformcement Learning from Human Feedback (RLHF). A diferencia de lo que muchas personas deben pensar, en la actualidad la forma de entrenar (correctamente[7]) a las IA es algo supremamente técnico y de mucho cuidado, no solo se requiere el algoritmo (que en este caso sería el transformer) sino que también se requiere los datos organizados ya para su consulta. Este insumo es lo que se denomina Datasets.
Debemos entender que estos Datasets contienen información sobre un tema, desde ejemplos de números escritos a mano, hasta colección de videos e informes sobre el comportamiento de las estrellas en la historia humana. Un ejemplo de estos es el Dataset llamado MNIST, el cual tiene más de 60.000 imágenes de números escritos a mano, además de tener 10.000 imágenes para hacer prueba y ver como está funcionando dicha IA[8].
Aun cuando tengamos el Dataset más organizado, se requerirá que seres humanos intervengan en la creación y validación de los Datasets, se señalen los parámetros (etiquetas) que se deben tener en cuenta para dar respuestas o entren a verificar que las respuestas que se logren por parte de las IA sean correctas o no. Es aquí donde el RLHF entra en desarrollo, en los métodos tradicionales, los seres humanos damos una calificación sobre la respuesta que la IA suministra. Sin embargo, en la RLHF esta calificación incluye un espacio para que la persona señale, en un texto, lo que se debe mejorar de la respuesta y el porqué de esta; dándole más insumos para que la IA pueda seguir aprendiendo y mejorando.
En conclusión, ChatGPT es un robot con el cual el usuario puede interactuar formulando preguntas sin preocuparse por la forma de escribirlas, y en donde este programa le dará una respuesta, la cual puede darse o entenderse como una conversación. El usuario podrá dar su retroalimentación a esta respuesta y el sistema aprenderá de dicha interacción.
Algunos comentarios finales
Ahora bien, teniendo estos conceptos más claros, ya podemos empezar hacer algunas preguntas más profundas sobre esta herramienta, como:
- ¿Qué Dataset utiliza ChatGPT para entrenar?
- ¿Qué porcentaje de los datos del Dataset son utilizados para entrenar y cuales para probar?
- ¿ChatGPT “crea” sus respuestas?
- ¿Quién es el propietario de las respuestas que da ChatGPT?
- ¿Cómo se debe citar las respuestas de ChatGPT si esté tiene la posibilidad de corregir las que este me da?
- ¿Existe alguna forma correcta de usar ChatGPT?
- ¿Cuáles son las implicaciones en el uso de ChatGPT en relación con los Derechos de Propiedad Intelectual, en Colombia?
- Si ChatGPT me da una respuesta equivocada ¿es un problema de no tener datos, un problema de que tiene muchos datos y estos ocultan la respuesta correcta impidiendo dar una respuesta precisa, es un “falso positivo”, un error de recordación de la información que tiene o un error de exactitud?
- Entre muchas otras.
Resulta claro que esta no será la primera vez que tengamos que entrar a estudiar esta herramienta o que un juez se escude en la aplicación de ley 2213 de 2022 para utilizar nuevas herramientas tecnológicas en sus fallos. Todo esto nos deja ver como las nuevas tecnologías empiezan a ganar terreno en las ciencias sociales, donde problemas como la certeza y la velocidad de las respuestas son algo que empiezan a tomar más relevancia.
Referencias
Iwata, R. (10 de febrero de 2023). ChatGPT、早くも法廷で使われ始める. Obtenido de Yahoo News Web Site: https://news.yahoo.co.jp/articles/062192d9738da0bd7ae7a841ccaada4db6210d58#:~:text=%E5%8F%8D%E5%AF%BE%E3%81%AB%E3%80%81%E3%82%B3%E3%83%AD%E3%83%B3%E3%83%93%E3%82%A2%E6%9C%80%E9%AB%98%E8%A3%81,%E3%81%A0%E3%81%A8%E8%A9%B1%E3%81%97%E3%81%A6%E3%81%84%E3%81%BE
Mundo, B. N. (15 de febrero de 2023). La sorprendente y poco conocida historia de Eliza, el primer bot conversacional de la historia. Obtenido de BBC Newa Mundo: https://www.bbc.com/mundo/noticias-44290222
OpenIA. (15 de Febrero de 2023). OpenIA Web site. Obtenido de OpenIA Web site: https://openai.com/about/
Rae. (15 de Febrero de 2023). Real Academia española. Obtenido de RAE Web Site: https://dle.rae.es/chat
Rae. (15 de Febrero de 2023). Real Academia Española. Obtenido de RAE Web Site: https://dle.rae.es/robot?m=form
Taylor, L. (10 de febrero de 2023). Colombian judge says he used ChatGPT in ruling. Obtenido de The Guardian Web Site: https://www.theguardian.com/technology/2023/feb/03/colombia-judge-chatgpt-ruling
[1] Texto original: “Colombian judge says he used ChatGPT in ruling”.
[2] Titulo original: “ChatGPT、早くも法廷で使われ始める”.
[3] Puede consultarse este paper en el siguiente enlace: https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
[4] En los modelos tradicionales de análisis de textos, cada palabra recibe el nombre de token y sobre estos token es que se realizan las construcciones numéricas asignándoles valores numéricos.
[5] Esta es la herramienta que es utilizada por la mayoría de las redes neuronales existentes, las cuales son denominadas long short-term memory networks (LSTM)
[6] Favor no confundir con el concepto señalado por Charles Spearman quien hablo del concepto de Inteligencia general en sus trabajos de The abilities of Man (1927), Creative Mind (1930) y Psychology Down the Ages (1937), la cual aplica para los seres humanos y no para el tema que nos atrae.
[7] Esto no quiere decir que no podemos entrenarlo sin tenerlo en cuenta, el hecho de no hacerlo implicara o causara que los resultados que logremos sean criticados por los técnicos.
[8] A diferencia de lo que muchos pueden creer, en este tipo de temas no se recomienda utilizar todos los datos disponibles para “entrenar” las redes neuronales, siempre es recomendable tener un grupo de datos que se dejaran aparte para luego poder hacer pruebas.