Inteligencia artificial y aprendizaje: ¿qué hacemos con la evaluación?
- Pedro Ravela
- 25 jul 2024
- 10 Min. de lectura
El problema de la IA en tĆ©rminos de evaluación de aprendizajes se puede plantear desde tres perspectivas diferentes: i)Ā la autorĆaĀ de los trabajos en evaluaciones con fines de certificación; ii) el papel de las evaluaciones como parte del proceso de aprendizaje; iii) el contenido de las consignas de evaluación. Mi intención en este post es profundizar la tercera perspectiva analizando los tipos de producciones que genera la IA y sus similitudes con las que produce un estudiante medio que se las arregla para sobrevivir en el sistema educativo.
Hace algo mĆ”s de dos aƱos la Inteligencia Artificial irrumpió en el escenario con mucha fuerza -y con mucha propaganda, tanto de quienes hacen dinero con ella como de quienes se entusiasman rĆ”pidamente con las modas-. Como toda nueva tecnologĆa, la IA trae consigo una gran cantidad de oportunidades, pero tambiĆ©n conlleva riesgos. Es todavĆa muy pronto para saber quĆ© grado de integración tendrĆ” en el sistema educativo. Muchas tecnologĆas, como la televisión educativa o la enseƱanza asistida por computadora, en su momento prometieron revoluciones que nunca ocurrieron. Otras, como la escritura, se incorporaron en forma definitiva a la prĆ”ctica educativa.
En lo inmediato uno de los principales problemas que la IA plantea a los educadores estÔ vinculado con la evaluación, ya que puede realizar una enorme variedad de trabajos que habitualmente pedimos a nuestros alumnos. Muchos estudiantes, tanto en la educación terciaria como secundaria, han comenzado a utilizar la IA para que realice tareas por ellos. ¿Qué podemos hacer al respecto? ¿Cómo haremos para saber si un estudiante trabajó? ¿Tendremos que dedicarnos a tareas detectivescas para descubrir si un trabajo fue hecho por el alumno o por la IA?
En realidad no se trata de un problema nuevo sino tan viejo como los exÔmenes: la copia, fraude o plagio utilizando medios inapropiados para resolver las tareas es algo que siempre existió.
Cuando comencĆ© a trabajar como profesor, hace ya varias dĆ©cadas, no existĆan los telĆ©fonos celulares ni las computadoras personales. El problema era la copia. Las evaluaciones solĆan consistir en responder preguntas, resolver ejercicios o generar textos escritos tipo ensayo (en asignaturas como Literatura, FilosofĆa o Historia). Los alumnos recurrĆan a apuntes escondidos (textos, fórmulas, propiedades) para ayudarse en sus respuestas. En Uruguay se los denominaba ātrencitoā, en Argentina y Colombia āmacheteā, en Chile ātorpedoā, en MĆ©xico āacordeónā y en EspaƱa āchuletaā. Otra forma de copia era simplemente mirar el trabajo de un compaƱero que estuviese sentado cerca.
Ante estas situaciones los docentes tenĆamos dos posibilidades de respuesta.
Una era la vigilancia. Las mesas debĆan estar despejadas, no se podĆa tener cuadernos ni materiales a la vista, el docente observaba a los estudiantes en forma amenazadora para detectar el uso del trencito mientras trabajaban -que solĆa estar escondido en la manga o entre las piernas-. Se proponĆan tareas diferentes a los alumnos sentados en filas de asientos contiguas, para que no pudiesen mirar lo que hacĆan los demĆ”s.
La otra vĆa de respuesta era modificar las consignas. Reemplazamos las tareas que podĆan hacerse copiando por otras que requiriesen elaboración o reflexión personal por parte de los alumnos y que pudiesen ser realizadas con ācuaderno abiertoā. Los ejercicios de aplicación de fórmulas se reemplazaban por problemas mĆ”s complejos que implicasen desarrollar una estrategia de resolución. En muchos casos los exĆ”menes fueron sustituidos por trabajos integradores, proyectos o tesinas.
El problema es que la IA puede hacer muchĆsimas cosas y de manera muy similar a lo que hacemos las personas. Puede escribir informes, poesĆa, responder preguntas, resolver ejercicios matemĆ”ticos, crear ilustraciones y videos, y componer mĆŗsica, entre otras muchas. Para los lectores que no han experimentado cómo funciona la IA dejo algunos ejemplos y enlaces.
En suno.com se puede acceder a una herramienta gratuita de composición musical. En el portal de ingreso hay ejemplos de producciones musicales generadas por IA. RegistrĆ”ndose se puede utilizar la herramienta en forma gratuita -hasta 10 canciones por dĆa-. A partir de instrucciones sencillas tales como "crea una canción pop sobre el cuidado de la naturalezaā, en poco mĆ”s de un minuto la IA genera dos canciones con la misma letra y tĆtulo, cada una con sus voces y melodĆa, asĆ como una imagen de portada. A partir de allĆ uno puede elegir la que le gusta mĆ”s, agregar versos a la letra, modificar el tĆtulo. TambiĆ©n se puede pedir una composición totalmente instrumental, o darle los versos a la IA y pedirle que genere la melodĆa. Dejo aquĆ un ejemplo:
No digo que sea una producción de calidad pero el resultado parece razonable. Creo que podrĆa valer como producción de un estudiante de secundaria ante una tarea solicitada por el docente. Tal vez tambiĆ©n como inspiración inicial en un proceso de composición musical.
La IA tambiĆ©n puede escribir libros completos. La siguiente noticia es un ejemplo potente de lo que es capaz de hacer: Amazon tuvo que limitar la cantidad de libros que un autor puede autopublicar cada dĆa. Esta empresa tiene un servicio que permite que cualquier persona pueda subir el texto de un libro, diagramarlo en lĆnea y publicarlo para la venta en formato electrónico a travĆ©s de la plataforma. El problema es que comenzaron a inundarse de libros escritos mediante IA. De allĆ que tuvieron que limitar la cantidad de libros que una misma persona puede publicar en un dĆa . El que ese lĆmite sea de 3 por dĆa indica la velocidad con que la IA puede generar los textos. No me he tomado el trabajo de leer alguno de esos libros. Imagino que deben ser de baja calidad, pero que para un lector poco atento tal vez pueden pasar por originales.
Un Ćŗltimo ejemplo fue generado en el marco de un Taller sobre evaluación de aprendizajes con docentes de la Universidad Tecnológica de Uruguay. Un colega, profesor de MatemĆ”tica, habĆa solicitado a sus estudiantes la realización de un trabajo sobre funciones exponenciales, logarĆtmicas y radicales, entre otras. Los estudiantes debĆan explicar cada función, indicar su rango y dominio, explicar cómo se calculan, representarlas grĆ”ficamente y dar dos ejemplos de cada una. La tarea debĆa ser realizada en equipos a lo largo de una semana y tenĆa una finalidad tanto formativa como de certificación. En el marco del Taller le dimos la consigna al Chat GPT y generó el trabajo que sigue (comparto solo un extracto por razones de espacio).
El problema de la IA en términos de evaluación de aprendizajes se puede plantear desde tres perspectivas diferentes.
1. la perspectiva de la autorĆa de los trabajos en evaluaciones con fines de certificación;
2. la perspectiva del papel de las evaluaciones como parte del proceso de aprendizaje;
3. la perspectiva del contenido de las consignas de evaluación.
Mi intención en este post es profundizar la tercera perspectiva analizando los tipos de textos que produce la IA.
El primer aspecto no es nuevo y se resuelve estableciendo mecanismos para garantizar que el estudiante sea quien hace el trabajo y que utilice los recursos que el docente defina como vĆ”lidos. Requiere bĆ”sicamente la realización presencial de la evaluación, o la realización en lĆnea con mecanismos de control de las condiciones de realización -a quĆ© recursos tiene acceso el estudiante mientras trabaja frente a la pantalla-. TambiĆ©n en el pasado era necesario verificar la autorĆa de un proyecto o tesis por parte del estudiante, a travĆ©s de una presentación oral o de una entrevista en torno a su trabajo. En todo caso, es un problema que requiere, o bien una solución tecnológica de vigilancia, o bien una instancia de conversación individual.
El segundo aspecto del problema es mĆ”s complejo. El uso inadecuado de la IA para realizar tareas que tienen una finalidad formativa, atenta contra al aprendizaje. Al no hacer el intento de escribir un texto, explicar las funciones o componer una canción por sĆ mismo, el estudiante pierde la oportunidad de aprender. Este aspecto del problema nos remite a un desafĆo crucial de la labor educativa: la motivación de los estudiantes para aprender lo que intentamos enseƱarles.
Durante la pandemia muchos maestros planteaban el problema de que las mamĆ”s y papĆ”s hacĆan la tarea por los niƱos en sus casas y los niƱos no aprendĆan. Al respecto mi devolución era, primero, pensar por quĆ© el niƱo no quiere hacer la tarea. Porque no le interesa, porque no le resulta atractiva, porque no conecta con su persona. Nada nuevo bajo el sol. Cuando estĆ”n en el aula sucede lo mismo, muchos alumnos se desconectan, pero hacen ācomo que estĆ”n trabajandoā. Mi segunda devolución era: si la familia hace la tarea por el niƱo es porque se ha desvirtuado el sentido de la educación. La familia estĆ” preocupada por la calificación del niƱo, no por su aprendizaje. Estos no eran problemas de la pandemia, sino educativos. La pandemia simplemente los puso de manifiesto.
Con la IA ocurre algo parecido. Pone de manifiesto problemas de nuestras propuestas educativas. El uso inapropiado de la IA en tareas que tiene carĆ”cter formativo -no en las de certificación- reflejan el desinterĆ©s del estudiante por lo que le estamos proponiendo que aprenda. Es un problema viejo agudizado por un nuevo recurso tecnológico. La Ćŗnica solución para esto es trabajar la motivación interna de los estudiantes, proponer tareas que quieran resolver y, en todo caso, discutir con ellos cómo utilizar la IA como herramienta de apoyo. La cuestión es cambiar el sentido del "juego": pasar de āhago tareas para aprobarā a āhago tareas porque me quiero resolverlas y me interesa aprenderā.
El tercer aspecto del problema, el contenido de las consignas, implica preguntarse quĆ© es lo que realmente estamos evaluando a travĆ©s de las tareas que proponemos a los estudiantes. ĀæQuĆ© se requiere para resolverlas? Si la IA la puede hacer, tal vez la tarea no valga mucho la pena como demostración de aprendizaje. La situación es similar a la que tenĆamos hace unas dĆ©cadas con la copia. Si la pregunta podĆa ser respondida con un trencito, tal vez no valiese la pena como pregunta para evaluar aprendizaje. Depende de quĆ© esperamos que sean capaces de hacer los estudiantes: recordar o comprender, repetir o pensar.
(Entre paréntesis, soy consciente de que para reflexionar es necesario apropiarse de conceptos e ideas y recordarlas. No pretendo hacer un planteo dicotómico. El problema se produce cuando las preguntas solamente requieren recordar y repetir).
Cuando apareció la IA una de las primeras pruebas que hice para ver de quĆ© se trataba fue formularle esta pregunta: ĀæQuĆ© diferencias y semejanzas hay entre Platon y Aristoteles? Una pregunta pobre pero plausible en un curso de FilosofĆa en la educación media. La respuesta que obtuve fue propia de un estudiante medio de secundaria que se las arregla para sobrevivir aunque no comprenda mucho, combinando frases y conceptos de manera mĆ”s o menos aceptable aunque no entienda del todo de que estĆ” hablando.

El texto resultante es un conjunto de afirmaciones correctas pero insustanciales. El resumen o conclusión es de una enorme banalidad. No estÔ mal, pero no dice nada.
La Inteligencia Artificial no piensa y no comprende. Adivina. No hay magia en sus producciones, hay un algoritmo matemĆ”tico probabilĆstico. Es un gran copiador y adivinador de cómo combinar las palabras. En ese sentido se parece a un alumno de secundaria.Y, como un estudiante de secundaria, cuando no sabe, inventa!:

(Nota: el INEED es el Instituto Nacional de Evaluación Educativa).
Obviamente, la IA tiene dos ventajas sobre los estudiantes y sobre los humanos en general: la cantidad inmensa de información que puede procesar y la velocidad a la que puede combinar frases y palabras. Pero no piensa!
El problema de fondo es el carĆ”cter impersonal de muchos de los textos que escriben nuestros estudiantes. Como docente en cursos de posgrado y maestrĆa me suele resultar tedioso leer textos de estudiantes que se limitan a citar y parafrasear autores, que no esbozan una reflexión original y que no dicen nada personal. Los estudiantes transcriben autores e ideas sin lograr construir un hilo conductor ni comunicar un pensamiento. Se acostumbran a enunciar las ideas de otros antes que a pensar por sĆ mismos. Su preocupación estĆ” mĆ”s centrada en demostrar que āsabenā, que en comprender y reflexionar a partir de los textos.
En el trabajo de un grupo de colegas del Instituto de Formación Docente de San Ramón, con quienes tuve la valiosa oportunidad de colaborar, se enfatiza la construcción de sentido en el aprendizaje.
Hablamos de sentido cuando lo pedagógico ātocaā de un modo imprevisible algo que es importante para el que aprende y le aporta cierta luz para ver algo nuevo, o algo viejo con otra perspectiva. El aprendizaje tiene sentido cuando las palabras del educando son āpalabras propiasā, es decir, no son ādeclamadorasā, no son clichĆ©.
Cuando el pensamiento se separa de los problemas se transforma en clichĆ©, en palabra muerta, palabra que, como dice Freire, (Freire, 1970/2005, p. 66), es pura sonoridad, palabra que resuena y no dice nada. Un clichĆ© es una palabra sin sentido, una palabra muerta que fue separada de los problemas y, por eso mismo, del sentido (LoĢpez, M. 2008, p. 69).
Algo tiene sentido para quien aprende cuando hay un movimiento interior que le permite conectar aquello que le estƔn enseƱando con sus propias ideas, experiencias y emociones.
Los textos que produce la IA son similares a los estudiantiles, por impersonales. Hablan pero no dicen. La IA puede producir textos gramaticalmente correctos, pero que no tienen significado profundo. Van dos ejemplos adicionales de textos producidos por la IA sobre ética en la profesión docente y sobre la tradición pedagógica en Uruguay.


El problema, en buena medida, se origina en las consignas de evaluación que proponemos. La respuesta a la consigna sobre Platón y Aristóteles no tiene reflexión, en buena medida porque la pregunta no es buena. La cuestión clave no es tanto que la IA pueda responderla, sino si la pregunta vale la pena como demostración de aprendizaje de la FilosofĆa.
Con o sin Inteligencia Artificial, necesitamos volver a pensar en nuestras consignas de evaluación y en los tipos de textos que pedimos a los estudiantes. AsĆ como hace mucho tiempo pasamos de las preguntas "de reproducción" a los trabajos āde elaboraciónā, ahora deberĆamos preguntarnos acerca del carĆ”cter personal o impersonal de los textos que pedimos a los estudiantes. Necesitamos pensar en consignas que requieran apropiación y escritura personal, que impidan evadirse de la autorĆa, que requieran decir una palabra propia, en el sentido de Freire, que impliquen conectar con el conocimiento acumulado por la humanidad desde la propia experiencia interior.
Vivimos en una cultura en la que el sentido se pierde. Leemos todo el tiempo en los dispositivos electrónicos, pero es difĆcil encontrar textos valiosos, que digan algo del autor. Las noticias y buena parte de la información que circula por Whatsapp y las redes sociales, los sitios web y los blogs, rebosan de contenido chatarra, ahora generado por Inteligencia Artificial. La llamada ācreación de contenidosā suele ser mĆ”s bien una recopilación y combinación de otros textos, lo que tradicionalmente llamamos ārefritosā. La educación deberĆa ser un Ć”mbito para propiciar la producción personal -y para aprender a identificar el contenido chatarra-.
Alan Turing fue el precursor de la Inteligencia Artificial. En los aƱos 50 del siglo pasado propuso un test para decidir si una mĆ”quina podĆa ser considerada inteligente. La prueba consistĆa en analizar conversaciones escritas entre un humano y una mĆ”quina. Esta serĆa considerada inteligente si un observador externo no podĆa distinguir acertadamente entre las respuestas del humano y las de la mĆ”quina. Es decir, una mĆ”quina puede ser considerada como inteligente si es capaz de dar respuestas similares a las de un ser humano.
PodrĆamos pensar en una especie de Test de Turing a la inversa: una tarea de evaluación no tiene mucho valor como prueba de aprendizaje si la IA la puede responder por sĆ sola, sin intervención humana. Una tarea de evaluación tiene valor cuando la intervención personal del estudiante es indispensable para realizarla. Inteligencia artificial y aprendizaje pueden ir de la mano cuando las consignas de trabajo son apropiadas. En mi próximo posteo me enfocarĆ© en los usos razonables de la IA en el aula y en la evaluación.