¿Cómo les habría ido a las inteligencias artificiales en la PAES?

Los avances en inteligencia artificial (IA) no sólo están redefiniendo el mundo del trabajo y la investigación científica, sino que también están empezando a poner a prueba uno de los pilares tradicionales del sistema educativo: las pruebas estandarizadas de acceso a la universidad.

Si bien la intención no es medir los exámenes de admisión, sino los motores de IA, este ejercicio funciona como un doble experimento que muestra cuán avanzados están en las cuestiones que permiten a miles de jóvenes ingresar año tras año a la educación superior.

Un estudio técnico fue realizado por el Doctor en Filosofía. en Informática y profesor de la Universidad de Valparaíso, Jonathan Vásquezy para el MBA de la Universidad de Harvard y profesor de la Escuela de Negocios de la U. Adolfo Ibáñez, Sebastián Cisterna. Los investigadores aplicaron las pruebas oficiales PAES 2026 a diferentes modelos de IA y el ejercicio les permitió simular a qué carreras podría haber accedido cada sistema.

Imagen: Reuters. Dado Ruvic

Según los responsables de este ejercicio, ChatGPT ya no corre solo: Gemini lo superó y el modelo chino de código abierto, DeepSeek, se abrió paso al demostrar que puede competir a una fracción muy pequeña del costo de sus competidores.

Google se consolidó con el mejor desempeño global, promediando cerca de 950 puntos entre sus modelos Gemini 3 Flash y Pro. El modelo más destacado fue Gemini 3 Flash, que logró una puntuación máxima (1.000 puntos) en cinco pruebas: Historia y Ciencias Sociales, Biología, Física, Competencia Lectora y Competencia Matemática 1. Además, obtuvo un promedio general de 957,38 puntos, superando incluso a su versión Pro.

Aunque la diferencia entre ambos no es estadísticamente significativa, el resultado muestra que los modelos más ligeros y optimizados están alcanzando un nivel de madurez inesperado.

En cambio, todos los modelos alcanzaron el 100% de precisión en Historia y Ciencias Sociales, un logro que en 2025 parecía excepcional y que hoy se ha convertido en el estándar. De haber sido aspirantes reales, Gemini 3 Flash y Pro habrían podido ingresar a cualquier carrera de cualquier universidad del país, marcando un hito sin precedentes en este tipo de evaluaciones.

Aparece un escalón más abajo Géminis 3 Protambién de Google, que si bien no alcanza el máximo rendimiento de su versión Flash, registra puntuaciones lo suficientemente altas como para acceder a la mayoría de carreras de alta exigencia académica. Según la simulación, este modelo habría tenido opciones reales en Ingeniería Civil, Bioingeniería, Química y Farmacia, Enfermería y Derechoaunque podría ser más justo en carreras con recortes extremos como Medicina en las universidades más competitivas.

En el caso de GPT-5.2 Razonamiento ampliadoEl modelo avanzado de OpenAI enfocado al razonamiento profundo, los resultados lo posicionan en un rango alto, pero algo más irregular. Su sólido desempeño en Lengua, Ciencias e Historia le habría permitido acceder fácilmente a carreras como Periodismo, Psicología, Sociología, Ciencias Políticas y Pedagogíasademás de carreras de ingeniería y científicas en universidades con puntajes de corte medios-altos. Sin embargo, su menor rendimiento en Matemáticas M2 lo dejaría en desventaja frente a Gemini en áreas más complejas de ingeniería o ciencias exactas.

Por su parte, GPT-5.2 InstantáneoDiseñado para respuestas rápidas, muestra un perfil más equilibrado pero menos destacado. Según la simulación, este modelo estaría bien posicionado para las carreras. ciencias sociales, educación, administración, trabajo social y algunas ingenierías menos exigentes matemáticamentesin alcanzar, por supuesto, las puntuaciones necesarias para las carreras más selectivas del sistema.

A su vez, compararon dos tipos de modos de estas IA generativas: uno que trabaja a menor velocidad, procesamiento y con menos recursos; versus otra versión que “razona más”. La expectativa, comenta Cisterna, es que el modelo que más razona siempre tenga mejores resultados. Pero en este caso no fue así.

El avance de DeepSeek

El modelo chino se posicionó como el gran ganador en términos de costos, ofreciendo un desempeño altamente competitivo a una fracción del precio de sus principales competidores. En sus versiones rápidas es hasta 14 veces más barato que GPT-5.2, mientras que en sus versiones orientadas al razonamiento el ahorro alcanza un factor de 30.

A pesar de esto, DeepSeek todavía tiene una brecha académica en comparación con sus competidores occidentales. Aun así, su puntaje promedio (alrededor de 880 puntos) le permitiría ingresar a una amplia gama de programas universitarios, como Pedagogía, Enfermería, Kinesiología, Administración Pública, Geografía y carreras técnicas universitariasaunque quedaría fuera de las opciones con mayores barreras de entrada, como Medicina o Ingeniería Civil en las universidades más demandadas.

Más allá de la anécdota, los responsables de este estudio dicen que esto plantea cuestiones fundamentales sobre la naturaleza de las pruebas de selección y su capacidad para medir capacidades exclusivamente humanas. Estas simulaciones no implican que las IA “estudien” o “aprendan” como una persona, Dicen, sino que optimizan las respuestas basándose en enormes volúmenes de datos previos. Aun así, el hecho de que varios modelos superen fácilmente las puntuaciones de corte universitarias introduce un nuevo elemento en el debate sobre la evaluación, el mérito y la formación académica en la era de la automatización.

La pregunta ya no es solo qué carrera podría haber estudiado una inteligencia artificial, sino qué tan bien las métricas de selección actuales reflejan las competencias que se esperan de los futuros profesionales humanos en un escenario en el que la IA será cada vez más un actor permanente.

Tags: Featured