El test de Turing

En 1950, Alan Mathison Turing, uno de los más importantes matemáticos del pasado siglo y uno de los principales creadores del concepto del ordenador programable, propuso una prueba aparentemente simple para determinar la inteligencia de una máquina. El ya clásico Test de Tering ha sido objeto de amplio debate entre científicos y filósofos desde entonces, pero hasta 1991 no se había efectuado un intento serio de someter a varios programas al tipo de prueba propuesta por este pionero de la informática. En sus propias palabras:

Propongo considerar la cuestión: ¿Pueden pensar las máquinas? El problema se puede describir en términos de un juego al que llamaremos "juego de imitación". En él juegan tres personas: un hombre (A), una mujer (B) y un interrogador (C) que puede ser de cualquiera de los dos sexos. El interrogador permanece en una habitación separada de la que ocupan las otras dos personas. El objeto del juego para el interrogador es determinar cuál de los otros dos es el hombre y cual es la mujer. El interrogador los tiene identificados por las etiquetas X e Y, y al final del juego debe decir "X es A e Y es B" o bien "X es B e Y es A".

Qué pasaría si sustituye al hombre A por una máquina? La pregunta original "¿Pueden pensar las máquinas?" se puede reemplazar por "¿se puede dar el caso de que el interrogador se equivoque un número análogo de veces cuando el juego se realiza de esta forma que cuando se efectúa con un hombre y una mujer?".

Creo que en unos cincuenta años será posible programar ordenadores con capacidad de memoria de 10 elevado a la 9 de forma que en el juego de imitación propuesto el interrogador no tenga más de un 70% de posibiliades de efectuar la identificación correcta después de cinco minutos de interrogatorio.

Turing pensaba que las dificultades principales para conseguir esos resultados serían de programación y no de hardware. Confiaba en que los avances de la ingeniería informática hacia el año 2000 fueran suficientes para proporcionar la memoria y velocidad de cómputo precisos. Por otra parte, afirmaba que:

Podemos prever que las máquinas competirán con el hombre en todos los campos puramente intelecutales, pero: ¿cuáles son los mejores para empezar?. Incluso esto constituye una difícil decisión. Mucha gente piensa que una actividad muy abstracta, como jugar al ajedrez, sería la más adecuada. Se puede mantener también que es mejor dotar a las máquinas con los mejores órganos sensoriales que el dinero pueda pagar y entonces enseñarles a entender y hablar inglés. Ese proceso podría seguir el tipo de enseñanza que recibe un niño: las cosas serían señaladas y nombradas, etc. De nuevo ignoro la respuesta adecuada, pero pienso que se debería intentar trabajar con ambos enfoques.

El test propuesto inicialmente por Turing se debería realizar con un juez humano interactuando con dos terminales: una controlada por un ordenador y la otra por una persona, sin que el juez depa cuál corresponde a cada uno de ellos. Según el criterio expuesto, Turing opinaba que, si después de una prolongada conversación en cada terminal, el juez es incapaz de distinguir quién está al otro lado, se puede decir que en algún sentido el ordenador piensa.

En la práctica, cuando un comité de especialistas en diversas disciplinas tuvo que diseñar un protocolo para efectuar una prueba que permitiera obtener resultados significativos en la primera competición entre programas sometidos al Test de Turing (primer Premiuo Anual Lochner, celebrado en The Computer Museum de Boston en noviembre de 1991) encontrar un gran número de dificultades que no estaban contempladas en la propuesta inicial del eminente matemático (debe recordarse que cuando Turing propuso su prueba apenas balbuceaban los primeros ordenadores). Después de arduas discusiones, decidieron un nuevo diseño multi-terminal en el que diez jueces se enfrentaron sucesivamente a sendas terminales y fueron informados de que al menos dos de las terminales estaban controladas por ordenadores y al menos dos, tenían personas al otro lado, pero no sabían de qué terminales se trataban. Cada juez empleó quince minutos en cada terminal y, después, clasificó las terminales en un rango de acuerdo con la impresión de parecido con un interlocutor humano que generaba un programa dado. También especificaron qué terminales, en su opinión, estaban controladas por personas y cuales por un ordenador.

El criterio moderno de la puesta en práctica del Test de Turing consistión en considerar que un programa superaba el Test si su posición promedio en el rango de "humanidad" establecido por los jueces ldespués de la prueba, era superior a la posición conseguida por una persona de las que participaban en la misma prueba. Por otro lado, se restringió la prueba a conversaciones sobre un tema especificado y acotado (por ejemplo, martinis secos, ropa de señoras, obras de Shakespeare, etcétera), lo cual planteó complicados problemas para garantizar que los jueces se circunscribieran a dichos temas y no forzaran la converszación.

Después de resolver muchos otros problemas para eliminar el máximo número de fdactores que pudieran alterar la neutralidad de la prueba, se celebró el concurso que fue ganado por Joseph Weintraub con una variante del programa PC Therapist al que denominó Conversación Fantasiosa, con el que confundió a cinco de los diez jueces, por lo que recibió el premio como mejo programa concursante, aunque finalmente ninguno de ellos superó el criterio del moderno Test de Turing. A pesar de ello, se aprendió mucho sobre qué tipo de elementos de las conversaciones eran los que influían más en los jueces a la hora de considerar a un interlocutor como humano o no. Entre otras muchas curiosidadees, los especialistas que analizaron los resultados del concurso pudieron apreciar cómo una especial habilidad del programa ganador para imitar los errores tipográficos humanos pudo tener una influencia importante en la decisión de algunos de los jueces.