En los últimos tiempos, ha surgido una corriente de noticias que describen algoritmos que aprenden por sí solos y alcanzan capacidades sobrehumanas para encontrar soluciones óptimas a diversos problemas. La aplicación que más ha dado que hablar en el campo de la inteligencia artificial es un algoritmo informático que consiguió convertirse en el mejor jugador de GO del mundo, derrotando a campeones mundiales e incluso protagonizando un documental de Netflix.
La técnica en la que se basan estos algoritmos de autoaprendizaje se denomina aprendizaje por refuerzo y, aunque no se trata de un concepto nuevo, los recientes avances en la investigación sobre el aprendizaje por refuerzo han dado resultados prometedores que se aplican a problemas que van desde los juegos hasta la ciberseguridad, pasando por el diseño de sistemas de eficiencia energética.
¿Qué es el aprendizaje por refuerzo?
Antes de describir algunas de estas nuevas aplicaciones, merece la pena dedicar unos minutos a explicar en qué consiste el aprendizaje por refuerzo. En esencia, el aprendizaje por refuerzo (Reinforcement Learning, RL) es una técnica en la que un sistema aprende una secuencia óptima de decisiones que le ayudan a alcanzar su único objetivo a largo plazo. Al relacionar una acción con un resultado, la técnica de RL usa un proceso de prueba y error y evalúa cada acción en función del resultado. Supongamos que un robot da su primer paso en un laberinto, el robot es recompensado por cada paso que da hacia la salida del laberinto y es penalizado cuando es bloqueado por las paredes del laberinto. Al final, el robot no solo encontrará la salida del laberinto, sino que también encontrará el camino más gratificante (si definimos que el camino más gratificante es el más corto, el que tiene menos vueltas o el que cubre más terreno es algo que depende completamente de nosotros, los diseñadores del algoritmo).
El aprendizaje por refuerzo podría ayudar a falsificar la Mona Lisa
En marzo de 2018, los investigadores de DeepMind (la empresa londinense de investigación en IA) publicaron un artículo en el que presentaban a SPIRAL, un agente de software que «aprende» a generar imágenes relevantes aprovechando el RL. A SPIRAL se le pidió que realizara una tarea determinada: interactuar con un software de dibujo para copiar una imagen y hacerla lo más idéntica posible al original. Programado para ser incentivado por las recompensas, SPIRAL probó diferentes opciones posibles hasta que consiguió maximizar su recompensa acercándose a su objetivo: engañar a otro algoritmo de IA especializado en diferenciar los originales de las réplicas. En el mundo del arte, este proceso podría compararse con el de un artista que intenta recrear una copia exacta de la Mona Lisa de da Vinci, mientras un experto de renombre mundial examina de cerca cada cuadro, busca las pinceladas características del maestro y decide si ese cuadro es realmente la obra maestra original o una réplica más. A medida que el experto está cada vez menos seguro de cuál de los cuadros es un original y cuál es una réplica, el artista recibe más recompensas y genera copias mejores y más precisas de la pieza original. SPIRAL logró resultados impresionantes al tener un rendimiento igual o mejor que la generación de imágenes anterior mediante agentes de aprendizaje profundo. Dado que SPIRAL aprovecha el aprendizaje por refuerzo, es completamente autodidacta, lo que significa que no se requiere ninguna intervención humana ni datos de entrenamiento etiquetados para guiar el proceso de aprendizaje del agente.
Por qué es importante
Como demuestran las aplicaciones recientes del RL, la técnica se aplica mejor a las tareas en las que un agente inteligente utiliza información sensorial (piense en el IoT) para aprender más sobre su entorno (como se describe en el ejemplo anterior del robot en el laberinto) y aprender el mejor comportamiento (ganar una partida de GO, recorrer un laberinto o crear réplicas exactas).
Sin embargo, como se ha señalado anteriormente, las empresas no deben limitarse a maravillarse con las nuevas tecnologías a medida que se van desarrollando, sino buscar siempre los usos más prácticos que aporten valor a su compañía.
El proceso de diseño de un algoritmo óptimo de aprendizaje automático es laborioso y requiere validación y muchas iteraciones de prueba y error. Además, a menudo se requiere una gran intuición y un profundo conocimiento de la arquitectura del algoritmo. Según estudios recientes de Berkely y el MIT, se puede usar el RL para acelerar algunos de los pasos críticos del desarrollo de un algoritmo de aprendizaje automático, automatizando su diseño. Una publicación de Google Brain ya ha demostrado que se puede generar automáticamente un mejor algoritmo usando enfoques basados en el RL. Aprovechando un esquema de recompensas, el algoritmo de RL aprende a seleccionar el algoritmo de aprendizaje automático de mejor rendimiento, a diseñar una arquitectura óptima y a encontrar la mejor configuración de parámetros para él.
Conclusión
Hace algunos años, la disponibilidad de algoritmos de aprendizaje profundo combinados con un potente procesamiento ayudó a automatizar la forma en que los científicos de datos encontraban características valiosas (o rasgos) para construir sus modelos de aprendizaje automático. Esta nueva capacidad (ingeniería automática de características) ha contribuido a impulsar el proceso de desarrollo de modelos de aprendizaje automático. Estimamos que la incorporación del RL al conjunto de herramientas de los científicos de datos y su aprovechamiento en el diseño de algoritmos de aprendizaje automático volverá a sobrecargar el campo de la IA en todos los sectores.