Un sistema de visión artificial paseando por Times Square

Por @Alvy — 24 de noviembre de 2017

En este vídeo puede verse cómo un sistema de visión artificial examina el entorno en la céntrica plaza de Times Square de Nueva York identificando mediante «porcentajes de detección» los diversos objetos. Las imágenes parecen grabadas con una cámara normal en Full-HD y son de buena calidad.

El trabajo es de Clayton Blythe, que a sus 22 años trabaja ya en Ford dentro del departamento de inteligencia artificial y aprendizaje automático. El software se llama Faster R-CNN y está desarrollado con TensorFlow y basado en este trabajo: Towards Real-Time Object Detection with Region Proposal Networks. Es un sistema que detecta los objetos en base a sus «posiciones hipotéticas», que en cierto modo –explican– equivale introducir el concepto «mecanismo de atención» en las redes neuronales de este tipo, para que tengan más claro «dónde deben mirar».

Se puede ver cómo a medida que la cámara se desplaza el sistema identifica con las palabras adecuadas personas, coches, furgonetas, semáforos, bicicletas, bolsos y mochilas, farolasy camiones. Los colores de los recuadros indican el tipo de objeto.

Resulta llamativo que sea capaz de afinar en la diferencia entre bolsos y mochilas (00:27) o que cuando pasa el carrito de bebé no lo identifique como tal sino como que dentro viaje una persona. También lo vemos identificar correctamente plantas en macetas (00:44), sombrillas (00:46) una botella de Coronita en un anuncio publicitario, cómo mete la pata confundiendo un carro con un parquímetro y cómo acierta con una boca de incendio (03:27).