Por @Alvy — 23 de diciembre de 2015

Este sistema de aprendizaje automático aplicado a la visión artificial se llama SegNet. Está desarrollado por la Universidad de Cambridge. El vídeo es bastante autoexplicativo, pero la explicación técnica es algo más complicado.

La definición del sistema es «Una arquitectura codificadora-decodificadora convulacional profunda para el etiquetado de píxeles de forma semántica robusta». Suena complicado, pero al igual que la arquitectura de aprendizaje automático de Google para las «búsquedas de fotos por palabras», el sistema básicamente pasa por una fase de aprendizaje y termina siendo capaz de clasificar los píxeles de una foto con diferentes significados y probabilidad (ej. Cielo, Pavimento, Bicicleta, Peatón, Edificio…) en función de su color, tamaño, posición…

Los píxeles cercanos se consideran parte del mismo objeto y la información definitiva se puede transmitir a otros sistemas. De este modo no hace falta un modelo 3D de la escena, sino que sobre la marcha se puede decidir qué hacer (ej. frenar un vehículo, reducir la velocidad, arrancar cuando el semáforo se pone en verde).

Las imágenes en movimiento no son más que imágenes fijas en secuencia y es suficientemente eficiente como para trabajar en tiempo real, a 25-30 imágenes por segundo. La página de demostración de SegNet emplea imágenes de Google StreetView para clasificar en 12 tipos de objetos cada fotograma; como puede verse es rápido y bastante eficiente.

Compartir en Flipboard Publicar / Tuitear Publicar