Obtener más significado con menos datos
El entrenamiento de sistemas de percepción suele requerir muchos datos. Para enseñar a un sistema a identificar un objeto como un vehículo, un peatón u otra cosa, un ingeniero suele tener que mostrarle lecturas de sensores de ese objeto desde muchos ángulos diferentes y en muchos entornos distintos. Los vehículos, los árboles e incluso las personas tienen muchas formas y tamaños, y exponer el sistema a más modelos de esos objetos le permite identificarlos con mayor precisión y amplitud.
Sin embargo, en un reto previo a la reciente Conferencia Europea de Visión por Ordenador, Frederik Hasecke, becario de Aptiv, demostró que es posible entrenar bien una red neuronal incluso cuando los datos disponibles son limitados.
El concurso estaba patrocinado por Innoviz, uno de los socios tecnológicos de Aptiv, y Nvidia. Cuatro equipos participantes buscaron formas de utilizar el sistema lidar InnovizTwo de Innoviz y percibir correctamente imágenes 3D en situaciones en las que el sistema sólo había recogido y anotado un número limitado de fotogramas lidar. Hasecke y su profesor Anton Kummert ganaron el primer premio por su innovador planteamiento. Hasecke es estudiante de doctorado en la Universidad de Wuppertal (Alemania) en el campo de la inteligencia artificial y la visión por ordenador, y estaba trabajando con una beca proporcionada por Aptiv en el momento del desafío.
Los participantes recibieron un conjunto de datos con 1,200 fotogramas lidar de varios escenarios de conducción, pero sólo 100 de ellos estaban anotados, lo que significa que los objetos no se habían identificado en los otros 1,100 fotogramas. En los fotogramas anotados, los patrocinadores sólo habían identificado 790 coches, 30 peatones, ocho bicicletas, 17 motocicletas y 77 camiones, y los equipos tuvieron que entrenar sus sistemas para identificar tantos objetos como pudieran en los fotogramas sin anotar.
El fotograma típico del lidar en el conjunto de 1,200 fotogramas proporcionados mostraba escenas de tráfico con el tamaño y el contorno aproximados de los objetos captados por el lidar. El lidar no mostraba el color de los objetos. Con solo las nubes de puntos tridimensionales, los equipos podían hacerse una idea general de la forma de los objetos, pero sin mucho contexto ni detalle.
Dada la limitación del conjunto de datos, Hasecke utilizó técnicas en las que había estado trabajando mientras cursaba su doctorado. Tomó escaneados de objetos como coches, bicicletas y árboles tanto de los fotogramas anotados suministrados en el concurso como de una fuente externa de malla 3D para compararlos con los objetos de los fotogramas que no habían sido anotados. Cambiando el tamaño, volteando y manipulando estos objetos importados, Kummert y él entrenaron a la red neuronal subyacente para que reconociera más objetos.
Aunque el radar y las cámaras son los principales sensores externos de los vehículos actuales, el lidar se combina a menudo con otros datos de vehículos de prueba para establecer la verdad sobre el terreno. Es decir, un vehículo de pruebas puede equiparse con un lidar de alta sensibilidad para establecer exactamente qué objetos hay alrededor del vehículo de pruebas, su tamaño, su distancia y otros factores. Las percepciones de los radares y las cámaras que se están desarrollando para los vehículos de producción pueden compararse con esa verdad sobre el terreno para comprobar su rendimiento. El radar seguirá proporcionando la detección fundamental para todos los niveles de automatización de la conducción, y el lidar se añadirá para la automatización de nivel 4 y la movilidad autónoma bajo demanda.
El concurso demostró que el lidar puede utilizarse para identificar objetos incluso con datos limitados, afirma Hasecke. Esto puede mejorar la detección de objetos en los coches autónomos que se venden al público y, en última instancia, aumentar la seguridad de la conducción automatizada.