Seguimiento de individuos en multitudes con una red mixta de cámaras estáticas y PTZ (Pan-Tilt-Zoom)

01 de marzo, 2009
Estado: Realizado

Investigador Responsable: Sergio A. Velastín

Co-Investigador: Paolo Remagnino, James Orwell, Damien Simonnet

Proyecto fundado por la Facultad de CISM y centro de investigación de Roke Manor (Siemens)

2009-2012

Resumen

El propósito principal de este proyecto es avanzar en el estado del arte al investigar y evaluar nuevos algoritmos de visión por computador capaces de detectar y reconocer personas. Los algoritmos deben ser robustos con respecto a presencias de ruido y obstáculos (especialmente al haber gran la cantidad de personas), y debe permitir el seguimiento de una persona entre múltiples cámaras (tanto estáticas como del tipo PTZ). Estos es una gran desafío, pero tiene una alta prioridad en usos prácticos para operadores de control en CCTV, con el objetivo de mejorar los niveles de seguridad de las personas. Se han reportado trabajos en esta área últimamente, pero sin calibración de cámaras, mientras que trabajos previos se concentraron sólo en el uso de cámaras estáticas. Los enfoques de seguimiento deben manejar los obstáculos y los cambios de luz. Más aún, se han desarrollado algoritmos para escenarios con gran densidad de personas, pero sólo aplicados a casos muy acotados (por ejemplo carreras en maratones). Finalmente, en otros trabajos se han utilizado Frameworks basados en modelos Bayesianos jerárquicos para conectar tres elementos en vigilancias visuales: características visuales de bajo nivel, simples acciones e interacciones; lo cual podrías ser aplicado a multitudes. Una posible alternativa es emular los sistemas de visión humana para detectar personas en escenarios, independiente del fondo y la iluminación. Nos referimos a esto como un enfoque “Independiente del fondo”. Métodos que ha usado esto, por ejemplo “Edgelets” y que entrenan con modelos biológicos como las redes neuronales de impulsos parecen ser prometedores. Esto puede ser combinado con métodos multicámaras y seguimiento de la posición. Además, filtros de partículas para el seguimiento de una única persona a través de una red de cámaras también podría ser apropiado. De hecho, actualmente se está tratando por otro estudiante de Doctorado bajo la supervisión de Remagnino.

Abstract

This project’s primary aim is to advance the state-of-the-art by investigating and evaluating new computer vision algorithms capable of detecting and tracking people. The algorithms have to be robust with respect to noise and occlusions (especially resulting from crowded conditions), and have to be able to track a person between multiple cameras (static and PTZ). This is very challenging problem but it has a high practical priority for CCTV control operators to improve levels of personal security and safety. Work on this topic has been reported recently without fully calibrated cameras, while earlier work concentrated only on static cameras. Tracking approaches have to handle occlusion and be invariant by lighting changes as shown in other works. Moreover, in high density crowd scenes, algorithms have been developed but only applied in constrained cases (e.g. marathon races). Finally, several works used a framework based on hierarchical Bayesian models to connect three elements in visual surveillance: low-level visual features, simple activities and interactions; which might be applicable for crowds. A possible breakthrough is to emulate the human visual system for locating people in a scene irrespective of background and illumination. We refer to this as a “background-free” approach. Methods that use, for example, edgelets and trained with biologically-models such as spiking networks seem promising. These may be combined with multi-camera appearance and position tracking methods. Particle filters for tracking a single person through a camera network might also be appropriate (and currently being tried by another PhD student under Remagnino’s supervision).