Article

Identification de la biodiversité : la surveillance environnementale par l'apprentissage des réseaux de neurones graphement pensés

Surveiller pour mieux préserver : de l'analyse humaine à l'intelligence artificielle

La préservation de l’environnement est une question cruciale à l’échelle mondiale qui nécessite la mise en oeuvre de technologies de pointe pour la surveillance et la protection intelligentes des écosystèmes naturels. En pratique, deux moyens principaux sont utilisés. Le premier consiste à observer les activités humaines afin de réglementer et de limiter leurs impacts. Le second porte sur le suivi de l’état de la faune et de la flore et de leur évolution en collectant diverses données qui aident à comprendre la dynamique des écosystèmes, à détecter les changements qui s’y opèrent et à élaborer des stratégies de préservation. Dans ce cadre, ces tâches sont généralement réalisées au moyen de diverses techniques qui permettent une surveillance à distance. Pour la surveillance visuelle, des capteurs, comme des caméras conventionnelles du domaine visible ou des caméras infra-rouge, sont utilisés. La surveillance acoustique, elle, nécessite diverses outils de détection et de classification sonore : ainsi, les capteurs sonores peuvent être des micros, des hydrophones (des micros conçus pour être immergés dans un liquide), ou encore des capteurs bio-acoustiques permettant d'enregistrer des communications acoustiques chez les animaux.

Les données abondantes produites par ces divers capteurs, tant en vidéosurveillance qu’en surveillance acoustique, sont impossibles à traiter et à analyser par l’être humain. Cela nécessite des systèmes intelligents reposant sur des méthodes de traitement d’apprentissage avancées. Dans ce contexte, l’apprentissage profond (deep learning) s’impose comme un outil puissant pour l’analyse de ces données, permettant l’identification de tendances et l’extraction d’informations pertinentes. Cependant, la nature complexe et interconnectée des données environnementales requiert souvent la mise en oeuvre de techniques analytiques plus élaborées.

Les graphes, une production d'informations détaillée et structurée

Afin de relever ces défis, les chercheurs utilisent des modèles mathématiques basés sur les graphes [1], un instrument efficace pour représenter les relations entre différents éléments ou entités environnementaux. Un graphe est composé de noeuds, qui se traduisent par des points et représentent des caractéristiques environnementales spécifiques (les objets), et d'arêtes, qui se traduisent par des liens entre les objets et représentent les interactions entre ces caractéristiques [2]. Par exemple, les graphes peuvent être utilisés pour illustrer les interactions entre différentes espèces dans une forêt ou les schémas

de déplacement des piétons et des véhicules dans une ville. Ce type de représentation structurée permet une analyse plus détaillée des interactions qui se jouent dans un milieu, améliorant ainsi la précision et l’efficacité des efforts de surveillance et contribuant, en fin de compte, à des stratégies de préservation de l’environnement plus efficaces.

La surveillance sonore et visuelle passive vise à segmenter et à suivre les objets en mouvement (tels que les personnes, les véhicules ou les animaux). L’objectif est de protéger la population et de contrôler la circulation en milieu urbain, tout en aidant le travail des écologues dans l’identification des espèces et le dénombrement des individus, ainsi que celui des éthologues, les chercheurs qui étudient le comportement et les interactions des animaux dans l’environnement. Cette approche est principalement utilisée en vidéosurveillance pour l’analyse et le comptage du trafic. Les capteurs sont déployés dans des environnements complexes : en surface (milieu urbain, milieu forestier, rivières et milieu maritime) et dans les milieux sous-marins.

« Afin d'améliorer la fiabilité des systèmes de surveillance, les chercheurs utilisent des réseaux neuronaux sous forme de graphes neuronaux. Ce sont des modèles mathématiques qui permettent de créer des algorithmes capables d’apprendre à partir de données (les bases de l’intelligence artificielle). »

Cela pose divers défis pour la collecte et l’analyse des données comme les imprécisions, incertitudes et incomplétudes générées par les problèmes d’occlusion et d’éclairage variable, et les difficultés liées aux conditions météorologiques. Quant à la surveillance acoustique passive, elle consiste à détecter et à classifier les sons émis par les animaux. Les capteurs sont également déployés dans divers environnements complexes, en surface et sous l’eau, ce qui pose de nombreux défis pour la collecte et l’analyse des données. Afin d'améliorer la fiabilité des systèmes de surveillance, les chercheurs utilisent des réseaux neuronaux sous forme de graphes neuronaux. Ce sont des modèles mathématiques qui permettent de créer des algorithmes capables d’apprendre à partir de données (les bases de l’intelligence artificielle). Ainsi, dans les réseaux neuronaux sous forme de graphe, les algorithmes développés vont utiliser les interactions représentées pour comprendre, classer et prédire les interactions dans le milieu. En se basant sur l’utilisation de données multisensorielles (issues des captations visuelles et sonores), ils permettent aux chercheurs d’étudier des solutions innovantes pour relever d'autres défis.

Soyons inductifs pour détecter et classifier

L’équipe de recherche a opté pour un concept inductif [3] (on cherche à tirer une règle générale construite à partir d’observations), par opposition aux concepts transductifs conventionnels (on cherche à tirer une conclusion pour un cas particulier à partir de cas similaires). Ce cadre permet d’apprendre à partir d'une quantité limitée de données labellisées par un expert, offrant ainsi une plus grande souplesse au niveau du déploiement sur site.

Bien que les applications possibles (et même déjà existantes) d’une telle technique sont très variées, cet article ne vise que deux d’entre elles : la segmentation d’objets mobiles (qui a lieu en milieu urbain) et de la classification des transformations écoacoustiques (qui a lieu au coeur de la forêt tropicale).

Pour la segmentation, les chercheurs ont proposé une méthode surnommée « GraphIMOS », qui figure parmi les premières techniques inductives appliquées au domaine de la segmentation d’objets en mouvement. Pratiquement chaque nœud du graphe représente l'objet mobile d'une scène, et les connections entre les nœuds représentent les relations entre ces objets mobiles qui peuvent être des humains, des voitures, des animaux… tout dépend de la vidéo à analyser. Grâce à sa nature inductive, cette méthode donne des résultats satisfaisants pour des vidéos inédites, un scénario dans lequel un algorithme transductif, basé sur la comparaison de cas similaires, serait en échec.

Selon les résultats numériques obtenus en testant des images de jeux de données (CDNet 2014), GraphIMOS surpasse les méthodes transductives et inductives. Comme cette technique repose sur l’apprentissage inductif (réalisé à partir d’observations), elle est aussi parfaitement adaptée aux applications réelles, offrant un bon compromis entre performance et applicabilité tant dans des environnements de surface [3] que dans des environnements sous-marins [4].

Pour la classification des transformations écoacoustiques, l’équipe de recherche à été inspirée par des études sur l’évolution des écosystèmes dans différentes zones géographiques de la forêt tropicale de Bolívar en Colombie. Bien que reconnue pour sa grande diversité biologique, celle-ci fait actuellement face à des pressions environnementales croissantes menaçant l’intégrité de ses écosystèmes. Ainsi, en collaboration avec des chercheurs colombiens de l’université de Antioquia (Medellín), les chercheurs du laboratoire MIA ont proposé une approche innovante utilisant des réseaux de neurones convolutifs sous forme de graphes de manière inductive appelée « IGraphEAMON ». Cette fois, chaque nœud du graphe représente un son d’animal de la scène (ou, plus précisément, ses caractéristiques sonores) et les connections entre les nœuds représentent les relations entre les sons.

« Pour la classification des transformations écoacoustiques, l’équipe de recherche a été inspirée par les études sur l’évolution des écosystèmes dans différentes zones géographiques de la forêt tropicale de Bolívar en Colombie. »

Cette méthode de classification et de regroupement de données offre une meilleure interprétabilité que les méthodes basées sur un modèle de mélange gaussien, dans lequel les valeurs courantes apparaissent fréquemment, tandis que les valeurs très petites et très grandes sont rares (graphiquement, cela apparaît sous la forme d’une courbe en cloche) [5, 6].

Quelles perspectives ?

Si l’approche inductive basée sur un réseau de neurones à graphes a fait ses preuves, tant en utilité qu’en polyvalence des applications, il reste encore des aspects à améliorer dans la manière de traiter les ensembles de données réelles dépourvus d’exemples annotés. Les chercheurs pensent que la mise en oeuvre de graphes dynamiques pourrait améliorer leurs résultats, en intégrant non seulement les dimensions spatiales, mais aussi les aspects temporels. De nombreuses opportunités de recherche existent, notamment en vision et en surveillance acoustique passives, où les solutions inductives basées sur les graphes commencent seulement à émerger.

Financeur : La Rochelle Université, ECOS-NORD

Bibliographie

[1] Zhou J., Cui G., Hu S., Zhang Z., Yang C., Liu Z., Wang L., Li C. et Sun M. (2020), « Graph neural networks: A review of methods and applications », AI Open, 1, p. 57-81.

[2] Giraldo J., Javed S. et Bouwmans T. (2022), « Graph Moving Object Segmentation », IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, p. 2485-2503.

[3] Prummel W., Giraldo J., Zakharova A. et Bouwmans T. (2023), « Inductive Graph Neural Networks for Moving Object Segmentation », dans IEEE International Conference on Image Processing, ICIP 2023, Kuala Lumpur, IEEE, p. 2730-2734.

[4] Kapoor M., Prummel W., Giraldo J., Subudhi B., Zakharova A., Bouwmans T. et Bansal A. (2025), « Graph-based Moving Object Segmentation for Underwater Videos using Semi-supervised Learning », Computer Vision and Image Understanding, 252. DOI : https://doi.org/10.1016/j.cviu.2025.104290

[5] Rendon N., Giraldo J., Bouwmans T., Rodriguez-Buritica S., Ramirez E. et Isaza C. (2023), « Uncertainty Clustering Internal Validity Assessment using Fréchet Distance for Unsupervised Learning », Engineering Applications of Artificial Intelligence, 124. DOI : https://doi.org/10.1016/j.engappai.2023.106635

[6] Rendon N., Guerrero M. J., Sanchez-Giraldo C., Martinez V., Paniagua-Villada C., Bouwmans T., Rojas J. et Isaza C. (2025), « Letting Ecosystems Speak for Themselves: An Unsupervised Methodology for Mapping Landscape Acoustic Heterogeneity », Environmental Modelling and Software, 187. DOI : https://doi.org/10.1016/j.envsoft.2025.106373

Modifié le 01/07/2026

DOI: