Détection IA de Signatures Infrarouges

Short Video


Surveillance de la faune par des drones – Intelligence artificielle pour la détection automatisée de signatures infrarouges

Traduction partiellement automatique. Veuillez vous référer à la version allemande.

 

Publié dans : 39ème réunion annuelle scientifique et technique de la DGPF à Vienne – Publications de la DGPF, Volume 28, 2019

Adrian F. Meyer, Natalie Lack, Denis Jordan
[1] Tous les auteurs : Haute école spécialisée du Nord-Ouest de la Suisse, Institut de géomatique, Hofackerstr. 30, CH – 4132 Muttenz

La détection des animaux sauvages est un instrument de surveillance essentiel dans les domaines de l’écologie, de la chasse, de la sylviculture et de l’agriculture. Les méthodes utilisées jusqu’à présent sont complexes, ne reposent souvent que sur des preuves indirectes et ne fournissent donc souvent qu’une estimation approximative des stocks. L’évaluation de la télédétection des relevés effectués par des drones au-dessus du sud de la Forêt-Noire et du nord-ouest de la Suisse, réalisée dans le cadre de ce travail, a montré que les données d’imagerie thermique, en particulier, se prêtent à l’automatisation de la détection des animaux sauvages. À cette fin, une méthode moderne d’intelligence artificielle (Faster R-CNN) a été développée, qui est capable d’extraire par apprentissage les caractéristiques des signatures d’animaux étiquetés. Pour certaines espèces d’animaux (cerf, chèvre, bison européen, bétail de pâturage), des résultats de détection extrêmement robustes ont pu être obtenus dans l’application suivante (inférence). La mise en œuvre efficace du prototype permet l’analyse en temps réel de flux vidéo en direct dans des conditions de terrain. Avec un taux de détection de 92,8 % par animal, ou de 88,6 % dans la classification par espèce, on peut démontrer que la nouvelle technologie a un énorme potentiel d’innovation pour l’avenir de la surveillance de la faune.

 

1 Introduction

Pour des domaines d’application tels que la gestion des populations, le sauvetage des faons et la prévention des dégâts de gibier dans les domaines de l’écologie, de la chasse, de la sylviculture et de l’agriculture, il est d’une importance cruciale de pouvoir procéder à une collecte aussi précise que possible des populations d’animaux sauvages. Les méthodes de suivi conventionnelles les plus utilisées à l’heure actuelle présentent chacune des inconvénients significatifs (Silveira et al., 2003) : Les campagnes de comptage avec confirmation visuelle (recherche de projecteurs sur les chemins forestiers) demandent énormément de travail ; Les analyses par pièges photographiques ne couvrent qu’une petite partie du paysage ; Les statistiques sur la chasse et la faune sont associées à un fort biais ; Les émetteurs de suivi sont très précis, mais aussi invasifs et complexes dans leur mise en œuvre.

L’Institut de géomatique (FHNW) coopère depuis janvier 2018 avec la Fondation pour la faune de l’Association de chasse d’Argovie (Stiftung Wildtiere) pour développer une méthode de détection des animaux sauvages à l’aide de drones (Unmanned Aerial Vehicles). Il s’agira d’analyser dans quelle mesure la télédétection automatisée offre des avantages par rapport à la surveillance conventionnelle en économisant du temps ou des ressources humaines et en rendant les enquêtes plus précises et plus complètes (Gonzalez et al., 2016). Les questions centrales auxquelles cette étude devrait répondre sont le choix des capteurs et des systèmes porteurs, la visibilité générale des signatures animales sur les images aériennes infrarouges (par exemple la robustesse contre les ombres dans la forêt mixte), et la structure d’un algorithme de haute performance pour la détection automatique et la classification des individus de la faune. L’un des résultats de cette analyse est un prototype conçu pour permettre la détection automatique des animaux sur les images aériennes.

2 Méthode
2.1 Collecte de données

Au printemps 2018, 27 relevés aériens ont été effectués sur sept enclos de gibier naturel avec des espèces indigènes dans le nord-ouest de la Suisse et le sud de la Forêt-Noire. Pour chaque enclos, environ 500 images RGB, 500 images multispectrales NIR et 5000 images thermiques TIR (thermogrammes radiométriques) ont été générées à l’aide du multicoptère senseFly Albris ou du drone à voilure fixe senseFly eBee afin de faciliter la comparaison des technologies (voir Fig. 1). La période d’enregistrement (février/mars) a été choisie de manière à ce que le contraste thermique entre la carcasse et l’environnement principalement boisé soit aussi élevé que possible. En même temps, la végétation dépourvue de feuillage devrait minimiser l’ombrage.

 

Fig. 1 : A gauche : avions senseFly « eBee » (en haut) et « Albris » (en bas) utilisés. A droite : Trajectoire typique avec l’eBee (bleu) au-dessus d’un parc animalier (vert) avec les positions de déclenchement pour les photos aériennes (blanc). (Visualisations : Gillins et al., 2018 ; Google 2018 ; senseFly 2018)

Avec l’aile fixe, de grandes zones peuvent être facilement détectées avec des capteurs interchangeables (RGB, NIR, TIR), y compris une caméra thermique haute résolution ( ThermoMap, 640x512Px, max 22ha à 15cm / Px GSD et 100m AGL). Bien que le multicoptère puisse voler de manière beaucoup plus souple et plus profonde grâce à sa capacité de vol stationnaire, la caméra thermique installée en permanence a une résolution beaucoup plus faible (80x60Px). Le bruit élevé du rotor avec une trajectoire basse représente également une interférence beaucoup plus forte avec le comportement des animaux par rapport à l’aile fixe.

2.2 Prétraitement

Les images RVB et NIR à très haute résolution (~ 3cm / Px GSD) sont bien adaptées à la cartographie orthophotomosaïque, mais manquent souvent d’un contraste suffisant pour la reconnaissance visuelle des signatures animales sous une végétation sans feuillage. Dans la suite de l’étude, ceci pourrait également être vérifié par des mesures hyperspectrales terrestres de référence (λ : 350-1000 nm) sur le sol forestier, la végétation et les carcasses d’animaux.

Les thermogrammes, quant à eux, montrent des signatures très contrastées d’animaux sauvages individuels (Fig. 2). En même temps, les images ne conviennent guère à l’équilibrage photogrammétrique des blocs, car les animaux se déplacent généralement trop entre deux prises de vue. Dans les zones d’image concernées, cela ne permet pas d’obtenir une fidélité de superposition suffisante, de sorte que les orthophotomosaïques TIR traitées d’habitats contigus ne contiennent souvent aucune signature visible. Par conséquent, pour l’analyse automatisée, les thermogrammes ont été soit traités directement en tant que données brutes non orientées, soit orthorectifiés individuellement par projection DSM.

3 Analyse
3.1 Forme des signatures thermiques animales

Les changements visibles dans l’apparence des signatures ont d’abord été examinés systématiquement en faisant varier les paramètres de référence. Ainsi, une perspective d’enregistrement moins profonde favorise l’identification des animaux par un observateur humain (figure 2, à gauche) : des caractéristiques telles que le rapport tête-torse ou les extrémités sont plus proéminentes. La délimitation des individus les uns par rapport aux autres est toutefois favorisée par une perspective plus abrupte.

Bien que les branches denses puissent réduire le contraste de la signature en raison de la distribution de la chaleur par convection et de l’écran dans les forêts mixtes qui sont aussi dépourvues de feuillage que possible. Cependant, la forme, la portée et la visibilité de base des signatures sont largement conservées (Fig. 2, droite).

 

Fig. 2 : Thermogrammes avec les signatures d’une meute de daims (six animaux, bleu 4°C, rouge 10°C). Gauche : comparaison des signatures sous six angles différents.
Au milieu / à droite : Comparaison des signatures à côté et en dessous d’un frêne sans feuillage.

3.2 Stratégies de détection automatique des signatures

Plusieurs stratégies de détection automatique des signatures ont été mises en œuvre de manière itérative et leur précision de classification et leur applicabilité ont été vérifiées. L’approche classique de télédétection consistant à classer les thermogrammes dans l’objectif Imagine d’Erda, par exemple, à l’aide d’une analyse d’image basée sur les objets a été rejetée. En raison de la variété des signatures, cette méthode n’a pas pu trouver un ensemble de variables décrivant les caractéristiques qui permettrait d’atteindre une précision de détection de plus de 41 %.Les réseaux neuronaux convolutifs (CNN), en revanche, ont démontré une robustesse exceptionnelle dans la classification des images grâce à l’extraction automatique des caractéristiques au cours des dernières années (Szegedy et al., 2016). Les sections 3.3 et 3.4 décrivent deux approches CNN qui permettent d’obtenir une détection précise des animaux de différentes manières.

3.3 Classification de segments matriciels avec un CNN dichotomique

Un CNN dichotomique (« décision à deux voies ») avec une profondeur de 7 couches de neurones
(Figure 3 centre) a été construit avec Keras et Tensorflow sous Python 3.6 . Il classifie des segments de trame de thermogrammes orthorectifiés par inférence dans les classes « animal » et « non-animal ». La couche d’entrée est une matrice de 64x64Px, qui correspond au maximum possible de segments 5x5m géotraités par GSD (Figure 3 liens). Après environ 3 heures de formation sur un ordinateur de bureau, un degré élevé de précision de classification d’environ 90 % peut être atteint pour un relevé aérien spécifique (figure 3, à droite). Le prétraitement des données thermiques (projection 3D sur MNS, génération d’orthophotos, géotraitement) prend cependant beaucoup de temps et nécessite de nombreux calculs. Dans le cas d’applications où le temps est compté, comme le sauvetage des faons, les résultats de la classification doivent, dans le meilleur des cas, être déjà disponibles pendant le vol. L’inférence sur des données brutes en direct ne serait pas soumise à ces limitations. Grâce à la résolution des données brutes de 640x512Px, cette approche permet à l’opérateur de l’UAV de disposer d’une image de haute qualité.
Toutefois, en raison de la résolution d’entrée de 64x64Px, seule une grille de détection grossière de 10 × 8 a été utilisée dans l’application pratique.

 

Fig. 3 : A gauche : Environ 10’000 empreintes de 5x5m comme tuiles d’entrée, générées à partir de 45 thermogrammes orthorectifiés. Au milieu : Schéma du réseau neuronal dichotomique, couches neuronales dans le marqueur violet. A droite : Classification – 71 tuiles Vertes : « Animal » ; Reste Rouge : « non-animal ».

3.4 Reconnaissance d’objets au moyen du R-CNN

Pour l’interprétation des données brutes en direct, les réseaux neuronaux convolutionnels basés sur des régions plus rapides (R-CNN plus rapides) sont mieux adaptés. Les modèles de cette classe peuvent classer des objets sur des images globales à plus haute résolution en localisant des régions d’intérêt (RdI) par le biais de propositions itératives de régions. De plus, différentes classes peuvent être formées et reconnues en même temps.

Un réseau Inception v2 est utilisé (voir Fig. 4), qui imite la structure des cellules pyramidales dans le cortex visuel des vertébrés avec une profondeur de 42 couches de neurones. En effectuant un pré-entraînement avec 100 000 images de la vie quotidienne (l’ensemble de données COCO), les poids des arêtes entre les couches de neurones dans l’entraînement spécifique peuvent être adaptés plus rapidement et plus efficacement à de nouveaux objectifs pour la définition des boîtes de délimitation. Même avec des exigences matérielles partiellement limitées, le modèle est toujours considéré comme rapide et précis (Szegedy et al., 2016).

La mise en œuvre a été effectuée en utilisant la bibliothèque de détection d’objets Tensorflow avec le soutien du cadre d’apprentissage profond Nvidia CUDA / cuDNN pour paralléliser les cœurs de shader GPU. Pour la formation, un ensemble de données de test d’environ 600 images thermiques avec environ 8 000 signatures d’animaux a été marqué manuellement en dessinant environ 1 800 boîtes de délimitation. Après environ 12 heures d’entraînement (environ 100 000 étapes), le Frozen Inference Graph d’environ 50 Mo a été exporté. Un prototype performant basé sur Python applique ce schéma de connaissances à de nouvelles données thermiques par inférence.

 

Fig. 4 : Structure schématique du R-CNN construit (sous-schéma « Inception v2 » d’Alemi, 2016)

4 Résultats

En comparaison, la reconnaissance d’objets à l’aide du R-CNN s’est avérée être l’approche supérieure en raison de la possibilité d’utiliser des données brutes et d’entraîner plusieurs classes simultanément. Cette architecture a donc été utilisée dans la mise en œuvre du prototype.

Si le réseau n’est entraîné que pour la détection générale d’animaux (Fig. 5-A), l’inférence permet d’obtenir un taux de détection extrêmement élevé de 92,8 % par animal. Les analyses sont également relativement robustes dans la détection générale par rapport aux pertes de qualité dans les données d’entrée (par exemple, le flou de mouvement et les ombres), car les signatures des animaux sont généralement reconnues correctement dans au moins une image et peuvent être utilisées pour la détection.

 

Fig. 5 : Évaluation des résultats de la détection sur des flux vidéo simulant un survol en direct. À gauche : tableau des statistiques de comptage (* Classe de daims – Damwild – contient des daims, des cerfs sika et des cerfs axis). La proportion de détections faussement négatives n’est pas répertoriée car elle correspond à la réciproque de la détectabilité. A droite : Exemples de boîtes de délimitation calculées par inférence.

La précision est légèrement inférieure dans la classification des espèces animales (figure 5-BCD), mais dépasse de loin les taux de réussite des méthodes de détection conventionnelles pour les espèces daim, cerf élaphe et chèvre. Cependant, ces valeurs ne sont pas comparables à celles des animaux sauvages dans les enclos semi-naturels de forêts mixtes, car seules les données des pâturages ouverts étaient disponibles pour l’entraînement et l’inférence (voir les pâturages dans la figure 5-A, les forêts mixtes dans la figure 5-BCD). Les classes sangliers, humains et petits mammifères n’ont pas atteint une précision de classification suffisante en raison du faible nombre de données d’entraînement (n <60).

5 Discussion et perspectives

La combinaison de la thermographie infrarouge basée sur les drones avec des techniques d’apprentissage profond de pointe indique le potentiel d’augmentation de l’efficacité et de la qualité de l’estimation de la population. La norme actuelle – un processus laborieux et intensif de recherche de phares, dans lequel de nombreux kilomètres de routes forestières sont parcourus pour cartographier seulement une petite proportion inconnue d’animaux – pourrait être complétée par des méthodes modernes de reconnaissance des formes. Le prototype mis en œuvre atteint une performance d’inférence d’environ 8 FPS sur du matériel mobile (ordinateur portable grand public de 2016). Le système est donc si efficace qu’il peut être appliqué à un flux vidéo en direct pendant le vol. Ces résultats prometteurs montrent donc qu’il est possible de remplacer à l’avenir les méthodes classiques de détection pour certaines zones.

Une autre application importante est la récupération des faons. Les faons qui se cachent dans les prés sont souvent victimes des moissonneuses-batteuses en raison de leur réflexe de poussée. Si des drones thermiques sont utilisés aujourd’hui, le processus est encore largement manuel. En outre, la formation des pilotes à la reconnaissance des signatures est complexe. L’automatisation logicielle présentée peut rendre le sauvetage des faons par drone beaucoup plus disponible à l’avenir.

En matière de prévention des dégâts de gibier, l’accent est généralement mis sur les pourritures de sangliers, qui hantent invisiblement de l’extérieur une retraite dans les cultures arables. Cette technologie permet de localiser les animaux avant même l’apparition de dégâts importants. Tant pour la prévention des dégâts de gibier que pour la Rehkitzrettung, il est nécessaire de disposer de données d’entraînement supplémentaires pour l’utilisation opérationnelle. Une fois que ces données ont été relevées et marquées, le réseau d’apprentissage profond existant peut être entraîné de manière plus approfondie au moyen d’un réglage fin et s’appuyer sur les connaissances déjà acquises.

En raison des progrès rapides de la technologie des drones, il est tout à fait concevable que des multicoptères plus petits soient bientôt capables de voler plus silencieusement et donc de perturber moins le comportement des animaux. Avec des altitudes plus basses et des capteurs plus puissants, ils seraient en mesure de générer des thermogrammes encore meilleurs, ce qui faciliterait la classification des signatures pour le réseau neuronal. Il serait envisageable d’identifier d’autres caractéristiques individuelles des espèces déjà analysées, telles que l’âge et le sexe, ou d’étendre l’analyse à des espèces plus petites telles que les blaireaux, les lièvres et les renards, ainsi qu’à des espèces rares telles que les lynx et les loups.

6 Bibliographie

Alemi, A., 2016: Improving Inception and Image Classification in Tensorflow. Google AI Blog.

Google, 2018: Google Earth Pro 7.3.1, Aerial Texture: GeoBasis-DF / BKG, 2017-08-07.

Gonzalez, L., Montes, G., Puig, E., Johnson, S., Mengersen, K., Gaston, K., 2016: Unmanned Aerial Vehicles (UAVs) and Artificial Intelligence Revolutionizing Wildlife Monitoring and Conservation. Sensor 16 (1), Item 97.

Gillins, D., Parrish, C., Gillins, M., H. Simpson, C., 2018: Eyes in the Sky: Bridge Inspections with Unmanned Areal Vehicles. Oregon Dept. of Transportation, SPR 787 Final Report.

SenseFly, 2018: https://www.sensefly.com/drone/bee-mapping-drone/ (6.5.2018).

Silveira, L., Jacomo, A. & Diniz-Filho, J., 2003: Camera trap, line transect census and track surveys: a comparative evaluation. Biological Conservation 114 (3), 351-335.

Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z., 2016: Rethinking the inception architecture for computer vision. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016, 2818-2826.