Science

Corte Video


Surveillance de la faune avec des UAV – Intelligence artificielle pour la détection automatisée des signatures infrarouges

Traduction en cours. S’il vous plaît consulter la version automatique de l’article allemand en attendant.

Publié dans: 39e réunion annuelle scientifique et technique de la conférence DGPF et PFGK19 à Vienne – Publications de la DGPF, Volume 28, 2019

Adrian F. Meyer [1] , Natalie Lack, Denis Jordan 
[1] Tous les auteurs: Haute école spécialisée de la Suisse du Nord-Ouest, Institut de géomatique, Hofackerstr. 30, CH – 4132 Muttenz 

La détection des animaux sauvages est un instrument central de surveillance en écologie, chasse, foresterie et agriculture. Les méthodes précédentes sont complexes, reposent souvent uniquement sur des preuves indirectes et ne fournissent donc souvent qu’une estimation approximative des stocks. L’évaluation par télédétection d’enquêtes sur les véhicules aériens sans pilote dans le sud de la Forêt-Noire et le nord-ouest de la Suisse a montré que les données d’imagerie thermique étaient particulièrement bien adaptées à l’automatisation de la détection des animaux sauvages. À cette fin, une méthode moderne d’intelligence artificielle (Faster R-CNN) a été mise au point. Elle permet d’extraire par la formation des propriétés des caractéristiques des signatures animales étiquetées. Pour certaines espèces d’animaux (cerf, chèvre, bison d’Europe, bétail au pâturage), des résultats de détection extrêmement robustes pourraient être obtenus lors de l’application ultérieure (inférence). La mise en œuvre efficace du prototype permet une analyse en temps réel des flux vidéo en direct dans des conditions réelles. Avec un taux de détection de 92,8% par animal, ou de 88,6% dans la classification par espèce, il pourrait être démontré que la nouvelle technologie présente un potentiel d’innovation énorme pour l’avenir de la surveillance de la faune.

1 Introduction

Pour des domaines d’application tels que la gestion de la population, le sauvetage des poulains et la prévention des dommages causés par le gibier en écologie, la chasse, la foresterie et l’agriculture, il est d’une importance cruciale de pouvoir procéder à la collecte la plus précise possible des populations d’animaux sauvages. Les méthodes de surveillance conventionnelles sont actuellement principalement utilisées, chacune présentant des inconvénients importants (Silveira et al., 2003): les campagnes de comptage avec confirmation visuelle (recherche de projecteurs sur des routes forestières) exigent énormément de travail; Les analyses de pièges photographiques ne couvrent qu’une petite partie du paysage; Les statistiques sur la chasse et la faune sont associées à un fort biais; Les émetteurs de suivi sont très précis, mais aussi invasifs et complexes dans leur mise en œuvre.

L’Institut de géomatique (FHNW) coopère depuis janvier 2018 avec la Wildlife Foundation de l’ Association de chasse d’Argovie pour développer une méthode de détection des animaux sauvages à l’aide de véhicules aériens sans pilote ( UAV ) . Nous examinerons dans quelle mesure la télédétection automatisée offre des avantages par rapport à la surveillance conventionnelle en faisant gagner du temps ou en ressources humaines et en rendant les enquêtes plus précises et plus complètes (Gonzalez et al., 2016). Les questions centrales auxquelles cette étude devrait répondre sont le choix des capteurs et des systèmes de support, la visibilité générale des signatures animales sur les images aériennes infrarouges (par exemple, la résistance aux ombres dans les forêts mixtes) et la structure d’un algorithme performant de détection et de classification automatisées des individus de la faune. L’un des résultats de cette analyse est un prototype conçu pour permettre la détection automatisée d’animaux sur des données d’images aériennes.

2 Méthode

2.1 Collecte de données

Au printemps 2018, 27 relevés aériens ont été effectués sur sept enclos de gibier avec des espèces indigènes du nord-ouest de la Suisse et du sud de la Forêt-Noire. Pour chaque boîtier, environ 500 images RVB, 500 images multispectrales NIR et 5 000 images thermiques TIR (thermogrammes radiométriques) ont été générées à l’aide du multicoptère senseFly Albris ou du drone à sens unique senseFly eBee, afin de faciliter la comparaison technologique (voir Fig. 1) La durée d’enregistrement (février / mars) a été choisie de manière à ce que le contraste thermique entre la carcasse et l’environnement essentiellement boisé soit aussi élevé que possible. Dans le même temps, la végétation sans feuillage devrait minimiser l’ombrage.

Fig. 1: Gauche: Avion senseFly utilisé « eBee » (ci-dessus) et « Albris » (ci-dessous). Droite: trajectoire typique avec l’eBee (bleu) sur un parc animalier (vert) avec les positions de déclenchement pour les photos aériennes (blanc). (Visualisations: Gillins et al., 2018; Google 2018; senseFly 2018)

Avec l’aile fixe, de grandes zones peuvent être facilement détectées avec des capteurs interchangeables (RGB, NIR, TIR), y compris une caméra thermique haute résolution ( ThermoMap, 640x512Px, 22 ha max. À 15 cm / Px GSD et 100 m AGL). Bien que le Multicopter puisse voler de manière beaucoup plus flexible et plus profonde en raison de son instabilité, la caméra thermique installée en permanence a une résolution beaucoup plus basse (80x60Px).Le bruit de rotor élevé avec une trajectoire basse représente également une interférence beaucoup plus forte avec le comportement des animaux par rapport à l’aile fixe.

2.2 Pré-traitement

Les images RVB et NIR à très haute résolution (~ 3 cm / Px GSD) sont bien adaptées à la cartographie d’orthophotomosaïque, mais manquent souvent de contraste suffisant pour la reconnaissance visuelle des signatures d’animaux sous une végétation sans feuillage. Cela pourrait également être vérifié ultérieurement par des mesures de référence hyperspectrales terrestres (λ: 350-1000 nm) sur les sols forestiers, la végétation et les carcasses d’animaux.

Les thermogrammes, en revanche, montrent des signatures à contraste élevé d’animaux sauvages individuels (Fig. 2). Dans le même temps, les images ne conviennent guère à l’équilibrage photogrammétrique, car les animaux bougent trop entre deux prises de vue. Dans les zones d’image pertinentes, cela ne permet pas d’obtenir une fidélité de recouvrement suffisante, de sorte que les orthophotomosaïques TIR traitées d’habitats contigus ne contiennent souvent aucune signature visible. Par conséquent, pour une analyse automatisée, les thermogrammes ont été soit traités directement en tant que données brutes non orientées, soit orthorectifiés individuellement par projection DSM.

3 Analyses

3.1 Forme des signatures d’animaux thermiques

Les changements visibles dans l’apparence des signatures ont d’abord été examinés systématiquement en faisant varier les paramètres de référence. Ainsi, une perspective d’enregistrement moins profonde facilite l’identification d’un animal par un observateur humain (Figure 2, à gauche): des caractéristiques telles que le rapport tête / torse ou les extrémités sont plus importantes. La délimitation des individus les uns des autres repose toutefois sur une perspective plus abrupte.

Bien que les branches denses puissent réduire le contraste de la signature en raison de la répartition de la chaleur par convection et du blindage dans une forêt mixte sans feuillage autant que possible. Cependant, la forme, la portée et la visibilité de base des signatures sont en grande partie conservées (Fig. 2, à droite).

Fig. 2: Thermogrammes portant les signatures d’un paquet de daims (six animaux, bleu 4 ° C, rouge 10 ° C). Gauche: Comparaison des signatures sous six angles différents.
Moyen / Droite: Comparaison des signatures à côté et en dessous d’une cendre sans feuillage.

3.2 Stratégies pour la détection automatisée de signature

Plusieurs stratégies de détection automatique des signatures ont été mises en œuvre de manière itérative et leur exactitude de classification et leur applicabilité ont été vérifiées.L’approche classique de télédétection consistant à classer les thermogrammes dans, par exemple, l’objectif Imagine d’Erda à l’ aide d’une analyse d’image basée sur un objet a été rejetée. En raison de la diversité des signatures, cette méthode n’a pas permis de trouver un ensemble de variables décrivant les caractéristiques pouvant atteindre une précision de détection de plus de 41%. Les réseaux de neurones convolutifs (CNN), en revanche, ont démontré une robustesse exceptionnelle dans la classification d’images par extraction automatique de caractéristiques au cours des dernières années (Szegedy et al., 2016). Les sections 3.3 et 3.4 décrivent deux approches CNN qui permettent une détection précise des animaux de différentes manières.

3.3 Classification de segment raster avec CNN dichotomique

CNN dichotomique (« décision à double sens ») avec une profondeur de 7 couches de neurones
(Figure 3 center) a été construit avec Keras et Tensorflow sous Python 3.6 . Il classe les segments de trame des thermogrammes orthorectifiés en déduisant les classes « animal » et « non animal ». La couche d’entrée est une matrice 64x64Px, ce qui correspond au maximum possible de segments 5x5m géodésistibles par GSD (liens de la figure 3). Après environ 3 heures de formation sur le matériel informatique, un degré élevé d’exactitude de classification d’environ 90% peut être atteint pour un levé aérien spécifique (figure 3, à droite). Le prétraitement des données thermiques (projection 3D sur DSM, génération d’orthophoto, géotraitement) prend toutefois beaucoup de temps et demande beaucoup de temps de calcul. Il peut donc être classé dans des conditions de terrain comme peu pratique à automatiser.Dans le cas d’applications urgentes telles que le sauvetage sur le fauve, les résultats de la classification doivent, au mieux, être déjà disponibles pendant le vol. L’inférence sur des données brutes vivantes ne serait pas soumise à ces limitations. En raison de la résolution des données brutes de 640x512Px, cette approche permet à l’opérateur de
Cependant, en raison de la résolution d’entrée 64x64Px, seule une grille de détection grossière 10 × 8 a été utilisée dans l’application pratique.

Fig. 3: Gauche: Env. 10’000 empreintes de pas 5x5m en tant que tuiles d’entrée, générées à partir de 45 thermogrammes orthorectifiés. Au milieu: schéma du réseau neuronal dichotomique, couches neuronales dans le marqueur violet. Droite: Classification – 71 tuiles Vert: « Animal »; Reste Rouge: « non-animal ».

3.4 Reconnaissance d’objet au moyen de R-CNN

Pour une interprétation en direct des données brutes, les réseaux de neurones convolutionnels basés sur des régions plus rapides (Faster R-CNN) sont mieux adaptés. Les modèles de cette classe peuvent classer des objets sur des images globales de résolution supérieure en localisant des régions d’intérêt (RoI) au moyen de propositions de régions itératives. En outre, différentes classes peuvent être formées et reconnues en même temps.

Un réseau Inception v2 est utilisé (voir Fig. 4), qui imite la structure des cellules pyramidales dans le cortex visuel de vertébrés d’une profondeur de 42 couches de neurones. En pré-entraînant avec 100 000 images de tous les jours ( jeu de données COCO ), les poids des arêtes entre les couches de neurones de la formation spécifique peuvent être adaptés plus rapidement et plus efficacement aux nouveaux objectifs de définition des cadres de sélection .Même avec des exigences matérielles partiellement limitées, le modèle est toujours considéré comme rapide et précis (Szegedy et al., 2016).

L’implémentation a été réalisée à l’aide de la bibliothèque de détection d’objets Tensorflow,avec le support du framework d’apprentissage en profondeur Nvidia CUDA / cuDNN , afin de mettre en parallèle les cœurs de shader GPU. Pour la formation, un ensemble de données de test d’environ 600 images thermiques avec environ 8 000 signatures d’animaux a été manuellement marqué en traçant environ 1 800 boîtes de sélection. Après environ 12 heures de formation (environ 100 000 étapes ), le graphe d’inférence gelé d’ environ 50 Mo a étéexporté. Un prototype haute performance basé sur Python applique ce schéma de connaissances à de nouvelles données thermiques via l’inférence.

Fig. 4: Structure schématique du R-CNN construit (sous-schéma « Inception v2 » de Alemi, 2016)

4 Résultat

En comparaison, la reconnaissance d’objet à l’aide de R-CNN s’est avérée être la meilleure approche en raison de la possibilité d’utiliser des données brutes et de former plusieurs classes simultanément. Cette architecture a donc été utilisée dans l’implémentation du prototype.

Si le réseau est uniquement formé à la détection générale des animaux (figure 5-A), alors l’inférence atteint un taux de détection extrêmement élevé de 92,8% par animal. Les analyses sont également relativement robustes dans la détection générale par rapport aux pertes de qualité dans les données d’entrée (flou de mouvement et ombres, par exemple), car les signatures des animaux sont généralement reconnues correctement dans au moins une image et peuvent être utilisées pour la détection.

Fig. 5: Evaluation des résultats de détection sur des flux vidéo simulant un survol en direct. À gauche: Tableau des statistiques de dénombrement (* La classe des daims comprend les daims, les sika et les Axiswild). La proportion de détections faussement négatives ne figure pas dans la liste, car elle correspond à l’inverse de la détectabilité. Droite: Exemples par inférence de boîtes englobantes calculées.

La précision est légèrement inférieure dans la classification des espèces animales (Figure 5-BCD), mais dépasse de loin les taux de réussite des méthodes de détection conventionnelles pour les espèces de daims , de cerfs communs et de chèvres . Le bison européen et le bétail écossais des montagnes atteignent également une très grande précision (détectabilité> 90% par animal,> 80% par image avec n≈150 cartons formés). Cependant, ces valeurs ne sont pas comparables à celles des animaux sauvages dans les enclos semi-naturels de forêts mixtes, car seules les données sur les pâturages ouverts étaient disponibles à la fois pour la formation et les déductions (voir pâturage sur la Fig. 5-A; 5 BCD). Les classes de sangliers , d’ êtres humains et de petits mammifères n’ont pas atteint une précision de classification suffisante en raison du faible nombre de données d’entraînement (n <60).

5 Discussion et Perspectives

La combinaison de la thermographie infrarouge à base d’UAV et de techniques d’apprentissage en profondeur de pointe indique le potentiel d’augmentation de l’efficacité et de la qualité de l’estimation de la population. La méthode actuelle – un processus laborieux et fastidieux de recherche de phares, dans lequel plusieurs kilomètres de routes forestières sont parcourues pour ne cartographier qu’une petite proportion inconnue d’animaux – pourrait être complétée par des méthodes modernes de reconnaissance des formes. Le prototype mis en œuvre atteint une performance d’inférence d’environ 8 FPS sur le matériel mobile (ordinateur portable grand public 2016). Cela rend le système si efficace qu’il peut être appliqué à un flux vidéo en direct en direct pendant le vol. Ces résultats prometteurs montrent donc qu’il est envisageable de remplacer les méthodes de détection classiques pour certaines zones.

La Rehkitzrettung est une autre application importante. Les fauves qui se cachent dans les prés deviennent souvent les victimes des moissonneuses-batteuses à cause de leur réflexe de poussée. Si on utilise aujourd’hui des UAV thermiques, le processus reste largement manuel.En outre, la formation des pilotes pour la reconnaissance des signatures est complexe.L’automatisation logicielle présentée peut rendre le sauvetage de secours basé sur les UAV beaucoup plus disponible à l’avenir.

Pour ce qui est de la prévention des dommages causés par le gibier, l’accent est généralement mis sur les pourritures de sanglier, qui cachent de manière invisible le recul des cultures arables de l’extérieur. La localisation des animaux est possible avec cette technologie avant même l’apparition d’un dommage majeur. Tant pour la prévention des dommages du jeu que pour la Rehkitzrettung, elle nécessite pour l’utilisation opérationnelle des données d’entraînement supplémentaires. Une fois que ceux-ci ont été étudiés et marqués, le réseau d’apprentissage en profondeur existant peut être perfectionné grâce à une mise au point et au renforcement des connaissances déjà acquises.

En raison des progrès rapides de la technologie des drones, il est tout à fait concevable que les multicoptères plus petits puissent bientôt voler plus silencieusement et ainsi perturber moins le comportement des animaux. Avec des altitudes plus basses et des capteurs plus puissants, ceux-ci pourraient générer des thermogrammes encore meilleurs, ce qui faciliterait la classification des signatures pour le réseau de neurones. Il serait concevable d’identifier d’autres caractéristiques individuelles des espèces déjà analysées, telles que l’âge et le sexe, ou d’étendre l’analyse à des espèces plus petites, telles que le blaireau, le lièvre et le renard, ainsi qu’à des espèces rares telles que le lynx et le loup.

6 Bibliographie

Alemi, A., 2016: Improving Inception and Image Classification in Tensorflow. Google AI Blog.

Google, 2018: Google Earth Pro 7.3.1, Luftbild-Textur: GeoBasis-DF/BKG, 2017-08-07.

Gonzalez, L., Montes, G., Puig, E., Johnson, S., Mengersen, K., Gaston, K., 2016: Unmanned Aerial Vehicles (UAVs) and Artificial Intelligence Revolutionizing Wildlife Monitoring and Conservation. Sensors 16 (1), Beitrag 97.

Gillins, D., Parrish, C., Gillins, M., H. Simpson, C., 2018: Eyes in the Sky: Bridge Inspections with Unmanned Areal Vehicles. Oregon Dept. of Transportation, SPR 787 Final Report.

SenseFly, 2018: https://www.sensefly.com/drone/ebee-mapping-drone/ (6.5.2018).

Silveira, L., Jacomo, A. & Diniz-Filho, J., 2003: Camera trap, line transect census and track surveys: a comparative evaluation. Biological Conservation 114 (3), 351-335.

Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z., 2016: Rethinking the inception architecture for computer vision. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016, 2818-2826.