Comment fonctionnent les modèles.

Un aperçu technique de l'approche d'apprentissage automatique de DepoDart pour la cartographie de prospectivité minérale — rédigé pour les géoscientifiques et les scientifiques des données qui souhaitent comprendre ce qui se passe à l'intérieur du modèle avant de le recommander à leur équipe.

Voir la plateforme

Cadrage du problème

La cartographie de prospectivité minérale est un problème de classification spatiale : étant donné un ensemble d'observations géoscientifiques à travers une zone, prédire où les gisements minéraux non découverts sont les plus susceptibles d'apparaître. Le défi est un déséquilibre sévère des classes. Les gisements connus sont rares — souvent une à trois occurrences par district — tandis que les terrains non minéralisés constituent l'écrasante majorité de la zone d'intérêt. Les approches standard de classification supervisée échouent face à ce déséquilibre car elles optimisent la précision globale, ce qui peut être atteint en prédisant « aucun gisement » partout.

DepoDart aborde ce problème grâce à une combinaison d'apprentissage positif-non étiqueté (PU) et de méthodes d'ensemble qui modélisent explicitement l'asymétrie entre les positifs connus (gisements confirmés ou intersections minéralisées) et les emplacements non étiquetés (qui peuvent être des gisements non découverts ou un terrain véritablement stérile). Ce cadrage est plus honnête sur le plan géologique que de considérer tous les emplacements sans gisement comme négatifs.

Données d'entraînement

Le modèle s'entraîne sur deux sources de données : les données du projet du client et, lorsqu'elles sont disponibles, les données de commissions géologiques publiques d'agences gouvernementales (Commission géologique du Canada, USGS, Geoscience Australia et commissions géologiques d'États).

Les données du client fournissent le contexte géologique local — la combinaison spécifique de caractéristiques qui définit le type de gisement ciblé dans ce contexte géologique. Les données des commissions publiques complètent les ensembles de données clients clairsemés en fournissant des références géophysiques et géochimiques régionales. Toutes les données publiques sont reprojetées et normalisées pour correspondre au système de coordonnées et à la résolution du client avant utilisation.

Les occurrences minérales connues provenant des journaux de forage des clients ou des bases de données publiques d'occurrences minérales (MINFILE, MRDS, MIRIS) servent d'étiquettes d'entraînement positives. Le modèle apprend à partir de ces occurrences — et non à partir de modèles génériques de types de gisements.

Ingénierie des caractéristiques

Les rasters géoscientifiques bruts ne sont pas transmis directement au modèle. Une étape d'ingénierie des caractéristiques extrait des dérivées géologiquement significatives de chaque couche d'entrée. Pour la géophysique, cela inclut les anomalies magnétiques réduites au pôle, les dérivées verticales, les dérivées d'inclinaison et les amplitudes du signal analytique. Pour la géochimie, cela inclut les rapports d'éléments, les anomalies d'éléments indicateurs et les indices d'anomalies multivariés. Pour la géologie structurale, cela inclut la proximité aux failles interprétées, la densité des linéaments et les mesures de complexité structurale.

L'ensemble des caractéristiques est construit pour capter la nature multi-échelle des systèmes de minéralisation : caractéristiques à l'échelle du gisement (réponse géophysique directe du corps minéralisé), caractéristiques à l'échelle du district (auréoles d'altération, corridors structuraux) et caractéristiques à l'échelle régionale (limites de terrane, marges cratoniques). Chaque couche d'entrée peut contribuer à plusieurs caractéristiques dérivées, et le modèle apprend quelles caractéristiques sont les plus prédictives pour le produit ciblé dans le cadre géologique donné.

Architecture du modèle

DepoDart utilise un ensemble d'arbres de décision à boosting de gradient comme modèle principal, combiné à un schéma de validation croisée spatiale qui empêche les fuites de données géographiques. Le boosting de gradient a été choisi par rapport aux alternatives d'apprentissage profond pour cette application parce que : (1) il fonctionne bien sur des données géoscientifiques tabulaires sans nécessiter de grands ensembles d'entraînement, (2) il fournit des classements d'importance des caractéristiques natifs interprétables par les géoscientifiques, et (3) il est robuste aux types de données mixtes présents dans les ensembles de données géoscientifiques (caractéristiques continues, catégorielles et ordinales).

L'ensemble produit une estimation de probabilité en chaque point, qui est ensuite calibrée à l'aide de la mise à l'échelle de Platt pour garantir que les probabilités énoncées correspondent aux taux de minéralisation empiriques. Un point évalué à 0,80 devrait abriter un gisement environ 80 % du temps lorsqu'évalué sur plusieurs de ces points dans différents projets.

Quantification de l'incertitude

Chaque surface de prospectivité est accompagnée d'une carte d'incertitude qui quantifie la confiance du modèle à chaque emplacement. L'incertitude provient de deux sources : l'incertitude aléatoire (bruit irréductible dans les données) et l'incertitude épistémique (incertitude du modèle due à des données d'entraînement clairsemées).

L'incertitude épistémique est estimée par rééchantillonnage bootstrap de l'ensemble d'entraînement. Le modèle est réentraîné sur plusieurs échantillons bootstrap, et la variance des prédictions entre les échantillons est utilisée comme estimation de l'incertitude. Les emplacements à variance élevée — où différents modèles bootstrap ne s'accordent pas — indiquent les zones où une collecte de données supplémentaire améliorerait le plus la confiance dans la cible. Les emplacements à faible variance et à forte probabilité sont les cibles de forage les plus défendables.

La carte d'incertitude est livrée sous la forme d'un GeoTIFF distinct accompagnant la surface de prospectivité. Les géologues sont encouragés à utiliser les deux couches conjointement : cibler d'abord les zones à forte probabilité et faible incertitude, et traiter les zones à forte probabilité et forte incertitude comme des priorités de collecte de données plutôt que comme des cibles de forage immédiates.

Validation

La validation du modèle utilise la validation croisée spatiale plutôt qu'un échantillon de réserve aléatoire. En validation croisée spatiale, la zone d'intérêt est divisée en blocs géographiques, et les modèles entraînés sur certains blocs sont évalués sur des blocs réservés. Cela empêche les fuites de données dues à l'autocorrélation spatiale — un mode d'échec connu où les modèles semblent bien généraliser dans les tests de réserve aléatoires mais échouent sur un terrain véritablement nouveau.

Lorsque les ensembles de données des clients comprennent plusieurs occurrences connues, une validation par retrait individuel (leave-one-out) est effectuée : le modèle est entraîné avec une occurrence connue retirée de l'ensemble d'entraînement et évalué sur sa capacité à classer cette occurrence retirée dans le premier décile de la surface de prospectivité. Les clients reçoivent les résultats de validation dans le cadre du rapport de provenance des données.

Nous sommes transparents quant aux limites de la validation avec des données d'entraînement clairsemées. Dans les zones comptant moins de trois occurrences connues, la validation est intrinsèquement limitée et les estimations d'incertitude doivent être pondérées en conséquence.

La cartographie de prospectivité par IA ne remplace pas le jugement géologique. Les modèles identifient des combinaisons de caractéristiques statistiquement anormales — ils ne comprennent pas les processus géologiques. Dans des contextes géologiques sans analogues dans les données d'entraînement, la performance du modèle se dégrade et l'incertitude est élevée. Les résultats doivent toujours être examinés par un géoscientifique qualifié avant d'orienter les décisions de programme de forage.

DepoDart divulgue les limites du modèle dans chaque livrable de projet pilote. Nous ne revendiquons pas de certitudes que nous ne pouvons soutenir, et nous encourageons les clients à mettre à l'épreuve nos résultats par rapport à leurs propres connaissances géologiques de la zone.

Des questions sur la méthodologie?

Nous sommes heureux de discuter des détails techniques de notre approche avant tout engagement de projet pilote.

Voir la plateforme Le déroulement d'un pilote