Cómo funcionan los modelos.

Una descripción técnica del enfoque de aprendizaje automático de DepoDart para el mapeo de prospectividad mineral, escrita para geocientíficos y científicos de datos que desean entender qué ocurre dentro del modelo antes de recomendarlo a su equipo.

Conoce la plataforma

Planteamiento del Problema

El mapeo de prospectividad mineral es un problema de clasificación espacial: dado un conjunto de observaciones geocientíficas a lo largo de un área, predecir dónde es más probable que se encuentren depósitos minerales aún no descubiertos. El desafío es un fuerte desbalance de clases. Los depósitos conocidos son escasos, a menudo una a tres ocurrencias por distrito, mientras que el terreno no mineralizado constituye la abrumadora mayoría del área de interés. Los enfoques estándar de clasificación supervisada fallan ante este desbalance porque optimizan la exactitud global, que puede lograrse prediciendo "sin depósito" en todas partes.

DepoDart aborda esto mediante una combinación de aprendizaje con datos positivos y no etiquetados (PU learning) y métodos de ensamble que modelan explícitamente la asimetría entre positivos conocidos (depósitos confirmados o intersecciones mineralizadas) y ubicaciones no etiquetadas (que pueden ser depósitos no descubiertos o terreno verdaderamente estéril). Este planteamiento es geológicamente más honesto que tratar todas las ubicaciones sin depósito como negativos.

Datos de Entrenamiento

El modelo se entrena con dos fuentes de datos: los datos del proyecto del cliente y, cuando están disponibles, datos de relevamientos geológicos de acceso público de agencias gubernamentales (Geological Survey of Canada, USGS, Geoscience Australia y servicios geológicos estatales).

Los datos del cliente aportan el contexto geológico local, la combinación específica de variables que caracteriza el tipo de depósito objetivo en ese entorno geológico. Los datos públicos de relevamiento complementan conjuntos de datos escasos del cliente al proporcionar líneas de base geofísicas y geoquímicas regionales. Todos los datos públicos se reproyectan y normalizan para coincidir con el sistema de coordenadas y la resolución del cliente antes de su uso.

Las ocurrencias minerales conocidas, provenientes de los registros de perforación del cliente o de bases de datos públicas de ocurrencias minerales (MINFILE, MRDS, MIRIS), sirven como etiquetas positivas de entrenamiento. El modelo aprende de estas ocurrencias, no de plantillas genéricas de tipos de depósito.

Ingeniería de Variables

Los rásters geocientíficos crudos no se introducen directamente en el modelo. Una etapa de ingeniería de variables extrae derivadas geológicamente significativas de cada capa de entrada. Para la geofísica, esto incluye anomalías magnéticas reducidas al polo, derivadas verticales, derivadas de inclinación (tilt) y amplitudes de señal analítica. Para la geoquímica, esto incluye razones elementales, anomalías de elementos guía (pathfinder) e índices de anomalía multivariada. Para la geología estructural, esto incluye la proximidad a fallas interpretadas, la densidad de lineamientos y las medidas de complejidad estructural.

El conjunto de variables se construye para capturar la naturaleza multiescalar de los sistemas mineralizantes: variables a escala de depósito (respuesta geofísica directa del cuerpo mineralizado), variables a escala de distrito (halos de alteración, corredores estructurales) y variables a escala regional (límites de terrenos, márgenes de cratones). Cada capa de entrada puede aportar múltiples variables derivadas, y el modelo aprende cuáles son más predictivas para el commodity objetivo en el entorno geológico dado.

Arquitectura del Modelo

DepoDart utiliza un ensamble de árboles de decisión potenciados por gradiente (gradient boosting) como modelo principal, combinado con un esquema de validación cruzada espacial que previene la fuga de datos geográficos. Se eligió el gradient boosting por sobre las alternativas de aprendizaje profundo para esta aplicación porque: (1) tiene buen desempeño con datos geocientíficos tabulares sin requerir grandes conjuntos de entrenamiento, (2) proporciona rankings nativos de importancia de variables que son interpretables por geocientíficos, y (3) es robusto frente a los tipos de datos mixtos presentes en los conjuntos de datos geocientíficos (variables continuas, categóricas y ordinales).

El ensamble produce una estimación de probabilidad en cada punto, que luego se calibra mediante Platt scaling para asegurar que las probabilidades declaradas correspondan a tasas empíricas de mineralización. Un punto con una puntuación de 0,80 debería albergar un depósito aproximadamente el 80 % de las veces cuando se evalúa sobre muchos puntos de ese tipo en distintos proyectos.

Cuantificación de la Incertidumbre

Cada superficie de prospectividad va acompañada de un mapa de incertidumbre que cuantifica la confianza del modelo en cada ubicación. La incertidumbre surge de dos fuentes: incertidumbre aleatoria (ruido irreducible en los datos) e incertidumbre epistémica (incertidumbre del modelo debida a datos de entrenamiento escasos).

La incertidumbre epistémica se estima mediante remuestreo bootstrap del conjunto de entrenamiento. El modelo se reentrena con múltiples muestras bootstrap, y la varianza de las predicciones entre muestras se usa como estimación de la incertidumbre. Las ubicaciones de alta varianza, donde los distintos modelos bootstrap discrepan, indican áreas en las que la recolección de datos adicionales mejoraría más la confianza en el objetivo. Las ubicaciones de baja varianza y alta probabilidad son los objetivos de perforación más defendibles.

El mapa de incertidumbre se entrega como un GeoTIFF independiente junto a la superficie de prospectividad. Se recomienda a los geólogos usar ambas capas de forma conjunta: priorizar primero las zonas de alta probabilidad y baja incertidumbre, y tratar las zonas de alta probabilidad y alta incertidumbre como prioridades de recolección de datos en lugar de objetivos de perforación inmediatos.

Validación

La validación del modelo utiliza validación cruzada espacial en lugar de una partición aleatoria. En la validación cruzada espacial, el área de interés se divide en bloques geográficos, y los modelos entrenados con algunos bloques se evalúan en bloques reservados. Esto previene la fuga de datos por autocorrelación espacial, un modo de falla conocido en el que los modelos parecen generalizar bien en pruebas de partición aleatoria pero fallan en terreno genuinamente nuevo.

Cuando los conjuntos de datos del cliente incluyen múltiples ocurrencias conocidas, se realiza una validación dejando uno fuera (leave-one-out): el modelo se entrena con una ocurrencia conocida removida del conjunto de entrenamiento y se evalúa por su capacidad de ubicar esa ocurrencia reservada en el decil superior de la superficie de prospectividad. Los clientes reciben los resultados de la validación como parte del informe de procedencia de datos.

Somos transparentes acerca de las limitaciones de la validación con datos de entrenamiento escasos. En áreas con menos de tres ocurrencias conocidas, la validación es inherentemente limitada y las estimaciones de incertidumbre deben ponderarse en consecuencia.

El mapeo de prospectividad con IA no reemplaza el criterio geológico. Los modelos identifican combinaciones de variables estadísticamente anómalas; no comprenden los procesos geológicos. En entornos geológicos sin análogos en los datos de entrenamiento, el desempeño del modelo se degrada y la incertidumbre es alta. Los resultados siempre deben ser revisados por un geocientífico calificado antes de fundamentar decisiones sobre un programa de perforación.

DepoDart revela las limitaciones del modelo como parte de cada entregable del piloto. No afirmamos certezas que no podemos respaldar, y alentamos a los clientes a poner a prueba nuestros resultados frente a su propio conocimiento geológico del área.

¿Preguntas sobre la metodología?

Con gusto conversamos sobre los detalles técnicos de nuestro enfoque antes de cualquier compromiso de piloto.

Conoce la plataforma Cómo funciona un piloto