Los cisnes negros en mantenimiento como talones de Aquiles de la resiliencia y la robustez de nuestros sistemas
Diego Galar
Catedrático de Condition Monitoring
División de Ingeniería de Operación y Mantenimiento
LTU Universidad Tecnológica de Luleå
INTRODUCCIÓN
El término cisne negro proviene de un error histórico ya que, durante siglos, los cisnes se consideraron blancos, pero en 1967, se descubrió un cisne negro (Cygnus atratus) en Australia Occidental. De esta manera el término "cisne negro" se convirtió en una metáfora de una supuesta imposibilidad que fue contradicha por nueva información. Definitivamente es un tema que suscita interés mediático pero que despierta cierta animadversión en la comunidad científica a pesar de que los cisnes negros son reconocidos en diversos campos, incluyendo finanzas, historia, ciencia y también tecnología. Sus atributos comunes en todos los campos son los siguientes: a) tienen impactos extremos; b) no son hechos esperados o se encuentran fuera de las expectativas regulares; c) son impredecibles (con las limitaciones de conocimiento de cada dominio) pero tienen capacidad retrospectiva, es decir cuando han sucedido les encontramos una explicación lógica.
La industria y especialmente el mantenimiento son entornos donde también se encuentran cisnes negros. En términos generales, intentamos preservar nuestros activos de los impactos de la degradación natural, los peligros intencionales, accidentales o maliciosos y en general cualquier hecho que pudiera privar al activo de su función, hecho crucial para las instalaciones críticas donde se impone la adopción de un enfoque basado en el riesgo, donde el riesgo es una función de la probabilidad de que ocurra un evento y las consecuencias resultantes. Pero ¿qué sucede si mis cálculos están basados en apriorismos y asunciones erróneas o limitadas? Obviamente si mi conocimiento es limitado en cuanto a los eventos indeseados que pudieren suceder, el cálculo del riesgo será erróneo y las acciones de mantenimiento para mitigar y controlar ese riesgo serán ineficaces. En este momento la pregunta que nos hacemos es si la digitalización y por ende la IA industrial pueden ayudar a compensar las limitaciones humanas en las estimaciones y predicciones de estos indeseados eventos y hacer frente a sus consecuencias de gran impacto.
INDUSTRIA 4.0 Y CISNES NEGROS
La introducción de todas las tecnologías habilitadoras de Industria 4.0 como IIoT, Big data o Machine Learning está modificando los procesos y optimizando gran parte de ellos después de diez años de su comienzo. En particular la IA industrial está llamada a revolucionar el proceso de toma de decisiones en campos como el mantenimiento, sin embargo, los cisnes negros todavía existen y siguen teniendo impactos negativos, especialmente en un mundo conectado donde un incorrecto uso de las tecnologías puede tener un efecto amplificador para ciertos efectos no deseados sobre el sistema.
Este problema radica en la gestión del conocimiento de las organizaciones donde estas deben lidiar con problemas cada vez más complejos. Es esencial poder reconocer una situación crítica poco probable para anticiparse a sus efectos y disponer de estrategias de mitigación del riesgo; esto, por supuesto, no es sencillo, pero la industria gracias al vasto conocimiento de que dispone tiene que identificar y eliminar eventos impredecibles o reducir las consecuencias. Para ello la IA industrial debe contribuir en tres aspectos del proceso analítico: En primer lugar, ayudar a detectar los eventos que, aunque desconocidos pudieren ser tremendamente perniciosos en sus efectos. En este aspecto la analítica descriptiva debe ser capaz de ver la diferencia entre la normalidad y una situación potencialmente peligrosa para nuestros activos a pesar de que esta no hubiera sucedido con anterioridad. Para ello, tenemos que intentar racionalizar el número de “alarmas” que nuestro sistema emita ya que, si muchas de ellas son en vano, lo que se conoce como falsos positivos, entonces perderemos la fe en nuestro sistema.
Las alarmas vendrán como consecuencia de la detección de una anomalía y en términos estadísticos, un cisne negro corresponde a la contribución desproporcionada de unas pocas observaciones al panorama general sin embargo en mantenimiento, unas pocas observaciones pueden constituir la normalidad por lo que la información proporcionada por los valores atípicos puede perderse y el conjunto de datos resultante sobre los modos de fallo no será representativo de la realidad. En pocas palabras, la información de nuestros cisnes negros reside en pocas muestras que normalmente son las colas de la distribución probabilística y los outliers del sistema que de manera errónea elimino en el proceso de “data cleaning” arrojando una “falsa normalidad” e infravalorando los efectos de esos outliers. De hecho, una simple subestimación del tamaño de muestra requerido puede ocultar un cisne negro.
Los ingenieros de mantenimiento utilizan procesos estocásticos y herramientas como la estimación de fiabilidad para predecir el comportamiento de los activos basados en un número limitado y a veces escaso de observaciones, pero la aplicación excesiva de la "ley de los grandes números" no es aconsejable en este dominio. En pocas palabras, la ley de los grandes números indica que las propiedades de una muestra convergerán a una forma bien conocida después de un gran número de observaciones y aunque en general los conjuntos de datos de fallos con de gran tamaño conducen a una mayor precisión y menos incertidumbre cuando se realiza el mantenimiento predictivo, la velocidad de convergencia (o la falta de ella) no se conoce desde el principio.
Los valores atípicos o “outliers” son eliminados o infravalorados en los modelos de riesgo por lo que los cisnes negros quedan fuera del mismo a la hora de evaluar sus consecuencias y desafortunadamente las mayores pérdidas incurridas o evitadas por los mantenedores son aquellas que están completamente fuera de los modelos tradicionales.
Si somos afortunados y nuestro sistema pudo detectar una situación potencialmente dañina y no un falso positivo entonces la analítica diagnóstica nos ayudara a identificar el problema en curso y dispondremos de mas información para responder con las herramientas de mitigación oportunas.
Está claro que detectar un evento no sucedido e identificarlo de cara a prepararnos con la logística adecuada no parece tarea fácil, pero para confrontar un cisne negro deberemos también predecir en que momento ese evento va a empezar a dañar la funcionalidad de nuestro sistema de cara no solo a prepararnos contra el sino saber cuando debemos intervenir. Aquí la analítica predictiva jugará un papel fundamental
En resumen, la IA industrial tiene un reto importante detectando, identificando y prediciendo la aparición y progresión de cisnes negros que pueden dar al traste con nuestra seguridad funcional.
PREDICCIÓN DE CISNES NEGROS
Uno de los mayores impactos de la cuarta revolución industrial es el uso de la IA industrial en el campo del mantenimiento como soporte a las decisiones de reparación o reemplazo sustituyendo a la subjetividad humana que muchas veces se basa tan solo en la experiencia previa. Podría decirse que el uso de enfoques basados en datos aumenta la objetividad ya que la IA es capaz de compilar rápidamente datos históricos y crear un mapa de riesgos para ayudar con las decisiones. De hecho, con los suficientes datos estaríamos en disposición de generar un modelo predictivo que teniendo en cuenta las variaciones en la operativa y salud del activo pueda realizar un “forecasting” del riesgo a lo largo del tiempo.
Este enorme potencial parte de una gran falacia y es la asunción de que los datos de que disponen los mantenedores contienen toda la información necesaria para tales objetivos de predicción y evaluación del riesgo. Mantenimiento es un dominio en el que se dispone gran cantidad de datos, pero muchas veces con poca información en ellos y es por ello que la IA tenga un rendimiento muy inferior al esperado. El pecado original de la ciencia de datos en el dominio del mantenimiento sucede cuando se utiliza información pasada para tomar decisiones sobre comportamientos futuros. Es cierto que algunos patrones de comportamiento previamente acontecidos seguirán y se harán más evidentes, pero otros no acontecidos o no detectados son difícilmente modelables en el futuro con los datos pretéritos. En términos de fiabilidad, mirando el pasado es imposible tener en cuenta todos los factores desconocidos que podrían influir en el modelo en el futuro haciendo que este modelo sea inválido. Esto conlleva que el pronóstico fruto de los datos del presente, es decir las lecturas de los sensores, y el conocimiento pasado podría ser erróneo, y las predicciones verse afectadas por las colas de la distribución o eventos improbables acorde al histórico de datos. En la figura siguiente se puede observar como un comportamiento basado en datos del pasado conduce a una predicción de la vida remanente útil (RUL) mientras los mecanismos de degradación que funcionaron en tiempos pretéritos se sigan comportando de la misma manera. Si bien al activarse eventos no sucedidos hasta la fecha puede el activo degradar de manera diferente a la conocida y conducir la predicción hacia las colas de la misma arrojan sorpresas inesperadas para los mantenedores.
Esta aproximación errónea y retrospectiva es el caldo de cultivo ideal para cisnes negros ya que invertimos el proceso decisorio buscando datos para justificar decisiones en lugar de justificar decisiones basadas en los datos después de los eventos que han reducido la vida útil del equipo. El modelo de IA está sujeto a las tendencias de los datos; por lo tanto, el algoritmo puede perpetuar involuntariamente los sesgos si los datos están sesgados y realizar todas las predicciones con modelos que no corresponden a la realidad. Los sesgos en la IA pueden surgir de varias maneras. Por ejemplo, los datos pueden ser insuficientemente diversos, lo que lleva al software a adivinar en función de lo que "sabe" que como hemos comentado en mantenimiento los data sets son ricos en datos es decir de alta dimensionalidad, pero muy pobres en información, es decir contienen pocas experiencias de fallos potenciales en el sistema objeto.
Hay dos tipos de sesgos que en la IA aplicada al mantenimiento contribuyen a la aparición de cisnes negros. En primer lugar, la carencia de información sobre modos de fallos no acontecidos donde la ignorancia de los mismos lleva a ignorarlos o a etiquetarlos incorrectamente con lo cual la detección y ulterior predicción es misión imposible. En segundo lugar, y después de haber ignorado modos de fallo, la IA en mantenimiento tiende usar datos para entrenar los algoritmos que representan en exceso a una población, lo que hace que el algoritmo funcione mejor para esa población que para otras poblaciones. Esto es típico de los modos de fallo dominantes que pueden ocultar los modos no dominantes, aunque estos últimos eventualmente puedan tener un mayor impacto.
Las decisiones tradicionales de fiabilidad y mantenimiento a menudo están contaminadas por estos sesgos y se basan en un lapso de tiempo limitado de observaciones. Los gestores de activos deben cultivar una cultura de resiliencia, es decir, la capacidad de absorber perturbaciones en el sistema y compensar la ceguera humana ya que tendemos a categorizar, centrándonos solamente en datos preseleccionados que reafirman nuestras creencias e ignoran las contradicciones. De hecho, esta ceguera en los mantenedores sucede porque sobreestiman sus conocimientos y se centran demasiado en su campo de especialización y zona de confort, ignorando otras fuentes de incertidumbre y confundiendo los modelos con la realidad.
Esta dificultad de predicción de los cisnes negros sumada al limitado y parcial conocimiento humano humanos hace que la IA industrial deba proponer una forma de gestionar la incertidumbre generada por estos cisnes detectando los patrones emergentes en los datos e interrumpiendo los patrones indeseables marcados por el sesgo y compensando la tendencia humana a asignar patrones inexistentes a datos aleatorios creando narrativas descriptivas absurdas que confluyen en sesgos erróneos, lo que resulta en un enfoque de modelo equivocado en el que el pronóstico solo se basa en sesgos y datos limitados carentes de información relevante.
En general, los ingenieros de mantenimiento no están preparados para lidiar con anticipación ante eventos importante que ocurren con poca frecuencia, si es que ocurre. Hay sectores como la energía o las industrias aérea y marítima, donde no se observa nada fuera de lo común durante largos períodos, pero una combinación mortal de fatiga y mantenimiento rutinario finalmente conduce a un fracaso catastrófico. De hecho, los ingenieros tienen una tendencia a la visión de túnel, centrándose en las fuentes conocidas de incertidumbre e ignorando la complejidad de una realidad cambiante con modelos de riesgo dinámicos. Estos ingenieros se enfrentan a eventos que no han tenido lugar y por tanto aparentemente no se pueden explicar, no teniendo información adecuada para la predicción. Sin embargo, hay dos casuísticas de cisnes ante la ignorancia de los mantenedores. Por un lado, tenemos la incertidumbre aleatoria de los modelos probabilísticos, a menudo llamados "conocido desconocido” o "cisne gris" que son todos aquellos eventos que no han sucedido pero que mi conocimiento y sesgo admite que pueden suceder y pese a la falta de datos entran en mi universo probabilístico. Estos son todos aquellos modos de fallo y severidades que no han sucedido pero que mi análisis previo me confirma que pudieren suceder. Por otro lado, tenemos lo “desconocido desconocido” es decir la incertidumbre debido a la falta de conocimiento, que son los cisnes negros reales y por tanto la principal preocupación al ser eventos que no han sucedido pero que mi sesgo no contempla como posibles ni probables y están fuera de mi universo probabilístico.
De hecho, ningún modelo probabilístico basado en el pensamiento “inside-the-box” puede lidiar con eventos cisne negro “out-of-the-box” y por lo tanto la gestión del riesgo de eventos como estos queda fuera de los modelos y de su traslación a los planes de contingencia y mantenimiento.
VULNERABILIDAD Y CONFRONTACIÓN DE LOS ACTIVOS A LOS CISNES NEGROS
Los sistemas industriales complejos que han suprimido artificialmente la vulnerabilidad tienden a volverse extremadamente frágiles, mientras que al mismo tiempo no presentan riesgos visibles. Esto sucede cuando excesivas acciones de mantenimiento y reemplazos demasiado prematuros de repuestos van orientados a minimizar riesgos de sobra conocidos con impactos predecibles.
Aunque la intención de los mantenedores es mantener estos activos disponibles, confiables y no vulnerables, el resultado puede ser el contrario y minimizando “small shocks” se reduce la capacidad de respuesta de mantenimiento aumentando la fragilidad del sistema. Estos sistemas artificialmente restringidos pueden volverse propensos a cisnes negros impredecibles. De hecho, al observar la normalidad, los ingenieros de mantenimiento tienden a creer que todo está bien. Sin embargo, los entornos con "normalidad artificial" eventualmente experimentan colapsos funcionales, tomando a todos por sorpresa y deshaciendo años de mantenimiento sin fallos. De hecho, cuanto más tarda en colapsar, mayor será el daño resultante ya que la fragilidad ha ido aumentando y la resiliencia del activo ha ido disminuyendo en ese entorno de falsa normalidad donde aparentemente todos los fallos estaban controlados y mitigados por acciones tempranas de mantención. Es lo que se llama la paradoja del riesgo que crece a pesar de realizar muchísimo mantenimiento.
Es lamentable que no podamos desarrollar métodos convincentes para inferir la probabilidad de un cisne negro a partir de métodos estadístico-inductivos (aquellos basados en la observación del pasado) y combinar esto con métodos estadísticos deductivos (basados en leyes y principios válidos conocidos) para derivar la probabilidad de un evento futuro basado en los hallazgos. Al menos no en los cisnes “desconocido-desconocido”. Es el gran problema del mantenimiento de activos críticos en el siglo veintiuno y donde la IA industrial tiene la posibilidad de arrojar luz y de cambiar todo esto creando un marco de aprendizaje destinado a convertir cisnes grises y negros en mantenimiento en cisnes blancos como se muestra en la figura siguiente.
Este modelo sugiere la forma de confrontar eventos de cisne gris o negro, crear una estrategia para prevenirlos e incorporar esa estrategia. El marco debe cubrir las dos dimensiones de los cisnes tanto conocido como desconocido ya que en caso de no detección un cisne gris podría convertirse en cisne negro en cuanto a las consecuencias de su aparición. Los pasos del proceso de domesticación de los cisnes incluyen la captura y creación de conocimiento, la siembra de ese conocimiento en nuestro corpus y, por ende, la actualización de la base de conocimientos. Los eventos de cisne gris y negro son un ejemplo de conocimiento desconocido que se incorpora con estrategia “knowledge discovery” al corpus de decisión es por ello que junto a los datos de que disponemos se impone la fusión de información proveniente de este ejercicio de caza y captura de cisnes de cara a resistir los nocivos efectos consecuencia de la aparición de estos. Una vez incorporado el conocimiento a la base de decisión los cisnes grises y negros habrán mutado en cisnes blancos que habremos domesticado adecuadamente. El cisne blanco resultante o el nuevo conocimiento conocido permite el uso de las técnicas tradicionales ya que se han incorporado al modelo de riesgo “outliers” que estaban fuera del modelo mientras eran grises o negros.
REFERENCIAS
Galar, Diego, Pasquale Daponte, and Uday Kumar. Handbook of Industry 4.0 and SMART Systems. CRC Press, 2019.
Galar, Diego. Artificial intelligence tools: decision support systems in condition monitoring and diagnosis. Crc Press, 2015.
Galar, Diego, Uday Kumar, and Dammika Seneviratne. Robots, Drones, UAVs and UGVs for Operation and Maintenance. CRC Press, 2020.