Aplicación de Machine Learning como soporte a la operación y mantenimiento
Javier Serra Parajes
Gerencia de gestión y análisis de mantenimiento
ENAGÁS
INTRODUCCIÓN
Las nuevas herramientas tecnológicas están generando un entorno muy importante para la mejora global del mantenimiento. Generalmente, el uso de herramientas de datos transaccionales está comúnmente extendido en la industria y siempre ha sido el foco sobre el que centrar la mejora, dejando las herramientas de datos operativos para mejoras exclusivamente operacionales. Sin embargo, cada vez más se trabaja en cerrar esa brecha, asumiendo que cualquier dato que pueda ser recogido, tratado y analizado, puede ser utilizado para la mejora del ámbito global de la gestión de activos.
El planteamiento inicial de Enagás para tratar de forma global la explotación del dato, es la necesidad de una plataforma capaz de centralizar todos los datos que se generan y se almacenan en las diferentes aplicaciones y sistemas dela compañía, además de los datos técnicos de sus activos, e integrarlos en un repositorio común para el análisis y la explotación de los mismos.
Estamos en un momento en que la tecnología está rompiendo fronteras y en este entorno de cambio continuo, ir varios años atrás, nos aísla. Es por ello que Enagás se embarca en la implantación de una Plataforma Digital que le permita una Gestión Inteligente de sus Activos. No es tanto generar una enorme base de datos, sino una plataforma que sea capaz de gestionarlos.
Pero esta Gestión Inteligente de los activos conlleva una Transformación digital a nivel empresarial, las llamadas 3 R de la Transformación digital:
- Reeducación: En todos los niveles.
- Revisión: De los planes estratégicos. Pensar en corto, medio y largo plazo.
- Reestructuración: De los modelos jerárquicos. Mantener una actitud proactiva, y sobre todo, saber escuchar.
Esta transformación digital permite a Enagás ver su negocio a través de la lente “datos”; de repente, los técnicos y la experiencia de éstos, pueden ser “digitalizados” y pasar a ser un conocimiento experto de la compañía, y no sólo de los propios técnicos. Puede que el gran cambio que va a traer la gran capacidad de gestión de datos es esa inteligencia centralizada que nos permitirá identificar y extrapolar las mejores prácticas, estén donde estén, pero especialmente las que se encuentren dentro de la organización.
Sin embargo, es difícil recorrer ese camino, pues los datos brutos por sí solos no generan información, son los análisis de los mismos los que crean el verdadero valor. Así pues se necesitan nuevos perfiles que permitan identificar ese conocimiento y a través de habilidades relacionadas con la gestión de información, se “parametrice” ese know how y se consiga dar valor a los datos. Esto conlleva un cambio cultural, ya que a día de hoy, la mayoría del personal de mantenimiento ha sido habilitada en las estrategias de mantenimiento clásicas, es decir, hacer mantenimiento sólo cuando se nos rompía la máquina o en el mejor de los casos, a buscar un modo de fallo y tratar de prevenirlo. Sin embargo, vienen nuevas metodologías, que si bien no nacen específicamente para cubrir un ámbito de la gestión de activos, pueden ser de gran aplicación, como el buscar patrones de normalidad que nos permitan anticiparnos a posibles fallos y decidir cuándo es el momento óptimo para realizar el mantenimiento. Ya no miramos los datos desde el punto de vista de lo que nos ha ocurrido o lo que sabemos, sino que los exploramos para que nos aporten una visión de mejora continua, de determinar el momento adecuado para realizar el mantenimiento, de analizar patrones de fallos, de optimizar la eficiencia energética,...
Enagás busca ser una empresa ágil y que se adapte rápidamente a los continuos cambios y por ello ha apostado por explorar estas metodologías para seguir manteniendo una posición referente en la gestión de infraestructuras.
DIGITALIZACIÓN "APLICADA"
Hemos oído hablar mucho de transformación digital, pero en su inmensa mayoría son conceptos genéricos poco aterrizados en el día a día de una compañía. Eso sin obviar que como todos los grandes conceptos, pueden tener una realidad muy diferente (y probablemente igual de eficaz) según en la compañía en la que se esté trabajando. Así pues siempre hay lugar para la pregunta ¿qué es la transformación digital?
En Enagás se concibe la transformación digital como la optimización de procesos y tecnología que permiten a la compañía una gestión ágil y eficiente para la toma de decisiones.
Es importante destacar, que como la mayoría de los expertos apuntan, no hablamos exclusivamente de tecnología.Está claro que por la propia acepción de la palabra, el concepto “digital” tiene una componente significativa de tecnología, pero la clave está en la transformación. Este aspecto es clave, pues la solución presentada es una solución tecnológica que permite dar a través de una plataforma la capacidad de análisis y toma de decisiones en el ámbito de mantenimiento. Sin embargo, esto no es útil ni eficaz sin la “transformación” necesaria por parte de la compañía. Dicha transformación puede implicar cambios organizativos, cambios de funciones, cambios de equipos, nuevas inversiones...
Atendiendo a la definición propuesta para Enagás, una iniciativa de transformación puede ser la simple redistribución de los puestos de trabajo para que los operadores desarrollen su labor en un ambiente más cercano. De la misma manera y sin grandes inversiones, herramientas colaborativas como el “Teams” de Microsoft Office, puede agilizar enormemente las comunicaciones y el traspaso de información.
En el ámbito específico de la gestión de datos, en Enagás se está desarrollando una plataforma digital, que permitirá obtener un dato íntegro, único y accesible, que se almacene en la nube y que se pueda explotar la información de una forma más visual, siempre cumpliendo los más altos estándares en ciberseguridad. Será sobre esta plataforma sobre la que se desarrollarán de ahora en adelante, las diferentes soluciones en el ámbito de gestión de activos que requieran el uso de datos operativos.
INTEGRACIÓN DE NUEVAS METODOLOGÍAS EN EL MODELO DE GESTIÓN
Tomando como referencia el Modelo de Gestión de Mantenimiento (MGM-Gas) (Figura 1), la aplicación de técnicas de redes neuronales, forma parte de la Fase 8 del MGM “Adopción de nuevas tecnologías”.
Frente a lo novedoso de los avances tecnológicos, hay que destacar no sólo el papel de los “sistemas inteligentes”, sino también al capital humano que es el que verdaderamente da valor a esas aplicaciones de inteligencia artificial.
En la actualidad, Enagás cuenta con muchos activos de larga duración, alta capitalización y baja monitorización. Para estos activos, es complejo monitorizar su rendimiento en condiciones normales de operación. Una herramienta como las redes neuronales artificiales facilita a Enagás a encontrar modelos interesantes de mantenimiento predictivos y a detectar, con una cierta precisión, las pérdidas de rendimiento de las Bombas primarias.
Además de esto, añadimos la transformación digital que está sufriendo la empresa y todo metido en la coctelera nos ha llevado a proponer un proyecto de redes neuronales artificiales con metodología “ágil”, que permita entregas de valor, de una forma continua, rápida y a tiempo.
Para el desarrollo de este proyecto, son muchas las áreas de la compañía implicadas, ya sea de manera directa debido a su función específica en la compañía (como puede ser directamente el área de negocio o el área de digitalización), o bien de manera transversal a través de mecanismos organizativos que potencian este tipo de proyectos de transformación. Adicionalmente, y por su carácter pionero en la compañía, se está contando con proveedores externos que permitan integrar las nuevas metodologías y habilidades propias de la transformación, en una compañía como Enagás que hasta hace poco no tenía vocación digital.
Desde el punto de vista puramente técnico, se ha trabajado con Ingeman, vinculada estrechamente con la Escuela Técnica de Sistemas de la Información dela Universidad de Sevilla, en la que se han desarrollado trabajos de Inteligencia Artificial y Minería de datos, ha trabajado en una Prueba de Concepto desarrollando un modelo de Redes neuronales artificiales para 3 bombas criogénicas de la planta de regasificación de GNL de Huelva.
Cabe destacar que a la dificultad de la exploración de este tipo de metodologías, se une que se está siguiendo una metodología Scrum, donde todo empieza en las personas pero incluyendo visión y acciones a nivel de equipo y organización.
DESARROLLO DE LA METODOLOGÍA
Si bien el primer modelo trabajado por Enagas con Ingeman fue directo al modelo de redes neuronales, en este segundo caso de uso se ha preferido hacer un estudio más general, permitiendo que fuera la herramienta informática de simulación (RapidMinner) la que haga una propuesta del mismo. Así pues seguimos los pasos genéricos para la obtención de un modelo a la hora de selección de equipos, periodos, variables... dejando el algoritmo de detalle como uno de los pasos de elección.
PASO 1: Selección de equipos
Si bien ya se había realizado en Enagás una primera aproximación a estas metodologías mediante el estudio de algoritmos en un tipo concreto de bombas, para este segundo caso de uso se han elegido las bombas secundarias, que si bien son el mismo “tipo de equipo”, su ubicación física, condicionantes de operación, y señales monitorizadas son significativamente diferentes.
En concreto se han escogido dos bombas de la planta de GNL ubicadas en la planta de GNL Barcelona (P-2003-A y P-2003-B) y una ubicada en la planta de GNL de Huelva (GA-115-I).
Estas bombas criogénicas disponen de un histórico de datos de operación y mantenimiento suficientemente grande que permite aprender y obtener un modelo de comportamiento del mismo. También se dispone de la información técnica de diseño de los equipos.
PASO 2: Contexto operacional
El contexto operacional de equipos semejantes puede variar y no ser completamente iguales, debido a la localización, altitud, entorno y otros parámetros operacionales. Por lo que es conveniente, elegir diferentes equipos que no tengan el mismo contexto operacional para obtener una mejor precisión en la obtención del modelo.
La información relativa a la operación de la planta y que pueden influir en el modo de operación de los equipos, es la siguiente:
- Lista de Cargas/descargas de buques
- Libro de turnos: Anotaciones del Jefe de turno
- Histórico de fallos y de mantenimiento: SAP PM (SGM)
- Sistema de información de planta (PI)
- Horómetros de bombas
- Datos técnicos de las bombas criogénicas
En cuanto a las condiciones ambientales exteriores, en este caso permanecen constantes al encontrarse los equipos sumergidos en condiciones criogénicas, por lo que no se tendrán en cuenta en este caso.
PASO 3: Selección de variables
Las variables deben ser históricos de operación, de mantenimiento, del proceso, así como de modificaciones en el contexto operacional que incidan en la operación y en el comportamiento del equipo. Inicialmente se van a introducir en el modelo todas aquellas variables que pueden tener algún tipo de relación con la salud del activo, si bien luego en el proceso de validación del modelo, se establecerán una serie de reglas para trabajar sólo con aquellas que realmente incidan en el resultado final.
Variables que se extraen del sistema de información de planta PI System (2007 –2018):
- Caudal.
- Presión.
- Intensidad.
- Potencia.
- Rendimiento.
- Temperaturas de aspiración e impulsión.
- Estado de la bomba (marcha y paro).
- Nivel del pote (al ser una bomba sumergida en GNL).
En cuanto al histórico de operación y mantenimiento de los equipos:
- Fecha de puesta en marcha.
- Horas de funcionamiento totales.
- Horas de funcionamiento desde el último gran mantenimiento.
- Horas que llevaba funcionando el equipo y fecha de los grandes mantenimientos.
- Avisos y órdenes en SGM desde su puesta en funcionamiento (2004 –2018).
- Grandes mantenimientos desde su puesta en funcionamiento.
- Anotaciones del jefe de turno de eventos que tienen lugar durante el proceso.
PASO 4: Selección del periodo temporal
Es recomendable elegir un periodo en el que se hayan dado todos los escenarios y casuísticas posibles, por ejemplo, que el sistema haya operado en diferentes modos de operación, que haya habido mantenimientos por overhaul, mantenimientos por correctivos, mantenimientos por preventivo, etc.
Para el estudio de cada una de las bombas, comprende desde la fecha de instalación y puesta en funcionamiento hasta la actualidad.
PASO 5: Selección del intervalo de registro de datos
Este intervalo de registro de datos tiene que permitirnos capturar con el detalle suficiente, el cambio en las variables para su interpretación y estudio, con el objetivo de entrenar fielmente a la red y poder identificar anomalías en el comportamiento del equipo.
En nuestro caso, se ha elegido la hora, debido a que hay suficiente información capturada por los sistemas de adquisición de datos e instrumentos para las bombas del estudio.
PASO 6: Procesado y validación de la información
Este es uno de los pasos más importantes y normalmente el que más tiempo puede consumir en la aplicación de la metodología.
Cuando la cantidad de datos extraídos de las diferentes fuentes es considerable, existen errores en la información que hay que depurar, para ello se requieren sistemas adecuados para tratarlos. Para la identificación de relaciones de valor-atributo que no son fácilmente identificables, se puede aplicar la minería de Reglas de Asociación (AR) (Buddhakulsomsiri et al., 2006).
La importancia de este paso es fundamental para conseguir unos resultados los más cercanos posibles a la realidad.
i. Unificación de las variables y la información auxiliar por equipos: Se recoge la información de los diferentes sistemas y se unen en una única base de datos.
ii. Revisar la consistencia de la base de datos: Es necesario revisar fechas incompletas, datos en blanco, duplicados, atípicos, erróneos o incompletos.
iii. Limpieza de la base de datos: Eliminar la existencia de ruido en los datos. Para ello es necesario la opinión experta de los técnicos y operadores, conocedores del sistema de control de la planta y las bombas.
Como ejemplo, en la siguiente tabla se muestran algunas de las consideraciones que se tuvieron en cuenta para la limpieza de datos:
iv. Estudiar la dependencia entre las variables de condición, operación e indirectas y seleccionar las variables más representativas:
Para ello, la aplicación con la que estamos realizando el estudio, nos general a matriz de covarianzas. En ella figuran los coeficientes de correlación que nos sirve para identificar la dependencia entre variables.
Tanto como para el modelo de la predicción de la potencia consumida como para la temperatura de impulsión, las variables candidatas a incluir son:
- Caudal puntual.
- Presión en la impulsión.
- Nivel del pote.
- Presión en la aspiración.
- Temperatura aspiración.
- Temperatura impulsión (Solo modelo potencia).
- Potencia (Solo modelo Temperaturas).
En la siguiente figura (Figura 3), se ordena de menor a mayor, la correlación de variables con la potencia puntual de la bomba, que es una opción de visualización adicional en RapidMiner.
Como en el caso de la matriz de correlación, también se aprecia la correlación del 100 entre potencia e intensidad, y como hay variables con una fuerte correlación (Presión y caudal) y otras con menos (N.º de arranques).
PASO 7: Modelado y comparación de metodologías de Machine learning
Una vez se han realizado las tres fases del preprocesamiento, se procede a la obtención del modelo y su entrenamiento. En este caso, se ha realizado una prueba previa para la comparación de diferentes algoritmos Machine Learning. Como se ha comentado previamente en el alcance, los diferentes algoritmos son las redes Generalized Linear Model (GLM), Deep Learning (DL), Árboles de decisión (DT), Modelos Lineales Generalizados (GLN), Random Forest (RF) y Gradient Boosted Tress (GBT). Para ello, se ha hecho uso de la herramienta de comparación integrada en RM, conocida como “Automodel”, que consiste en un módulo que solamente requiere de la siguiente información:
- Set de datos a analizar.
- Selección de variables a incluir en el modelo.
- Selección de la variable predicción.
- Selección de los KPIs para la comparación de modelos.
En el caso de las redes neuronales, es necesario construir un proceso en la parte de diseño, comentar en este punto, que el modelo más parecido a las redes neuronales es el modelo DL, siendo este una variante de las RN.
En la siguiente tabla (Tabla 3), aparecen los resultados de la comparativa “Automodel” de RM.
Como puede observarse, los mejores resultados se obtienen para los modelos Random Forest, DL, GBT y DT, y los modelos más rápidos en su ejecución son Generalized linear model y DT.
El modelo seleccionado para continuar con los estudios es el Deep Learning, en este caso, la variante original y más simplificada de Redes Neuronales, debido al equilibrio entre los buenos resultados y la velocidad de ejecución, su alta correlación y la facilidad de exportación e implementación a otros sistemas como el sistema integrado de control de planta como puede ser PI o Python.
Si bien no va a desarrollarse en detalle en la presente publicación, y una vez que la herramienta ha propuesto las redes neuronales como la metodología más adecuada, existe la posibilidad de analizar diferentes configuraciones para ver qué tipo de red es más conveniente (configuración de capas ocultas y neuronas en cada capa).
Lo que se hace es simular los resultados con diferentes configuraciones y analizar los errores. En nuestro caso y siempre que los errores sean admisibles, se va a optar por aquella que tenga una configuración, y por tanto una formulación exportable a otro sistema más simple.
PASO 8: Aplicación a casos de estudio y comparación de resultados
El objetivo de esta fase consiste en aplicar la red neuronal con la arquitectura (RN 7-5-1) a los casos de estudios seleccionados en el apartado 2.1. Con esto se pretende comparar el patrón de comportamiento deuna bomba en diferentes escenarios. Teóricamente los escenarios para equipos rotativos y que están en consonancia con el índice de salud de activos, son los siguientes:
- Escenario del equipo en pruebas o puesta en marcha tras nueva instalación o después de un overhaul (E0). Este escenario corresponde a las primeras horas de operación, desde una puesta en marcha, en las que se espera que el equipo haga un rodaje y ver cuál es su comportamiento. Este escenario depende de cada fabricante y equipo, en este caso se considera que son las primeras 200-300 horas de operación.
- Escenario del equipo como nuevo (E1). Este escenario corresponde a las primeras horas de operación del equipo tras un gran mantenimiento o nueva sustitución, correspondientes aproximadas al 20% de toda la vida útil del equipo, unas 3.500-4.000 primeras horas de operación.
- Escenario de operación normal del equipo (E2). Este escenario corresponde a la mayor parte de la vida útil del equipo, entre el 20% y el 80% del tiempo desde la puesta en marcha, es decir, entre las 4.000 y 16.000 horas de operación.
- Escenario de operación en el fin de vida útil (E3). Este escenario, corresponde al último periodo, desde el 80% de la vida útil hasta el siguiente gran mantenimiento.
- Escenario de operación antes de un fallo catastrófico (E4). Este escenario, menos usual en los equipos, corresponde aproximadamente al periodo antes del fallo, que dependerá de cada equipo y de cada modo de fallo. Con la idea de analizar el comportamiento, se usará una ventana temporal de 2000-3000 horas de operación previas al fallo como mínimo.
En la siguiente figura(Figura 4) se muestra una representación de la evolución temporal de las horas de operación de una bomba secundaria, los porcentajes de tiempo sobre el total de la vida útil, los diferentes períodos de tiempo y la identificación de los escenarios.
La identificación de escenarios también permite realizar un entrenamiento en un periodo de tiempo que es asociado a un comportamiento ideal de la bomba (E1), debido a que no ha transcurrido un tiempo, como para que se empiece a degradar la bomba de forma considerable. Esta consideración no aplica a bombas que pudieran tener defectos de diseño o una instalación inadecuada, puesto que el modelo construido aprendería de esas anomalías inherentes a sus primeras horas de operación. De este escenario (E1), también se aprovecha la información relativa a cuanto de lejos se encuentra el consumo o el rendimiento de la bomba, en un comportamiento ideal, con la idea de comparar esa situación en los diferentes escenarios, para asignar diferentes niveles de riesgo como se verá posteriormente.
PASO 9: Obtención de resultados para caso de uso seleccionado
Aplicando lo comentado con anterioridad a cada una de las bombas seleccionadas, se obtienen los siguientes resultados.
Para todos los casos, se genera una nueva variable Producción-error absoluto potencia (AE), que consiste en el cálculo para cada instante de tiempo de la diferencia en error absoluto entre la predicción de la potencia y el valor real de la potencia puntual. Esta variable nos dará una idea de cuanto de lejos o de cerca se encuentra el consumo de la bomba del consumo cuando si se encontrara en estado “como nuevo” correspondiente al que tendría en un escenario E1.
BOMBA SECUNDARIA P-2003-A
El estudio de la bomba se ha realizado en dos de los cuatro escenarios comentados anteriormente, en concreto, los escenarios E2 y E4. El entrenamiento se ha tenido que hacer con la información que había disponible, es decir, casi al final de la vida útil de la bomba. El escenario 4, correspondiente al periodo de operación antes del fallo, resulta ser justo después del gran mantenimiento y la instalación de un variador, por lo que el modelo obtenido podría no ajustarse bien. Aun así, en las figuras 5 y 6, se observa el comportamiento del AE antes y después de la instalación del variador
Se observa claramente como el error absoluto antes del gran mantenimiento tiene un comportamiento diferente que antes del fallo, acumulando el segundo de ellos, más minutos en valores de errores absolutos superiores, quedando reflejado en la gráfica de distribución del error absoluto. El valor medio del AE antes del gran mantenimiento es de 5,5 kW ± 4 kW con un máximo de 27,1 kW. El valor medio del AE antes del fallo es de 12,5 kW ± 12,9 kW con un máximo de 85,1 kW.
CONCLUSIONES
Es posible modelar el comportamiento de estos dispositivos y detectar anomalías en su funcionamiento por desviaciones de la predicción, lo que aporta un valor muy significativo, ya no sólo para evitar posibles fallos, sino para optimizar la operación y por tanto el ciclo de vida de los activos.
Las herramientas de simulación han evolucionado muchísimo, y por tanto cada vez es menos crítico el conocimiento de los modelos matemáticos, ya que es la propia tecnología la que es capaz de identificar patrones y proponer que algoritmo tiene los mejores resultados.
Esto nos permite explorar y trabajar sobre soluciones eminentemente prácticas, y centrarnos en la parte más técnica de la solución (gracias a los especialistas de las instalaciones) y que los procesos de simulación sean mucho más livianos. Además, dichas aplicaciones permiten que algunos de los pasos más duros del proceso (como la selección de las variables, la normalización de las mismas, la detección de errores en las señales de entrada...) se realicen de manera “automática”.
Así pues se consideran resultados suficientes para poder continuar, no sólo extrapolando esta metodología al resto del parque de bombas de Enagás, sino a otros activos que por su criticidad, o por su volumen y dispersión dentro de las infraestructuras, se pueda obtener una alta rentabilidad mediante su “normalización”.
No cabe duda de que la rentabilidad de la digitalización es difícil de medir con los “business case” habituales, especialmente en una empresa que no se dedica a la producción, sin embargo, cualquier gestor de infraestructuras que pretenda ser sostenible en el largo plazo no debe transformarse por rentabilidad, sino por supervivencia.