Plataforma universal Elliot & Reliability of Things® para mantenimiento predictivo y caracterización de fiabilidad de equipos.
Miguel Ángel Rodríguez López
CEO & Founder, Foggify.
Oscar Ruíz Chicote
CEO & Partner, Elliot Cloud SL.
1. INTRODUCCIÓN
La Industria 4.0 es una realidad y empiezan a aparecer multitud de soluciones de digitalización de procesos, y en especial aplicaciones para el mantenimiento predictivo basado en BigData. Sin embargo, no hay una solución que se haya posicionado como referente. El principal problema que hemos identificado es la falta de uniformidad de algoritmos de evaluación que impide la generación de bases de datos globales con datos comparables entre sí, que permitan realizar la caracterización estadística de la fiabilidad de los equipos.
Se ha desarrollado una novedosa tecnología para la de detección temprana de fallos en equipos industriales mediante la utilización de técnicas de Inteligencia Artificial (IA) bajo el nombre de Reliability of Things® (en formato API y Edge computing). Invocando a la API, se evalúa el nivel de degradación de cualquier equipo que se monitoriza en la plataforma IoT. Este algoritmo universal, realiza un modelo de comportamiento normal de los equipos (motores, bombas, consumos eléctricos, …) y posteriormente se calcula la degradación de cualquier componente, detectando fallos con mucha antelación, permitiendo además la identificación de la causa raíz y la evaluación de las actuaciones de mantenimiento.
El sistema genera alarmas individuales para cada componente monitorizado, pero el objetivo de la plataforma es más ambicioso, ya que se genera una base de datos de conocimiento global para la obtención de indicadores de fiabilidad de equipos. Cuando un nuevo equipo se conecta a la plataforma, se identifica el tipo de equipo del que se trata (motor, bomba, generador, etc.), el fabricante, el modelo, si es nuevo, reparado o lleva tiempo en funcionamiento (de cara a censurar o no los datos estadísticos) antes de ser conectado en la plataforma, y otra serie de parámetros que sirven para realizar una correcta caracterización de la población.
Cuando un equipo falla, el valor de degradación evaluado hasta ese momento, pasa a formar parte de la base de datos de fiabilidad, generándose un nuevo ajuste Weibull que caracteriza al componente. Esta base de datos de fiabilidad será utilizada para evaluar la probabilidad de fallo de cada equipo conectado en la plataforma de Elliot Cloud, es decir, todos los integrantes se benefician de las tasas de fallo de otros usuarios, convirtiéndose en una comunidad que ceden de forma anónima la información de los fallos en sus equipos.
2. PLATAFORMA ELLIOT_CLOUD & RELIABILITY OF THINGS®.
La plataforma de IoT de Elliot_Cloud es la arquitectura perfecta para combinar las soluciones Reliability of Things® de foggify, ya que permite la integración de PLCs, sistemas de Edge Computing y sensores IoT con los entornos Cloud, lo cual nos permite explotar todas las técnicas de fiabilidad y de inteligencia artificial para la detección de malfuncionamientos en cualquier equipo industrial. En la plataforma se combinan las últimas técnicas de mantenimiento basado en la condición (CBM), con otras más clásicas de mantenimiento basado en fiabilidad (RCM). Para ello se utiliza de forma combinada diferentes tipos de datos, (1) datos de operación, (2) alarmas, (3) órdenes de trabajo y (4) el histórico de activos.
Cuando un usuario da de alta un activo en la plataforma, dispone de una serie de menús de alta de activos donde puede registrar el fabricante del activo, el modelo y el tipo de activo entre otra serie de campos. También se dispone de la opción de dar de alta una serie de activos de forma masiva.
Cuando un activo se da de alta en la plataforma, inmediatamente todas sus variables de operación empiezan a ser registradas. Si el usuario está suscrito al servicio de Reliability of Things® dispone de la opción de monitorizar la condición de cada uno sus componentes, para ello la plataforma le da en cada momento dos indicadores:
- Indicador de malfuncionamiento, el cual analiza si el equipo se comporta conforme a su comportamiento previo en un periodo sin fallos.
- Indicador de probabilidad de fallo, el cual estima la probabilidad de fallo del equipo basándonos en el histórico de fallos de equipos similares. Esta probabilidad se calcula:
- A partir de históricos de fallos de equipos del cliente.
- A partir de históricos de datos de equipos similares registrados en una base de datos global y anónima de todos los clientes de la plataforma.
a. Módulo digital clone e indicadores de evaluación de la condición.
Para la realización de los modelos de comportamiento normal se utilizan de algoritmos de machine learning (redes neuronales, SVM, etc.). En la plataforma se realizan de forma automática los modelos de comportamiento normal y se dispone de una gran variedad de indicadores que evalúan las degradaciones de evolución rápida, media y larga, lo cual permite ajustar las intervenciones de mantenimiento preventivo.
Se crean tantos sistemas monitorizados como el usuario necesite. Además, se podrán crear para cada sistema monitorizado diferentes indicadores, pudiendo ser cada uno de ellos para detectar un modo de fallo diferente.
Para cada una de las máquinas conectadas a la red, se monitoriza la evolución en el tiempo de las diferentes señales de operación, la simulación del comportamiento normal que debería tener la máquina, según los algoritmos diseñados, así como también el estado de salud de cada una de las máquinas, conjuntamente con una serie de alarmas (como alta probabilidad de fallo, falta de datos, etc.), alarmas registradas en los PLCs y las órdenes de trabajo asociadas a dicho activo.
Los usuarios podrán detectar malfuncionamientos con suficiente antelación para evitar daños mayores y adaptar el alcance de sus intervenciones preventivas. Además de detectar, se podrá identificar fácilmente el origen del cambio de comportamiento, facilitando de esta forma el análisis de la causa raíz. Finalmente, también se utilizan los indicadores para evaluar las intervenciones de mantenimiento, de tal forma que si un indicador no recupera valores normales después de la intervención será porque la intervención ha sido realizada de forma incorrecta o no se ha reparado la cusa del malfuncionamiento.
En la figura 2, las líneas verticales representan las ordenes de trabajo realizadas en el equipo monitorizado (es decir las intervenciones de mantenimiento realizadas en el equipo). Se observa cómo el indicador es estable y no da falsos positivos, pero llega un momento en el que el comportamiento del equipo cambia y el indicador supera los límites de aviso y alarma. Sin embargo, no se realiza ninguna intervención hasta dos meses después, cuando la degradación ha llegado a ser tan evidente que planifican una inspección. Tras la inspección deciden realizar una tarea de mantenimiento, sinembargo el indicador sigue presentando valores elevados, esto es debido a que en la intervención no se ha restaurado el comportamiento normal del equipo (o bien no se reparó correctamente o no se dio con la causa raíz). Por último, se realizó una nueva tarea de mantenimiento que sí restauró el funcionamiento normal del equipo, volviendo el indicador a valores dentro de los límites de normalidad. Por tanto, los indicadores, no solo han detectado el fallo, si no que han ayudado a evaluar el mantenimiento.
Por último, el indicador sirve para identificar el origen del mal funcionamiento, viendo en la gráfica el momento del cambio del comportamiento normal, se ve que se da inmediatamente después de una intervención de mantenimiento de preventivo, es decir una tarea preventiva mal ejecutada terminó por llevar al fallo al equipo que estaba funcionando correctamente.
b. Módulo de fiabilidad de equipos.
La plataforma incluye además indicadores de probabilidad de fallo. Para el cálculo de dichos indicadores se acumula para cada equipo varios parámetros para realizar su caracterización:
- Tiempo hasta el fallo, como diferencia en la fecha de instalación y la fecha de retira del activo.
- Tiempo operativo hasta el fallo, calculado como el tiempo que ha estado en funcionamiento el equipo desde la fecha de instalación hasta su retirada.
- Valores acumulados de todas las variables operativas hasta el fallo, como por ejemplo revoluciones acumuladas hasta el fallo, consumo eléctrico hasta el fallo, etc.
- Por último, también se acumulan todos los sobre esfuerzos presentados a lo largo de su histórico hasta el fallo. Este sobreesfuerzo se calcula a partir de los indicadores antes descritos, los cuales comparan el comportamiento normal esperado con el comportamiento real.
Con todos estos parámetros, se calculan diferentes ajustes Weibull que caracterizan a los equipos. Cuando un cliente da de baja un activo, se le pregunta si el equipo ha sido sustituido por un fallo en el mismo o si ha sido sustituido por otros motivos. En caso de no haber fallado el equipo, el dato será censurado en la base de datos, de lo contrario será un dato completo. Cuando se retira el activo también se pregunta al cliente el modo de fallo del mismo (como dato opcional).
Con las curvas Weibull, se generan indicadores probabilísticos (f(t), F(t) y h(t)), de tal forma que, para los nuevos equipos en funcionamiento, en función de su degradación en cada momento tendrá una probabilidad de fallo asociada.
c. Ejemplo de detección con los indicadores.
En la Figura 3 se muestra un ejemplo de detección de fallo en una motobomba. En la parte superior se muestra la temperatura del equipo, a lo largo del tiempo (en color verde) y la temperatura que debería tener el equipo (en color amarillo) en función de las condiciones operativas en ese momento (revoluciones, temperatura ambiente, consumo, etc.). Las dos imágenes superiores corresponden a un zoom en periodos de tiempo diferentes, la imagen de la izquierda corresponde con un periodo en el que el equipo no presentaba degradación, por ello, la temperatura del equipo es prácticamente similar a la simulada por el modelo. En la imagen de la derecha se muestra un periodo posterior en el que el equipo se ha degradado y está registrando temperaturas más elevadas que las simuladas por el modelo.
En la Figura 3, las gráficas de la parte inferior representan la evolución de los citados indicadores, el de detección de malfuncionamiento basado en el gemelo digital y la probabilidad de fallo del equipo monitorizado. Se observa como el indicador de detección (gráfica 2 por la parte inferior), detecta malfuncionamiento de evolución rápida (recuadro verde), así como degradaciones de evolución lenta. La degradación de evolución lenta se identifica por la pendiente creciente del indicador a lo largo de varios años.
En la parte inferior se encuentra el indicador de probabilidad de fallo del equipo, se observa como poco a poco a lo largo del tiempo la probabilidad del equipo va incrementándose, acelerándose su degradación en el último periodo. En el caso del equipo mostrado, terminó fallando cuando su probabilidad de fallo era del 75%. Al tratarse de un indicador probabilístico, hay que tener en cuenta que un equipo puede fallar cuando su probabilidad de fallo es del 20% o bien cuando ha llegado al 90%. El usuario deberá ajustar si estrategia de mantenimiento en función de la criticidad del equipo, su capacidad de mantenibilidad o incluso de si dispone o no de equipos de respaldo que no produzcan indisponibilidad en planta.
3. BIBLIOGRAFÍA
- Rodríguez-López, MA, A method for smart systems for detecting malfunctions in equipment. Application to wind turbines, Ph.D. Thesis (Directors: L.M. López-González, L.M. López-Ochoa), Universidad de La Rioja (Spain), Logroño, 2015.
- Rodríguez-López MA, López-González LM, López-Ochoa LM, Las-Heras-Casas J. Development of indicators for the detection of equipment malfunctions and degradation estimation based on digital signals (alarms and events) from operation SCADA. Renew Energy 2016;99:224–36. doi:10.1016/j.renene.2016.06.056.
- Rodríguez-López MA, López-Gonzalez LM, López-Ochoa LM, Las-Heras-Casas. Methodology for Detecting Malfunctions and Evaluating the Maintenace Effectiveness in Wind Turbine Generator Bearings Using Generic versus Specific Models from SCADA Data. Energies 2018;11(4) doi:10.3390/en11040746.
- Gil A, Sanz-Bobi MA, Rodríguez-López MA. Behavior Anomaly Indicators Based on Reference Patterns – Application to the Gearbox and Electrical Generator of a Wind Turbine. Energies 2018;11(1), doi:10.3390/en11010087.