Fiabilidad | Mantenimiento

Soluciones cognitivas de IA en el edge para detección de fallos en equipos rotativos mediante el uso de imagen y audio

M.A. Rodríguez López; J. Atierda Trigueros; M. Godoy Míguez; F. Bermúdez Grau; J. Frauca Jiménez 6 de junio de 2024

4356

26 min. de lectura

Imagen del artículo Soluciones cognitivas de IA en el edge para detección de fallos en equipos rotativos mediante el uso de imagen y audio

Miguel Ángel Rodríguez López
Data Science & IA
Digital Hub de Acciona

Jorge Artieda Trigueros
Tecnología
Digital Hub de Acciona

Manuel Godoy Míguez
IoT
Digital Hub de Acciona

Francisco Bermúdez Grau
Data Science & IA
Digital Hub de Acciona

Javier Frauca Jiménez
IoT
Digital Hub de Acciona

RESUMEN

En los últimos años se ha avanzado enormemente en el mantenimiento prescriptivo/prescriptivo, pero cada día más, las nuevas técnicas de inteligencia artificial nos permiten desarrollar innovadoras soluciones para la detección temprana de fallos, de formas que hasta hace poco no podíamos ni imaginar. Con estas técnicas podemos conocer con muchísima antelación su condición, lo que nos permite alargar el ciclo de vida de los equipos y maximizar la rentabilidad de las instalaciones en general y de las de origen renovable en particular, ya que se reduce el impacto de las averías y las indisponibilidades de los equipos y con ellos se mejora la sostenibilidad.

Actualmente la IA, como el hardware genérico, se encuentra en un momento de gran madurez, lo cual la hace ampliamente accesible técnica y económicamente, tanto para soluciones Cloud como para soluciones Edge. Dentro de las soluciones de IA encontramos aquellas que emulan los procesos cognitivos del ser humano, como puede ser la visión artificial o el análisis de audio, lo que nos permite llevar soluciones de este tipo a entornos donde por motivos económicos, de seguridad o simplemente por espacio físico disponible no puede llegar un humano.

Desde el Digital Hub de Acciona SA, estamos desarrollando una serie de soluciones Hardware y Software para la detección temprana de fallos en equipos mediante el análisis de imagen y audio en dispositivos de Edge computing de muy bajo coste (con capacidad de captura de audio e imagen, así como con capacidad de almacenamiento y computo) colocados directamente en los equipos a monitorizar, lo que nos permite evaluar su condición con muy bajo coste y reduciendo el ancho de banda de las comunicaciones. Además, estos dispositivos, por su bajo coste, permiten hacer un despliegue masivo en diferentes equipos.

Una de las soluciones desarrolladas registra el espectro audible del ruido en el interior de equipos rotativos (como puede ser un aerogenerador o el cuarto de una turbina hidráulica) y mediante técnicas de procesamiento de audio e IA es capaz de detectar ruidos anómalos de un equipo. Otras soluciones incluyen microcámaras que monitorizan puntos estructurales críticos de los equipos, como pueden ser uniones atornilladas, soldadas o simplemente puntos que bien por cargas o por vibraciones son cruciales y en los que queremos detectar la aparición de una grita lo antes posible. Los dispositivos desarrollados permiten detectar grietas mediante el uso de visión artificial, generando una alarma de entrada al PLC.

1. INTRODUCCIÓN

Para entender el entono actual, en el que el IoT, el Edge Computing, las comunicaciones, el Cloud Computing y la democratización de la Inteligencia Artificial (IA), en el presente artículo hacemos una revisión de los principales avances que están permitiendo el desarrollo de soluciones cada vez más elaboradas y económicas.

1.1. El Internet de las Cosas (IoT).

Como todos ya conocemos, el Internet de las cosas (IoT) se refiere a la red de dispositivos físicos que están conectados a Internet y pueden recopilar, almacenar y compartir datos. Estos dispositivos pueden variar desde electrodomésticos y wearables, hasta sistemas industriales complejos. La idea básica detrás del IoT va desde interconectar objetos cotidianos hasta incrementar la sensorización de maquinaria para mejorar la eficiencia, la comodidad y la toma de decisiones con unos fines operativos o de mantenimiento específicos.

En este sentido, más que IoT podríamos definirlo como hipersensorización de los equipos y la capacidad de dotarles de capacidad de cómputo adicional (Edge computing que veremos más adelante).

La evolución del IoT ha sido impulsada por avances y abaratamiento en sensores, redes inalámbricas, análisis de datos y la computación en la nube. Estos avances han permitido la creación de aplicaciones IoT en una variedad de sectores, incluyendo salud, agricultura, manufactura, transporte y hogares inteligentes.

Actualmente los dispositivos están más interconectados que nunca. La tecnología 5G ha aumentado la velocidad y la confiabilidad de las conexiones, permitiendo una comunicación más rápida y eficiente entre dispositivos. Además, la inteligencia artificial y el aprendizaje automático se han integrado en muchas aplicaciones IoT para analizar grandes volúmenes de datos y proporcionar información valiosa.

La seguridad del IoT ha sido un área de enfoque constante debido a preocupaciones sobre la privacidad y la protección contra ciberataques. Las empresas y los desarrolladores están trabajando en protocolos de seguridad más sólidos para proteger los datos y garantizar la integridad de los dispositivos IoT.

1.2. Edge computing

Edge Computing es un paradigma informático que lleva el poder de procesamiento y almacenamiento de datos más cerca del lugar donde se generan los datos, es decir, en el "borde" de la red, en lugar de depender exclusivamente de centros de datos centralizados (como en el Cloud Computing). Esto implica que las tareas de procesamiento se realizan en dispositivos locales o en servidores cercanos al origen de los datos, en lugar de enviar todos los datos a un centro de datos remoto para su procesamiento.

Algunas de las principales ventajas del proceso de arquitecturas con Edge computing, es que al procesar datos localmente, se reduce significativamente la latencia, ya que las respuestas a las consultas se obtienen más rápidamente debido a la proximidad del procesamiento. Éste frente al Cloud Computing, donde los datos deben viajar hacia y desde un centro de datos remoto, lo que puede provocar demoras significativas, especialmente en aplicaciones que requieren respuestas rápidas.

Por otro lado, al procesar datos localmente, se reduce la necesidad de enviar grandes volúmenes de datos a través de la red, lo que ahorra ancho de banda y reduce la congestión de la red. En el Cloud Computing, enviar grandes cantidades de datos a través de la red puede consumir mucho ancho de banda, especialmente en aplicaciones que generan y transmiten datos continuamente.

En cuanto a privacidad y seguridad, en Edge Computing los datos se almacenan y procesan localmente, lo que puede aumentar la privacidad y la seguridad, ya que los datos sensibles no tienen que cruzar la red para su procesamiento. En Cloud Computing, almacenar datos en la nube implica confiar en medidas de seguridad en la infraestructura del proveedor de servicios en la nube, lo que puede plantear preocupaciones de privacidad para algunas aplicaciones y organizaciones.

Con soluciones en Edge Computing, al reducir la necesidad de enviar grandes cantidades de datos a través de la red y al aprovechar los recursos locales de manera eficiente, el Edge Computing puede llevar a ahorros significativos en los costos a largo plazo.

En resumen, el Edge Computing ofrece ventajas significativas en términos de latencia reducida, eficiencia de ancho de banda, privacidad y seguridad, disponibilidad del servicio y ahorro de costos a largo plazo, lo que lo convierte en una opción valiosa para aplicaciones y casos de uso que requieren respuestas rápidas y procesamiento cercano al origen de los datos.

La proliferación de dispositivos de muy bajo coste gracias a la electrónica de uso general, con capacidad de realizar conexiones remotas bien por 3G, Lora o similar, está acelerando el desarrollo de casos de usos rentables. Dispositivos como RPi (Raspberry Pi), ESP32 o Sipeed son un claro ejemplo de estos dispositivos, que con precios entre 3-15€ hasta 70€ permiten desarrollar un gran número de soluciones de analítica avanzada e incluso machine learning o Computer Vision.

Figura 1.- Dispositivos de IoT y Edge Computing. De arriba a abajo, una Raspberry PI, un Sipeed Maix BiT y el ESp32-CAM.

De los dispositivos de Edge Computing que han obtenido mayor popularidad son las Raspberry Pi, las cuales son computadoras de placa única (SBC, por sus siglas en inglés) pequeñas y asequibles que han ganado popularidad por su versatilidad y capacidad para fomentar la educación en ciencias de la computación y la creación de proyectos DIY. Estas placas están equipadas con un procesador, memoria, puertos USB, HDMI y GPIO, lo que las convierte en una plataforma ideal para aprender a programar, realizar experimentos y crear aplicaciones diversas.

Las RPi industriales son versiones especializadas y robustas, diseñadas específicamente para entornos industriales y aplicaciones comerciales, estas variantes ofrecen una mayor durabilidad y confiabilidad. Incorporan hardware resistente para soportar condiciones adversas, como temperaturas extremas y vibraciones, lo que las hace adecuadas para entornos industriales rigurosos.

Éstas capacidades de la RPi, permite desarrollar proyectos de IA en diferentes arquitecturas, la más común es en la que se utiliza la RPi como sistema de cómputo principal, la cual se conecta directamente a los PLC industriales o al Bus de campo y obtiene datos de los sensores gestionados por el PLC o bien a través de nuevos sensores de IoT conectados directamente a la RPi, bien a través de un puerto de I/O o bien conectados de forma inalámbrica, utilizando protocolos como MQTT o similares para la comunicación.

El dispositivo Sipeed Maix Bit en encuentra a medio camino entre una RPi y un ESP32, ya que dispone capacidad de cómputo suficiente para modelos de IA, pero está más limitado en otros aspectos, mie es un módulo de desarrollo compacto y potente que se centra en aplicaciones de inteligencia artificial (IA) y visión por computadora. Está basado en el procesador de visión Kendryte K210, que es un chip de doble núcleo RISC-V con capacidades de IA integradas. El dispositivo dispone de conectividad Wifi y BLE lo que le permite conectarse a redes locales o incluso a una RPi próxima. Su GPIO y conexión de LCD y entrada/salida de audio hacen que este dispositivo sea ideal para una gran multitud de casos de uso compartidos por una comunidad de desarrolladores [1], como reconocimiento de objetos, detección de Rostros, control de Robots, etc.

1.3. Sistemas cognitivos

Los sistemas cognitivos artificiales son sistemas de inteligencia artificial (IA) diseñados para replicar la capacidad cognitiva humana, como el aprendizaje, el razonamiento y la comprensión del lenguaje. Estos sistemas utilizan diversas técnicas de IA para lograr sus objetivos, incluyendo machine learning, procesamiento de lenguaje natural (NLP), Computer Vision y análisis de audio.

Hay varias técnicas matemáticas fundamentales detrás de los algoritmos que imitan procesos cognitivos, como las redes neuronales y otras técnicas de aprendizaje profundo.

Como pueden ser desde una simple regresión lineal, la cual es un método básico que se utiliza para predecir una variable continua basada en una o más variables independientes. Se basa en encontrar la mejor línea de ajuste que minimiza la diferencia entre las observaciones reales y las predicciones del modelo.

Pasando por los árboles de decisión, los cuales son estructuras de árbol que se utilizan para tomar decisiones basadas en múltiples condiciones. Cada nodo interno representa una característica, cada rama representa un resultado de la prueba y cada nodo hoja representa una decisión o un valor de salida.

Las redes neuronales artificiales, las cuales están inspiradas en la estructura del cerebro humano, y están constituidas por nodos (neuronas) interconectados en capas. Cada conexión entre las neuronas tiene un peso que se ajusta durante el entrenamiento. Las redes neuronales pueden aprender patrones complejos y se utilizan en una amplia gama de aplicaciones, desde reconocimiento de imágenes hasta procesamiento de lenguaje natural.

El aprendizaje profundo es una rama del machine learning que utiliza redes neuronales profundas con muchas capas (también conocidas como redes neuronales profundas). Las redes profundas pueden aprender representaciones jerárquicas de los datos, lo que les permite capturar características complejas y abstracciones. Las técnicas de aprendizaje profundo incluyen:

Redes Neuronales Convolucionales (CNN), que están especializadas en el procesamiento de datos de cuadrícula, como imágenes. Utilizan capas convolucionales para detectar patrones locales en las imágenes.

Redes Neuronales Recurrentes (RNN) utilizadas para para datos secuenciales, como texto o audio. Tienen conexiones cíclicas que les permiten mantener una memoria a largo plazo.

Y por último, una gran variedad de algoritmos de agrupamiento, como k- means, se utilizan para agrupar datos similares en grupos. Estos algoritmos encuentran patrones en los datos basados en la similitud entre las muestras.

La elección de la técnica adecuada depende del tipo de datos y del problema que se esté abordando. La combinación de estas técnicas y su aplicación adecuada en diferentes contextos ha llevado a avances significativos en el campo del aprendizaje automático y la inteligencia artificial.

2. DESCRIPCIÓN DE LAS SOLUCIONES COGNITIVAS OBJETO DE INVESTIGACIÓN EN ACCIONA

2.1. Computer Vision para detección de anomalías.

Computer Vision es una rama de la inteligencia artificial que capacita a las máquinas para interpretar y comprender el mundo visual. A través de algoritmos y modelos, esta tecnología permite a las máquinas "ver" y entender imágenes y videos, lo que abre un amplio abanico de aplicaciones en el ámbito industrial.

El uso de técnicas de Computer Vision en mantenimiento y fiabilidad industrial ofrece beneficios significativos, como la reducción de tiempos de inactividad, el aumento de la eficiencia operativa y la mejora de la seguridad en el lugar de trabajo. Además, el campo está en constante evolución, con avances en algoritmos de aprendizaje profundo y hardware especializado, lo que promete aplicaciones aún más sofisticadas y precisas en el futuro.

Las técnicas de Computer Vision permiten la automatización de inspecciones visuales. Los sistemas pueden detectar defectos o anomalías en equipos y componentes. Algunos de los casos en los que estamos trabajado en Acciona comprenden desde la detección de grietas en punto críticos o detección de corrosión o desgaste entro otros, pudiendo hacerse con mayor precisión y rapidez que las inspecciones humanas y en muchos casos mejorando los KPIs de Seguridad y Salud.

En Acciona estamos evaluando diferentes alternativas para poder desplegar soluciones que hasta ahora no eran económicamente rentables. El uso de estos dispositivos de bajo coste nos está permitiendo desplegar de forma masiva en los miles de aerogeneradores e infraestructuras de Acciona y de esta forma llegar a monitorizar equipos remotos como infraestructuras, aerogeneradores onshore y offshore, turbinas hidráulicas, y otra gran multitud de equipos.

Según el caso de uso, utilizamos soluciones cognitivas en Edge o bien en Cloud utilizando tanto algoritmos de visión por computación clásica, como modelos de aprendizaje automático o modelos canónicos pre entrenados.

2.1.1. Soluciones en el Edge

2.1.1.1. Detección de grietas o pérdida de par aplicado

Desde el equipo del Digital Hub de Acciona, se han identificado un gran número de puntos críticos en los que sería recomendable realizar una monitorización tanto en continuo o bien inspección de forma periódica de componentes susceptibles de sufrir la aparición de grietas debidas a esfuerzos o bien por vibraciones repetitivas. Algunos de estos puntos críticos pueden ser partes estructurales de los aerogeneradores como los collarines del eje principal, algunas partes de los bastidores de fundición o la torre, así como de las palas. Dado que Acciona también tiene infraestructuras civiles en mantenimiento, es conveniente monitorizar partes estructurales como columnas, bigas o túneles.

Las tecnologías de Computer Vision nos permiten detectar grietas tantos en equipos metálicos, plásticos u hormigones (entre otros). En las siguientes imágenes se muestra como un dispositivo Sipeed Maix Bit, con un algoritmo de computación clásica (procesamiento de imagen sin uso de machine learning) puede utilizarse para detectar la aparición de una grieta en un elemento estructural metálico.

Figura 2.- Ejemplo de detección de grieta en estructura metálica con un Sipeed Maix Bit y Computer Vision clásica

Dado que por suerte, este tipo de fallos no es muy frecuente, hemos tenido que validar la capacidad detectora de los algoritmos en laboratorio generando intencionadamente fallos en diferentes estructuras. En las imágenes anteriores, se muestra en al parte superior el elemento estructural antes y después de la ruptura. En la parte inferior se observa la imagen que captura el dispositivo. Éste se ha configurado para detectar grietas en cualquier superficie, de tal forma que cuando se inicializa, éste obtiene una imagen del equipo a monitorizar en estado sano (sin grieta) y a continuación comienza la monitorización, como se muestra en la imagen central donde aparece todo negro a excepción d algo de ruido. Cuando aparece la grieta, ésta se identifica, como aparece en la imagen de la derecha, y se enmarca con un recuadro en la imagen. En ese momento se genera una alarma que se manda por MQTT o similar a un dispositivo receptor.

Esta es una de las metodologías más sencillas y que menos recursos de menoría precisa para la detección de grietas.

Esta misma solución nos sirve para la detección de pérdida de par aplicado en tornillos. Generalmente cuando se aplica par, se realiza un marcado de la cabeza del tornillo, de tal forma que en caso de perder debido a que el tornillo se ha soltado ligeramente, la marca no queda alineada, siendo necesario aplicar nuevamente par, de lo contrario es posible que la unión corra peligro de rotura.

En a la siguiente imagen se muestra como el algoritmo detecta la pérdida de par. El desarrollo de este caso de uso es más sencillo que el de la detección de grietas, ya para el marcado pueden utilizarse marcadores con colores específicos, y mediante técnicas de Computer Vision pueden eliminarse el resto de la gama cromática de la imagen, manteniendo únicamente el propio del marcador. De esta forma si aparecen son rectas en la margen en lugar de una, será por la pérdida de par.

2.1.1.1. Digitalización de medidores analógicos

Otro ejemplo de la utilización de soluciones cognitivas para la detección fallos en equipos, es el de la digitalización de medidores analógicos como el de la siguiente imagen.

Figura 3.-Lectura de relojes analógicos y dígitos de un contador de agua.

Estas soluciones, nos están permitiendo no solo tener una medida en tiempo real del consumo energético, agua o gas en edificios gestionados por Acciona, si no además poder detectar fugas midiendo el nivel de presión en presostatos, o de nivel de llenado. Otro ejemplo en el que se está trabajado es el de la detección de fugas de gas SF6 en celdas, midiendo el nivel de llenado con un dispositivo Sipeed Maix Bit en el que además se ha incluido un algoritmo predictivo que estima el tiempo restante hasta que el nivel de llegando de gas sea crítico en función de la tendencia de pérdida de gas medida.

En el caso de la lectura de los contadores mostrado en la imagen anterior, se están combinando técnicas de Computer Vision clásica para la lectura de los indicadores analógicos rojos (las agujas inferiores) y modelos de aprendizaje automático para el reconocimiento de caracteres (modelos como el mnist, para la lectura de los dígitos de los recuadros amarillos) que utilizan redes neuronales convolucionales.

2.1.1. Soluciones de detección de anomalías en Cloud

Bajo la arquitectura Cloud estamos probando el uso de modelos fundacionales, multipropósito y multimodales que nos permitan detectar un gran número de anomalías diferentes bajo una misma arquitectura. Para ello, una vez recibida una imagen, se utiliza se utilizan los mismos modelos variando el prompt utilizado.

Por dar al lector una breve introducción a este tipo de modelos y su uso, mencionar que, en el ámbito de las operaciones y el mantenimiento de equipos, los modelos fundacionales, multipropósito y multimodales son herramientas avanzadas de inteligencia artificial que han transformado la forma en que gestionamos y optimizamos nuestros procesos industriales. A un nivel elevado, estos modelos son fundamentales que ya han sido entrenados con otros fines pero que pueden utilizarse para extraer insights (reconocer patrones) valiosos de datos complejos, especialmente en contextos que involucran texto, imágenes y audio.

Estos grandes modelos como puede ser GPT, Sergment Anything o Yolo8, se utilizan para tareas genéricas de procesado de lenguaje natural (PLN), segmentación de imagen o detección de objetos en imágenes. Generalmente no es necesario entrenarlo nuevamente, aunque permiten la opción de hacer un fine tunnign de los modelos para adaptarlos a tareas muy específicas.

Como se ha mencionado, la forma de interactuar con estos modelos (GPT4 o GPT-4V) es mediante el uso de prompts. "Prompting" en el contexto de modelos de lenguaje se refiere a la práctica de proporcionar instrucciones o consultas específicas para guiar la generación de texto por parte del modelo. Al ingresar un prompt, el usuario establece el tono, la dirección y el contenido que desea obtener en la respuesta generada. Esta técnica es esencial para interactuar efectivamente con modelos de inteligencia artificial, permitiendo ajustar y personalizar las salidas según las necesidades específicas, ya sea en la creación de contenido, la resolución de problemas o la obtención de información. La formulación precisa del prompt, junto con la consideración del contexto y otros parámetros, influye significativamente en la calidad y relevancia de las respuestas producidas por el modelo.

Para el despliegue de estas soluciones con el uso de grandes modelos pre- entrenados y genéricos, en lugar de optar por el despliegue de dispositivos con capacidad de computo en el Edge, como son RPi o el micro Sipeed, valoramos el despliegue de equipos de menor coste como el ESP32-CAM que permiten la captura de imágenes a un coste muy reducido. Dado el todavía elevado coste del uso de algunos de estos grandes modelos fundacionales más fiables, el ancho de banda necesario y los tiempos de latencia, esta arquitectura a día de hoy es recomendable para soluciones que no precisen monitorización en continuo y una respuesta inmediata.

Uno de los modelos más conocidos el GPT-4V de la empresa OpenIA. El 11 de octubre de 2023, Microsoft publicó el paper “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)”, donde presentaron las capacidades de su LMM (Large Multimodal Model). Este modelo permite procesar de forma conjunta textos e imagen pudiendo generar un gran numero de casos de uso diferentes solicitándole al modelo lo que deseamos con lenguaje natural.

Existen otros modelos de uso libre como LLaVa (Large Language-and-Vision Assistant, llava.hliu.cc). Se trata de un modelo multimodal grande entrenado de extremo a extremo que conecta un codificador de visión y un LLM para comprensión visual y lingüística de propósito general.

Como se ha visto en las imágenes anteriores, mediante el uso de lenguaje natural se le ha preguntado al modelo si es capaz de ver alguna grieta en la imagen. En la primera imagen indica que no ha detectado ninguna grieta, mientras que en el segunda ha indicado que “Sí, hay una grieta en la imagen. La grieta se encuentra en la parte superior de la tubería, que es de metal y está en ángulo.”. Vemos que no solo detecta la grieta si no que el modelo da una descripción detallada de lo encontrado, lo cual sugiere que puede utilizarse para otros casos de uso, como detección de fugas de aceite en imágenes o detección de fuego o llama en otras imágenes.

Estos modelos podrían utilizarse para detectar incendios en obras o incluso aerogeneradores, como se muestra en la siguiente imagen, en la que se ve como el modelo indica que si ve un incendio en el aerogenerador de la imagen.

Figura 4.- Ejemplo de uso del modelo LLaVa para la detección de un incendio en un aerogenerador (Fuente foto [2])

2.2. Análisis de audio para la detección de anomalías en máquinas rotativas.

En el campo del mantenimiento y la fiabilidad de sistemas industriales, el análisis de audio ha emergido como una herramienta esencial para la detección temprana de anomalías, especialmente en equipos rotativos. Al aprovechar técnicas avanzadas como espectrogramas y algoritmos de aprendizaje profundo como las Redes Neuronales Recurrentes (RNN) y las Redes Neuronales Convolucionales (CNN), podemos desentrañar los sonidos característicos emitidos por maquinaria en funcionamiento.

Esta capacidad nos permite monitorear de cerca equipos cruciales como motores, compresores y turbinas. Detectamos patrones sutiles que podrían indicar problemas, como rodamientos desgastados o desalineaciones. La aplicación inteligente de algoritmos de clustering, como k-means, nos permite discernir entre sonidos normales y anómalos, proporcionando una visión profunda del estado operativo de las máquinas.

En la práctica, esto se traduce en una transformación notable en nuestras operaciones diarias. Pasamos de un mantenimiento reactivo a uno predictivo y proactivo. La integración del análisis de audio en nuestro enfoque de Industria 4.0 significa que nuestras máquinas no solo nos dicen cuándo necesitan mantenimiento, sino que también nos indican qué tipo de mantenimiento requieren. Esto no solo optimiza la eficiencia operativa, sino que también reduce los costos, al evitar costosos tiempos de inactividad no planificados.

A pesar de los desafíos, como la variabilidad del ruido ambiente, nuestros científicos de datos se enfocan en perfeccionar estos métodos. Estamos explorando el potencial de algoritmos más sofisticados y técnicas de transferencia de aprendizaje para elevar aún más la precisión de nuestras detecciones. Nuestro objetivo es implementar sistemas de análisis de audio en tiempo real que nos brinden una monitorización continua y proactiva de nuestros equipos rotativos, asegurando así la fiabilidad y la eficiencia ininterrumpidas en nuestras operaciones industriales.

En la actualidad, el análisis de audio se ha convertido en una herramienta crucial para la detección temprana de anomalías en maquinaria industrial, con un enfoque especial en equipos rotativos. Este enfoque innovador se basa en el principio de que las máquinas emiten sonidos característicos que pueden revelar su estado de funcionamiento.

Por mencionar algunas de las técnicas más utilizadas:

Espectrogramas y Análisis de Frecuencia: Los espectrogramas son representaciones visuales del espectro de frecuencia de una señal de audio en función del tiempo. Al aplicar técnicas de procesamiento de señales, los ingenieros pueden identificar patrones específicos en los espectrogramas que indican problemas en los equipos rotativos, como desequilibrios o desgaste.
Redes Neuronales Recurrentes (RNN) y Redes Neuronales Convolucionales (CNN): Las RNN y CNN se utilizan para analizar secuencias temporales de audio y espectrogramas respectivamente. Estos modelos de aprendizaje profundo son capaces de capturar patrones complejos en los datos de audio, permitiendo una detección precisa de anomalías incluso en entornos ruidosos.
Técnicas de Aprendizaje No Supervisado: Algoritmos de clustering como k-means se aplican para agrupar sonidos similares, lo que facilita la identificación de patrones anómalos dentro de grandes conjuntos de datos de audio.

Aunque el análisis de audio para la detección de anomalías en maquinaria ha avanzado significativamente, existen desafíos como la variabilidad en el ruido ambiental y la necesidad de conjuntos de datos etiquetados para el entrenamiento de modelos. El futuro de esta tecnología incluye el desarrollo de algoritmos más sofisticados, la mejora de la precisión mediante técnicas de transferencia de aprendizaje y la implementación de sistemas en tiempo real para una monitorización continua y proactiva de los equipos rotativos en la industria.

En Acciona estamos investigando en el desarrollo de dispositivos de Edge Computing que permitan no solo capturar el audio de equipos rotativos, como pueden ser turbinas, generadores, etc. Para ello, mediante el uso de una RPi industrial y varios micrófonos y un módulo BLE para cada uno de ellos, estamos capturando el ruido en el interior de aerogeneradores para detectar los fallos. Algo que a priori parecía sencillo por los sonidos registrados con un aerogenerador en parada por mantenimiento y funcionamiento manual, se complica cuando el equipo está funcionando a régimen nominal ya que el ruido en el interior de un aerogenerador es muy elevado, siendo muy difícil aislar el origen del ruido de los diferentes equipos o incluso del exterior.

A continuación describimos brevemente algunas de las metodologías que estamos probando para la detección de fallos. Comenzamos realizado la transformada STFT de las muestras de audio.

La Transformada de Fourier de Tiempo Corto (STFT, por sus siglas en inglés) es una técnica utilizada en el procesamiento de señales para analizar cómo varía la frecuencia de una señal a lo largo del tiempo. En el contexto del audio, la STFT se utiliza comúnmente para entender las características frecuenciales de una señal de audio en función del tiempo, lo que es esencial para tareas como el análisis espectral y la representación visual del contenido de audio en un espectrograma. Se calcula siguiendo los siguientes pasos:

División en Segmentos de Tiempo: La señal de audio se divide en segmentos de tiempo solapados. Cada segmento se llama ventana y representa una pequeña porción de la señal en un intervalo de tiempo específico.
Aplicación de una Función de Ventana: A cada segmento de la señal se le aplica una función de ventana. La función de ventana atenúa gradualmente los valores en los extremos del segmento, reduciendo así las discontinuidades que pueden producirse al dividir la señal en segmentos.
Aplicación de la Transformada de Fourier: A cada segmento de señal (ventana) se le aplica la Transformada de Fourier para obtener su representación en el dominio de la frecuencia. Esto proporciona información sobre las frecuencias presentes en ese segmento específico.
Resultados a lo Largo del Tiempo: El proceso se repite para cada segmento a medida que avanza el tiempo, creando así una representación en dos dimensiones de cómo varían las frecuencias en función del tiempo.

La STFT es valiosa porque permite analizar cómo cambian las características de frecuencia de una señal a medida que progresa el tiempo, lo cual es crucial para entender eventos temporales en señales de audio, como cambios en tono, ritmo o contenido espectral. Las representaciones visuales resultantes, como los espectrogramas, son comúnmente utilizadas para análisis y procesamiento de audio en diversas aplicaciones, como música, procesamiento de voz y análisis de sonido ambiental.

Para detectar si hay o no aparición de anomalías, estamos explorando el uso del cálculo de kurtosis. La kurtosis es una medida estadística que describe la forma de la distribución de datos en relación con la distribución normal. Mientras que la media y la desviación estándar proporcionan información sobre la ubicación y la dispersión de los datos, la kurtosis se centra en la "pesadez de las colas" de la distribución. En términos sencillos, la kurtosis indica cuán "puntiaguda" o "aplana" es la distribución en comparación con una distribución normal.

En el contexto de la detección de sonidos anómalos en una señal de audio, la kurtosis puede ser utilizada de la siguiente manera:

Caracterización de la Distribución de Amplitudes: La kurtosis se calcula sobre las amplitudes de la señal de audio. Si la kurtosis es alta, la distribución de amplitudes tiende a tener colas más pesadas, indicando la presencia de eventos extremos.
Establecimiento de un Umbral: Un umbral de kurtosis se puede establecer considerando el comportamiento normal de la señal de audio. Se puede determinar empíricamente o a través de la observación del comportamiento estadístico de la señal en condiciones normales.
Detección de Anomalías: Durante el monitoreo en tiempo real, la kurtosis se calcula continuamente sobre ventanas de la señal de audio. Si la kurtosis calculada supera el umbral establecido, puede indicar la presencia de amplitudes inusualmente altas o eventos anómalos en la señal.
Generación de Alarmas o Acciones: Cuando se detecta una kurtosis significativamente alta en comparación con el umbral, se puede generar una alarma o activar un sistema para realizar acciones específicas, como notificar a un operador o iniciar un proceso de análisis más detallado.

Es importante destacar que la kurtosis no proporciona información sobre la naturaleza específica de la anomalía. Puede indicar eventos inusuales en términos de amplitud, pero no identifica la causa subyacente. Por lo tanto, la kurtosis a menudo se usa en combinación con otras técnicas de procesamiento de señales y aprendizaje automático como podrías ser un clasificador debidamente entrenado con suficientes casos del evento a detectar) para mejorar la detección de eventos anómalos en señales de audio. En los audios procesados obtuvimos una medida de kurtosis cercana a 0, lo que indica que el ruido tiene una distribución casi normal ene l interior del aerogenerador en marcha. Cuando el aerogenerador está parado la distribución está más concentrada y tenemos valores de kurtosis más elevados.

A partir del cálculo anterior se ve claramente el cambio de volumen la potencia del espectro pero no se ve a simple vista un criterio que distinga los que están bien de los que están rotos.

Va a ser necesario retirar una situación de normalidad y filtrar por frecuencias distintas.

filtrar todos los elementos y quedarnos solo con los que tienen como frecuencia central 14 y ecualizar el volumen según esa frecuencia central

la columna de la izquierda son micros Front y la derecha back. En rojo los que están bien y en azul los que están mal.

A continuación el mismo cálculo pero calculando el centroide de 1/8 del espectro en vez de ½

Wavelet:

En el contexto del procesamiento de señales, la transformada wavelet se utiliza para:

Compresión de Señales: La transformada wavelet se puede utilizar para comprimir señales de manera eficiente, eliminando componentes de baja energía o detalles finos que pueden no ser perceptibles o esenciales.
Descomposición Multiresolución: La transformada wavelet permite descomponer una señal en diferentes niveles de resolución, revelando detalles finos y estructuras a diferentes escalas. Esto es útil para analizar señales a diferentes niveles de detalle.
Denoising de Señales: La transformada wavelet se puede utilizar para eliminar el ruido de una señal, ya que permite separar las componentes de alta frecuencia (que a menudo representan el ruido) de las componentes de baja frecuencia (que representan la señal deseada).
Análisis de Frecuencia No Estacionaria: A diferencia de la Transformada de Fourier, que asume que una señal es estacionaria en el tiempo, la transformada wavelet es especialmente útil para analizar señales no estacionarias, donde las características de la señal pueden cambiar con el tiempo.
Detección de Cambios y Anomalías: La transformada wavelet puede utilizarse para detectar cambios y anomalías en una señal, ya que resalta las diferencias significativas en diferentes escalas de tiempo y frecuencia.
Caracterización de Eventos Transitorios: Se puede utilizar para identificar y caracterizar eventos transitorios en una señal, ya que la transformada wavelet destaca las discontinuidades y cambios abruptos en la señal.
Procesamiento de Imágenes: Además del procesamiento de señales unidimensionales, la transformada wavelet también se aplica a imágenes para realizar análisis multirresolución y compresión de imágenes.

En el contexto específico de procesamiento de audio, la transformada wavelet puede ser utilizada para análisis de características temporales y frecuenciales de manera más adaptativa que otras técnicas, permitiendo un enfoque más flexible y eficiente en función de las características particulares de la señal de audio.

3. CONCLUSIONES

La convergencia de la inteligencia artificial y el mantenimiento prescriptivo ha revolucionado la detección temprana de fallos en equipos industriales. Las soluciones innovadoras, como el análisis de imagen y audio en dispositivos Edge de bajo costo, permiten una anticipación sin precedentes a posibles problemas, extendiendo el ciclo de vida de los activos y maximizando la rentabilidad. La madurez técnica y económica de la IA, junto con el enfoque de Acciona SA en soluciones prácticas para la monitorización, señala un futuro prometedor para la eficiencia operativa y la sostenibilidad en la gestión de activos.

Tanto las soluciones Edge, como Cloud mostradas están dando resultados prometedores y es de esperar que en los próximos meses, puedan desarrollarse una gran variedad de casos de uso entorno al uso de la Inteligencia Artificial.

REFERENCIAS

[1]. https://maixhub.com/welcome

[2]. Segundo aerogenerador que se calcina en la comarca en menos de 48 horas - Sucesos Ferrol - COPE

Soluciones cognitivas de IA en el edge para detección de fallos en equipos rotativos mediante el uso de imagen y audio

RESUMEN

1. INTRODUCCIÓN

1.1. El Internet de las Cosas (IoT).

1.2. Edge computing

1.3. Sistemas cognitivos

2. DESCRIPCIÓN DE LAS SOLUCIONES COGNITIVAS OBJETO DE INVESTIGACIÓN EN ACCIONA

2.1. Computer Vision para detección de anomalías.

2.1.1. Soluciones en el Edge

2.1.1.1. Detección de grietas o pérdida de par aplicado

2.1.1.1. Digitalización de medidores analógicos

2.1.1. Soluciones de detección de anomalías en Cloud

2.2. Análisis de audio para la detección de anomalías en máquinas rotativas.

3. CONCLUSIONES

REFERENCIAS

Deja tu comentario

Síguenos en las redes

No te pierdas ningún evento

Patrocinadores

Soluciones cognitivas de IA en el edge para detección de fallos en equipos rotativos mediante el uso de imagen y audio

RESUMEN

1. INTRODUCCIÓN

1.1. El Internet de las Cosas (IoT).

1.2. Edge computing

1.3. Sistemas cognitivos

2. DESCRIPCIÓN DE LAS SOLUCIONES COGNITIVAS OBJETO DE INVESTIGACIÓN EN ACCIONA

2.1. Computer Vision para detección de anomalías.

2.1.1. Soluciones en el Edge

2.1.1.1. Detección de grietas o pérdida de par aplicado

2.1.1.1. Digitalización de medidores analógicos

2.1.1. Soluciones de detección de anomalías en Cloud

2.2. Análisis de audio para la detección de anomalías en máquinas rotativas.

3. CONCLUSIONES

REFERENCIAS

Deja tu comentario

Síguenos en las redes

No te pierdas ningún evento

Patrocinadores

Su privacidad es importante para nosotros