Fiabilidad | Mantenimiento

Fiabilidad y Mantenimiento en el diseño del hosting para GSMC

Gonzalo Santamaría Freire 31 de mayo de 2022

3960

12 min. de lectura

Imagen del artículo Fiabilidad y Mantenimiento en el diseño del hosting para GSMC

Elektra - ESPECIALISTAS EN DISTRIBUCIÓN DE MATERIAL ELÉCTRICO

Gonzalo Santamaría Freire

Manager of Maintenance and Logistic Support Area, ISDEFE.

1. CONTEXTO

Galileo es el Sistema Global de Navegación por Satélite (GNSS) de la Unión Europea, un sistema bajo control civil que ofrecerá servicios de posicionamiento garantizados y de alta precisión. La señal de Galileo es compatible con las de GPS Americano (Global Positioning System) y GLONASS Ruso (Global'naya Navigatsionnaya Sputnikovaya Sistema), los dos sistemas GNSS operativos en la actualidad.

El Centro de Monitorización de la Seguridad de Galileo (GSMC – Galileo Security Monitoring Centre), situado en las instalaciones del INTA en La Marañosa (Madrid, España) y en Paris (Francia), es la parte integrante del GALILEO que realiza las siguientes misiones:

Monitorizar la seguridad de Galileo: supervisa y toma medidas en relación con las amenazas a la seguridad, las alertas de seguridad y el estado operativo de los componentes de los sistemas
Gestionar el acceso al Servicio Público Regulado (PRS) a nivel de sistema: garantiza que la información confidencial relativa al uso del PRS se gestione y proteja adecuadamente
Aplicar las instrucciones de "acción conjunta" en caso de amenaza para la seguridad de la Unión Europea o de un Estado miembro derivada del funcionamiento o de la utilización del sistema
Proporcionar conocimientos y análisis de seguridad de PRS y Galileo

NOTA: Los datos mostrados en este documento son de difusión libre. Sin embargo, lamentablemente, por motivos de confidencialidad, mucha de la información utilizada para la elaboración de estos análisis (Planos y esquemas de diseño, tasas de fallo, etc.) no puede ser publicada.

2. OBJETIVOS

Debido a la criticidad de las actividades a realizar en las instalaciones del GSMC, los requisitos de diseño necesarios son tremendamente exigentes, siendo el nivel de servicio requerido del 99,9999%. Es decir, la disponibilidad de todos los servicios asociados a las Operaciones que se desarrollan en el Centro no pueden ser inferiores a dicha disponibilidad.

Además, el presupuesto destinado al mismo está fijado desde el principio y no puede ser superado mediante ampliaciones.

3. CONFIGURACIÓN

Para dar servicio a todo el equipamiento HW y SW del que se compone el GSMC, se ha diseñado una infraestructura que ha sido organizada de acuerdo al siguiente árbol de configuración:

Sistema Eléctrico: Es el encargado de garantizar el suministro de electricidad al Centro. Se compone de subsistemas como son Transformadores, Generadores, Baterías de Respaldo (UPS) y cableado.

Sistema de HVAC (Heating, Ventilation and Air Conditioning): Es el encargado de garantizar las condiciones internas de temperatura y humedad óptimas para el correcto funcionamiento del Centro. Se compone principalmente de equipos de alta precisión de calor y frío.

Sistema de Seguridad: Es el encargado de garantizar la seguridad del personal y de los equipos instalados en el Centro. Se compone de subsistemas como son el CCTV, anti-intrusión, control de accesos o contraincendios.

Sistema de Comunicaciones: Es el encargado de garantizar la conectividad del Centro. Se compone principalmente de equipos de comunicaciones, conectores y cableado estructurado.

En el siguiente esquema, se puede apreciar el árbol de configuración definido, en el cual se han unificado por motivos de integración la parte de cable estructurado y equipos de comunicaciones.

*Fig 1. Árbol de Configuración del GSMC*

4. METODOLOGÍA

Como se ha podido comprobar en el apartado anterior, el GSMC es un sistema complejo, es decir, un sistema de sistemas. Además, se trata de un Centro sin construir, con lo que los estudios que se deben realizar para garantizar la disponibilidad del mismo, deben hacerse en paralelo a su diseño y construcción. Esto se consigue mediante la aplicación de técnicas de ingeniería de sistemas, concretamente con las herramientas de Apoyo Logístico Integrado (ALI) comúnmente conocidas como ILS (Integrated Logistic Support).

Además, como en todo proyecto, existe limitaciones y restricciones económicas, lo cual hace aún más necesario el empleo de estas metodologías y herramientas de ingeniería, para conseguir el equilibrio deseado entre los tres indicadores por excelencia del mantenimiento: Disponibilidad, Fiabilidad y Coste.

Así pues, una vez que se han fijado los requisitos de Disponibilidad (contractual) y el Coste (presupuestario), solo resulta posible trabajar con la variable fiabilidad. Para ello, la integración de los equipos de diseño y de mantenimiento ha sido fundamental.

Para garantizar que el Centro cumple con los requisitos de disponibilidad exigidos, se han realizado el correspondiente Análisis FMECA (Failure Mode, Effects and Criticality Analysis), dentro del proceso de ILS mencionado anteriormente. En ambos casos la normativa de referencia aplicada ha sido la basada en diferentes MIL STD.

En primer lugar, y alineado con el árbol de configuración descrito, se han definido unos diagramas de bloques de fiabilidad (RBD – Reliability Based Diagram), de modo que se pueda hacer una predicción general de la fiabilidad del sistema completo a partir de la observación de la fiabilidad de cada uno de ellos.

Para construir un diagrama de bloques de fiabilidad, se debe determinar la configuración de fiabilidad de los componentes. Por consiguiente, el método de análisis utilizado para calcular la fiabilidad de un sistema dependerá también de la configuración de fiabilidad de los componentes/subsistemas. Esa configuración puede ser muy simple, como las unidades dispuestas en una configuración pura, en serie o en paralelo, o incrementar dicha complejidad mediante sistemas de configuraciones combinadas, serie/paralelo o sistemas complejos que no pueden descomponerse en grupos de configuraciones serie y paralelas.

Una vez analizados los resultados de los RBD definidos (Eléctrico, HVAC, Seguridad y Comunicaciones), se ha concluido que no es posible reducir todo el Sistema a un cálculo de tasas de fallo en serie y en paralelo, ya que en este caso se trata de un sistema demasiado complejo y con múltiples interacciones entre sistemas críticos.

A la vista de este primer resultado, los diagramas RBD plantean 3 posibles soluciones para resolver sistemas complejos:

Método de descomposición
Método de trazado de rutas
Método del espacio de eventos

El Método de Descomposición es una aplicación de la ley de la probabilidad total. Se trata de elegir un componente clave y calcular la fiabilidad del sistema dos veces: una como si el componente clave hubiera fallado y otra como si el componente clave no hubiera fallado. Estas dos probabilidades se combinan para obtener la fiabilidad del sistema, ya que en un momento dado el componente clave fallará u operará. En nuestro caso, tenemos varios elementos clave y combinados entre sí. Como por ejemplo las HVAC que son clave y dependen de que el sistema eléctrico que las alimenta no falle, y al mismo tiempo la alimentación eléctrica del rack tampoco puede fallar.

El Método de trazado rutas, considera cada ruta desde un punto de inicio hasta un punto final. Es necesario que al menos una ruta esté operativa de extremo a extremo, de manera que, si un componente del sistema falla, el sistema no funciona (como si la corriente no pudiera fluir). Este método consiste en identificar todos los caminos por los que la “corriente" podría circular y calcular la fiabilidad del camino basándose en los componentes que se encuentran a lo largo de ese camino. La fiabilidad del sistema es simplemente la probabilidad de la unión de estos caminos. Para mantener la coherencia del análisis, deben definirse los bloques inicial y final del sistema. En nuestro caso este método no es válido, ya que se necesita que al menos un camino alimente a los racks, y al mismo tiempo, que al menos un camino alimente los HVAC. Es como si tuviéramos 2 rutas críticas dentro del mismo sistema, y cada ruta crítica con sus rutas alternativas. Este método no permite ese cálculo.

El método del espacio de eventos es una aplicación del axioma de los eventos mutuamente excluyentes. Se determinan todos los eventos que se excluyen mutuamente y se consideran los que resultan en el éxito del sistema. La fiabilidad del sistema es simplemente la probabilidad de la unión de todos los eventos mutuamente excluyentes que producen el éxito del sistema. Del mismo modo, la falta de fiabilidad es la probabilidad de la unión de todos los eventos mutuamente excluyentes que dan lugar a un fallo del sistema.

Dicho de otro modo, se analizan las combinaciones de fallos de los subsistemas que hacen que el sistema falle. A cada combinación se le llama evento y se calcula la probabilidad de que suceda ese evento. A continuación, se suman las probabilidades de esos eventos, y dará como resultado la probabilidad de que el sistema en su conjunto falle. La posibilidad de que el sistema no falle, es decir, la fiabilidad de todo el sistema corresponde a su complementario. Después de analizar los tres métodos anteriores, llegamos a la conclusión de que el más adecuado para nuestro sistema objeto de este estudio es este último, ya que los dos primeros tienen las limitaciones anteriormente explicadas.

A partir de aquí, para calcular la disponibilidad del sistema, se deberá tener en cuenta el tiempo máximo que se tardará en reparar el sistema cuando falle (MTTR).

Cuando hablamos de Disponibilidad, la expresión general es la siguiente:

Siendo MTBF = 1/ ʎ; donde ʎ = tasa de fallo

Es decir, tiempo que el sistema está funcionando, entre el tiempo en el que no lo está haciendo.

Sin embargo, de cara a los diferentes análisis, esta expresión general se puede modificar dando lugar a diferentes alternativas:

Disponibilidad inherente (Ai)

La probabilidad de que un ítem opere satisfactoriamente en un momento dado cuando se usa bajo las condiciones establecidas. en un entorno de apoyo ideal. Excluye el tiempo de logística, de espera o administrativo y de mantenimiento preventivo. Incluye tiempo de inactividad para el mantenimiento correctivo.

La disponibilidad inherente se deriva generalmente del análisis de un diseño de ingeniería y se calcula como el tiempo medio hasta el fallo (MTBF) dividido por el tiempo medio hasta el fallo más el tiempo medio hasta la reparación (MTTR).

Cuando se produce un fallo en un sistema, el punto es la rapidez con la que se puede recuperar el sistema. En ese caso, la consideración más importante es volver a poner en marcha los procesos fallidos lo más rápido posible.

Disponibilidad lograda (Aa)

La probabilidad de que un artículo funcione satisfactoriamente en un momento dado, cuando se utiliza en las condiciones establecidas en un entorno de soporte ideal. Es decir, que todos los medios necesarios para realizar las tareas de mantenimiento (personal, herramientas, piezas de repuesto, etc.) estén disponibles de forma instantánea. Excluye los tiempos de retraso logísticos y el tiempo de espera o de inactividad administrativa. Incluye paradas de mantenimiento preventivo y correctivo.

Disponibilidad operativa (Ao)

La probabilidad de que un artículo funcione satisfactoriamente en un momento dado cuando se utiliza en un entorno operativo y de apoyo real o realista. Incluye los tiempos de retraso logísticos, el tiempo de preparación y el tiempo de espera o de inactividad administrativa, así como el tiempo de inactividad de mantenimiento preventivo y correctivo.

Este valor es igual al tiempo medio entre fallos (MTBF) dividido por la suma del tiempo medio entre fallos y el tiempo medio de inactividad (MDT). Esta medida amplía la definición de disponibilidad a los elementos controlados por los encargados de la logística y la planificación de las operaciones, como la cantidad y la proximidad de piezas de repuesto, herramientas y mano de obra al elemento de hardware.

Siendo

OT = Tiempo de empleo por año natural

TPM = Tiempo total de mantenimiento preventivo TCM = Tiempo total de mantenimiento correctivo

ALDT = retraso administrativo y logístico, tiempo de espera para las piezas, el personal de mantenimiento o el transporte

En el caso del GSMC, esta última expresión es la que resulta más adecuada, ya que se debe de garantizar un nivel de servicio del sistema del 99,9999%, o lo que es lo mismo, el nivel de servicio es equivalente a la disponibilidad operativa.

Una vez que quede garantizada la fiabilidad del sistema, se continúa con el análisis FMECA completo, caracterizando la Detectabilidad, Severidad y Criticidad de cada uno de los fallos, ya que estos parámetros, junto con la probabilidad de ocurrencia de los mismos (fiabilidad), darán lugar al plan de mantenimiento y al plan de apoyo logístico.

5. DISEÑO DE LA SOLUCIÓN

Una vez que se ha definido la metodología de fiabilidad a aplicar, y la disponibilidad del sistema ha sido definida como indicador de nivel de servicio, se ha procedido a diseñar el sistema de forma conjunta entre los ingenieros de diseño y los de mantenimiento. Los objetivos a cumplir son los de garantizar la mejor solución posible desde un punto de vista de los requisitos operativos, con la garantía de un nivel de servicio superior a los parámetros anteriormente definidos, y con un sostenimiento a largo plazo (Coste de Ciclo de vida) razonable.

Para ello, teniendo en cuenta la necesidad de garantizar dicha disponibilidad, se han redundado numerosos componentes críticos de todos los Sistemas: Eléctrico, HVAC, Seguridad y Comunicaciones. Algunas de las salas en las que operan dichos equipos, igualmente han sido duplicadas, y en algunos casos, ha sido necesario incluso el empleo de una triple redundancia. Al mismo tiempo, para muchos de los subsistemas (transformadores, grupos electrógenos, HVAC) se ha elegido una configuración K+1, siendo K el número mínimo de elementos necesarios. Esto permite la inactividad de uno de ellos por mantenimiento correctivo o preventivo sin que ello afecte al correcto funcionamiento del sistema.

Por otro lado, se ha utilizado una configuración en anillo para la instalación del cable estructurado, de manera que, en caso de fallo del cable, las comunicaciones no se vean afectadas al tener más de un camino posible.

En cuanto al diseño finalmente definido, es conveniente indicar dos aspectos que se deben tenerse en cuenta:

Según el diseño, las pérdidas de disponibilidad por actividades de mantenimiento preventivo son despreciables, ya que el sistema se ha diseñado para poder realizarlo sin tener que parar el sistema y con una probabilidad despreciable de que en el momento del mantenimiento preventivo fallen a la vez todos los elementos redundados del mismo.

Como criterio general de cálculo, se ha tenido en cuenta el Tiempo Medio de Recuperación – MDT (TPM + TCM + ALDT) más desfavorable para cada uno de los sistemas. Es decir, se ha empleado en todos los casos el tiempo total de recuperación del servicio más largo para el caso en el que el sistema falle, contando el tiempo desde que ocurrió el fallo. Los tiempos de restauración definidos han sido los siguientes:
- Fallos críticos: 4 horas
- Fallos graves: 12 horas
- Fallos moderados: 24 horas
- Fallos leves: 48 horas

Una vez diseñado el Sistema completo, es posible reducirlo al siguiente diagrama de bloques:

6. RESULTADOS

Los resultados de disponibilidad alcanzada para cada uno de estos sistemas, después de realizar hasta un total de 5 iteraciones, es el siguiente:

Sistema Eléctrico: 99,99999996%
Sistemas HVAC: 99,999999986%
Sistema de Seguridad: 99,99999997%
Sistema de Comunicaciones: 99,999923237%

Según estos resultados, y al tratarse de un Sistema equivalente en serie, el diseño de la solución está garantizando una disponibilidad de 99,999923143%, superior a la solicitada de 99,9999%.

7. CONCLUSIONES

Las principales conclusiones que se pueden obtener después de realizar este trabajo, son las siguientes:

El diseño de cualquier sistema complejo debe recoger los requisitos de apoyo logístico desde el inicio del mismo, de modo que se pueda garantizar la sostenibilidad del mismo a lo largo de su ciclo de vida (habitualmente superior a 20-25 años) a un coste razonable.

La Ingeniería de Sistemas, es la rama de la ingeniería ideal para este tipo de proyectos tecnológicos complejos

Dentro de la Ingeniería de Sistemas, el ILS/ALI es la técnica que garantiza dicha integración entre diseño y apoyo logístico, optimizando el coste de ciclo de vida

La herramienta de FMECA, es una herramienta muy potente de cara a asegurar la fiabilidad y disponibilidad de Sistemas complejos a partir del diseño de los mismos

Los buenos resultados obtenidos, han sido fruto de varias iteraciones, es decir, no han sido conseguidos a la primera.

Para obtener resultados efectivos y eficientes resulta imprescindible contar desde el inicio con equipos coordinados e integrados de diseño y de ILS ya que el sostenimiento de cualquier sistema tiene que asegurarse desde sus fases de diseño inicial.

Fiabilidad y Mantenimiento en el diseño del hosting para GSMC

1. CONTEXTO

2. OBJETIVOS

3. CONFIGURACIÓN