La gestión del riesgo como pilar para la fiabilidad
En el cambio de paradigma respecto a cómo se gestionan los activos, ahora no es suficiente con definir si un activo físico requiere mantenimiento o no, sino que debe justificarse la decisión basándose en el análisis del riesgo asociado a la consecuencia del fallo.
Hernán Sadorin
Consultor Senior, en Ellmann y Asociados.
Guillermo Sueiro
Director Operaciones Global, en Ellmann y Asociados.
Antonio Muñoz
Responsable Desarrollo de Negocio Europa, en Ellmann y Asociados.
INTRODUCCIÓN
Toda organización tiene responsabilidades específicas hacia los dueños e inversores, hacia el personal y hacia la sociedad en general. Esto obliga a las empresas a evaluar los riesgos asociados con sus procesos, planta, equipos (activos físicos) para determinar las estrategias de mantenimiento de sus activos físicos. Esto implica un cambio de paradigma respecto de cómo se gestionaban los activos, ya que ahora no es suficiente con definir si un activo físico requiere mantenimiento o no y, en el primer caso, el detalle de este (frecuencia, especialidad, tiempos, etc.), sino que debe justificarse la decisión basándose en el análisis del riesgo asociado a la consecuencia del fallo.
RIESGO Y MANTENIMIENTO – RCM3
La etapa de definición de estrategias de mantenimiento en las empresas no es otra cosa que una evaluación del riesgo. Lo que se analiza es la consecuencia de que el activo físico falle y su probabilidad, comparándolo contra los recursos involucrados en el caso de evitar que se produzca la falla.
Existen diferentes metodologías presentes en el mercado que ayudan a las empresas a definir las estrategias de mantenimiento basándose en el riesgo. Todas se centran en la realización de un AMFE (Análisis de Modos de Fallo y Efectos), en el cual se explicitan las causas que pueden provocar un fallo del equipo. Luego, en una segunda etapa, para cada modo de fallo debe evaluarse:
- Si es técnicamente factible realizar alguna tarea de mantenimiento proactiva para evitar que el fallo ocurra
- Si merece la pena realizar alguna tarea de mantenimiento, basado en el riesgo que el fallo supondría (sumatoria de efectos negativos combinados con la probabilidad de ocurrencia del fallo si nada se hiciera para prevenirlo)
Afortunadamente, existen Normas y metodologías de vanguardia que ayudan a las empresas en este proceso de análisis de riesgos. Una de ellas es RCM3 – Mantenimiento Centrado en Fiabilidad. Siendo en sus orígenes (RCM2) la metodología por excelencia para determinar las estrategias de mantenimiento más coste-eficaces, el RCM3 mantiene su estructura fundamental y profundiza la identificación de los riesgos involucrados con posibles fallos, los cuantifica y determina el modo más efectivo de manejarlos. El proceso RCM3 maneja el riesgo de manera integral, considerando tanto el riesgo físico directo (impacto en la seguridad y/o el medio ambiente) como los riesgos económicos, eliminando o mitigando las consecuencias del fallo del equipo a un nivel de riesgo que sea tolerable para la organización.
Desde el lanzamiento del reporte de Nowlan y Heap en 1978 para la industria Aeronáutica (donde el proceso fue llamado por primera vez Mantenimiento Centrado en Fiabilidad - RCM), pasando por su posterior ampliación al sector industrial (RCM2), el proceso RCM se volvió popular debido a que las empresas se dieron cuenta de que, si era aplicado correctamente, no solo cambiaba la manera de hacer las cosas (en mantenimiento), sino también la manera de pensar.
RCM y RIESGO - RCM3
Con el correr de los años y de la aplicación de RCM2 en miles de empresas a lo largo del mundo, se trabajó en evaluar de qué manera se podría realizar un análisis más minucioso del riesgo asociado a las diferentes causas de falla y cómo vincularlo con el RCM2. Esto, recientemente, dio origen a una variante del RCM, denominado RCM3 – Mantenimiento Centrado en Fiabilidad. Siendo en sus orígenes (RCM2) la metodología por excelencia para determinar las estrategias de mantenimiento más coste-eficaces, el RCM3 mantiene su estructura fundamental y profundiza la identificación de los riesgos involucrados con posibles fallos, los cuantifica y determina el modo más efectivo de manejarlos. El proceso RCM3 maneja el riesgo de manera integral, considerando tanto el riesgo físico directo (impacto en la seguridad y/o el medio ambiente) como los riesgos económicos, eliminando o mitigando las consecuencias del fallo del equipo a un nivel de riesgo que sea tolerable para la organización.
El RCM3 agrega una nueva dimensión a los procesos RCM existentes, a través de la identificación de los riesgos asociados a los fallos del equipo. RCM3, considera la condición del equipo, los riesgos asociados con posibles fallos y el contexto operacional específico. RCM3 se presenta para destacar y formalizar la identificación, categorización y gestión de riesgos como parte del desarrollo del plan de gestión de mantenimiento.
LO QUE SE LOGRA CON RCM3
La aplicación sistemática y estructurada de la herramienta permite conseguir los siguientes resultados:
- Mayor seguridad e integridad medioambiental
- Mejora en la performance operativa (producción, calidad de producto y servicio al cliente)
- Reducción del Riesgo
- Mayor coste-efectividad del mantenimiento
- Mayor vida útil de elementos costosos
- Una base de datos completa
- Mayor motivación del personal
- Mejor trabajo en equipo
- Más personas aprenden sobre el equipo
- Estandarización
RCM3 y NORMAS INTERNACIONALES
La serie de Normas internacionales ISO 55000 sobre Sistemas de Gestión de Activos, de reconocimiento mundial, son documentos que sirven de guía sobre lo que debería hacerse, pero no indican cómo debe hacerse. El proceso RCM3 satisface muchos de los requerimientos de estas Normas, de modo que las empresas que lo apliquen encontrarán mayor facilidad para satisfacerlos.
Por otro lado, el RCM3 cumple con las Normas para un Mantenimiento Centrado en Confiabilidad SAE JA 1011 y SAE JA 1012. Estos estándares están dirigidos a organizaciones que hacen uso de activos físicos o sistemas y que se plantean gestionarlos de manera responsable.
METODOLOGÍA RCM3
El RCM3 puede definirse como sigue: “Un proceso utilizado para definir los requerimientos mínimos necesarios de mantenimiento, ingeniería y otras estrategias de manejo del riesgo para asegurar un nivel tolerable de seguridad, integridad ambiental y capacidad operativa costo-eficaz de acuerdo a los estándares de gestión de activos de la organización”.
Esta herramienta se aplica a través de los siguientes nueve pasos (preguntas):
- Describir el contexto operacional (cómo el equipo o sistema es utilizado).
- ¿Cuáles son las funciones y los parámetros de funcionamiento asociados en el actual contexto operacional?
- ¿De qué manera puede fallar en cumplir con sus funciones (estados de falla)?
- ¿Qué causa cada falla funcional (modos de falla)?
- ¿Qué ocurre cuando se produce cada falla (efectos de falla)?
- ¿De qué manera importa cada falla (consecuencias de falla)?
- ¿Cuáles son los riesgos asociados a cada falla?
- ¿Qué puede hacerse proactivamente para manejar los riesgos (utilizando políticas de manejo de fallas predictivas o preventivas)?
- ¿Qué debería hacerse si el riesgo no puede ser manejado proactivamente (acciones “a falta de”)?
CONTEXTO OPERACIONAL
El contexto operacional es definido en SAE JA1012 como “las circunstancias en las cuales se espera que opere un activo físico o sistema”. Técnicamente, equipos idénticos pueden desempeñarse de manera diferente si el contexto operacional es diferente. Por lo tanto, el programa de mantenimiento para equipos que técnicamente son idénticos puede ser radicalmente diferente si el contexto operacional es diferente.
Deberían considerarse los siguientes parámetros y condiciones operacionales:
- Proceso por lote o proceso continuo
- Condiciones físicas y ambiente operativo
- Estándares de calidad de producto o servicio
- Medio ambiente y estándares ambientales
- Estándares de seguridad y requerimientos legales
- Turnos de trabajo
- Capacidad en stand by o redundancia
- Trabajo en proceso
- Utilización
- Políticas de repuestos y logística
- Condición actual del activo
- Demanda de mercado y suministro de materia prima
- Habilidades y tecnología disponible
FUNCIONES
Antes de poder aplicar un proceso utilizado para determinar lo que debe hacerse para asegurar que un activo físico continúe haciendo lo que sus usuarios desean que haga en el actual contexto operacional, es necesario realizar dos cosas:
- Determinar lo que sus usuarios desean que haga
- Asegurar que es capaz de hacer lo que sus usuarios desean desde el comienzo
El segundo paso del proceso RCM3 es definir las funciones de cada activo en su contexto operacional, junto con los parámetros de funcionamiento deseados. Lo que los usuarios esperan que el activo haga puede ser dividido en dos categorías:
- Funciones primarias, que resume el porqué de la adquisición del activo. Esta categoría de funciones cubre cuestiones como velocidad, producción, capacidad de transporte o almacenamiento, producto, calidad y servicio al cliente.
- Funciones secundarias, que reconocen que se espera que todo activo haga algo más que simplemente cumplir con la función primaria. Los usuarios también tienen expectativas respecto de seguridad, control, contención, confort, limpieza, integridad estructural, economía, protección, eficiencia operacional, cumplimiento de requisitos ambientales e incluso la apariencia del activo.
Los usuarios de los activos normalmente son los que están en la mejor posición (por lejos) de conocer exactamente en qué contribuye cada activo al bienestar físico y financiero de la organización, con lo cual es esencial que sean involucrados en el proceso RCM desde el principio.
ESTADOS DE FALLO (Fallos Funcionales)
El mantenimiento cumple con sus objetivos a través de la adopción de un adecuado enfoque al manejo de la falla. No obstante, antes de poder aplicar un conjunto de herramientas apropiadas para el manejo de fallas, necesitamos identificar qué fallas pueden ocurrir. El RCM3 realiza este paso en dos niveles:
- Primero, identificando qué circunstancias llevan a un estado de falla
- Luego, preguntando qué eventos pueden causar que el activo se encuentre en estado de falla.
En el mundo del RCM, los estados de falla se conocen como fallas funcionales, porque ocurren cuando el activo es incapaz de cumplir con alguna función y su parámetro de funcionamiento aceptable para el usuario.
Además de considerar la incapacidad total de la función, la definición abarca fallas parciales, donde el activo sigue funcionando, pero con una performance inaceptable (incluyendo situaciones donde el activo no puede sostener niveles adecuados de calidad o precisión).
MODOS DE FALLO
Una vez que se han identificado los estados de falla, el próximo paso es intentar identificar todos los eventos que tengan una probabilidad razonable de provocar cada estado de falla. Estos eventos son conocidos como modos de falla. Los modos de falla “razonablemente probables” incluyen aquellos que ya han ocurrido en el mismo o en equipos similares en el mismo contexto, fallas que actualmente se encuentran siendo prevenidas por un plan de mantenimiento y fallas que no han ocurrido todavía, pero se considera que tienen probabilidades reales de ocurrir en el contexto en cuestión. Modos de falla “poco probables” deben considerarse en casos donde tengan severas consecuencias.
Los modos de falla consisten en una causa (causa directa del estado de falla) y un mecanismo (proceso que origina el estado de falla).
EFECTOS DEL FALLO
El Quinto paso del proceso RCM3 implica listar los efectos de falla, que describen lo que ocurre cuando se produce cada modo de falla. Esta descripción debería incluir toda la información necesaria que sirva de soporte para la posterior evaluación de las consecuencias de falla, tal como:
- ¿Cuándo es más probable que ocurra la falla? (arranque, operación normal, luego de mantenimiento)
- ¿Qué evidencia (si existe) hay de que la falla ha ocurrido?
- ¿De qué manera (si existe alguna) supone una amenaza para la seguridad o el medio ambiente?
- ¿De qué manera (si existe alguna) afecta a la producción u operaciones?
- ¿Qué daños físicos (si existen) son causados por la falla?
- ¿Qué debe hacerse para reparar la falla?
- ¿Provoca algún daño secundario?
- ¿Cuáles son las pérdidas (si existen)?
- ¿Qué daños físicos (si existen) son causados por la falla?
Deben describirse los efectos en cuatro niveles distintos:
- Efecto local: Describe lo que le ocurre directamente al equipo o el impacto que el modo de falla tiene sobre el equipo del cual forma parte.
- Efecto de segundo nivel: Describe lo que ocurriría al sistema del cual el componente analizado es parte. También se considera el momento más probable de ocurrencia, si la función se encuentra protegida o no (a través de un dispositivo de protección) y la secuencia de eventos que le sigue a la falla. Se debe considerar que nada se está haciendo para prevenir la ocurrencia de la falla.
- Efecto final: Describe el último efecto que la falla tiene sobre la seguridad y/o el medio ambiente (si lo tiene) y cualquier impacto en la producción o capacidad operacional.
- Peor efecto potencial: Con el objeto de realizar un verdadero análisis base cero, los efectos de falla de la función protegida deberían ser analizados como si no estuvieran presentes los dispositivos de protección (o sin funcionar). Por lo tanto, el riesgo inherente de una falla de una función protegida es definida como si el dispositivo de protección no existiera o estuviera fallado. El peor efecto potencial es el peor impacto creíble para la organización y sus operaciones que surge a partir de un riesgo donde todos los dispositivos de protección directamente relacionados al modo de falla bajo consideración son asumidos como no disponibles.
CONSECUENCIA DEL FALLO
Un análisis detallado de un proyecto industrial promedio suele tener entre tres mil y diez mil modos de falla posibles. Cada uno de ellos afecta a la organización de cierta manera, pero en cada caso, los efectos son diferentes. Pueden afectar a las operaciones. Pueden también afectar a la calidad del producto, servicio al cliente, seguridad o al medio ambiente. Todos tendrán tiempos y costos asociados de reparación.
Una gran fortaleza de RCM3 es que reconoce que las consecuencias de las fallas son mucho más importantes que sus características técnicas. De hecho, reconoce que la única razón por la cual es conveniente realizar algún tipo de mantenimiento proactivo no es para evitar las fallas per se, sino para evitar o por lo menos reducir las consecuencias de las fallas.
El proceso RCM3 clasifica a las consecuencias de falla en cinco grupos, de acuerdo a:
- Consecuencias de Seguridad y Medio Ambiente Ocultas: Las fallas ocultas no tienen un impacto directo, pero exponen a la organización a fallas múltiples con consecuencias serias y, muy a menudo, catastróficas. (Muchas de estas fallas se encuentran asociadas con dispositivos de protección que no están diseñados de manera falla-segura). RCM3 también se refiere a estas fallas como fallas con riesgo físico oculto.
- Consecuencias Económicas Ocultas: No todos los dispositivos de protección son instalados para proteger a las personas, algunos de ellos protegen a equipos de daños y sus posibles consecuencias. La falla de dispositivos de protección aumentará el riesgo de una falla del equipo que se supone que está protegiendo y es posible que estas consecuencias sean muy costosas. RCM3 se refiere a estas como fallas con riesgo económico oculto.
- Consecuencias de Seguridad y Medio Ambiente Evidentes: Una falla tiene consecuencias para la seguridad si puede lesionar o matar a alguien. Tiene consecuencias para el medio ambiente si puede llevar a quebrantar algún estándar o regulación corporativo, regional, nacional o internacional.
- Consecuencias Operacionales Evidentes: Una falla tiene consecuencias operacionales si afecta la producción (output, calidad de producto, servicio al cliente o costos operativos adicionales al costo directo de reparación).
- Consecuencias No Operacionales Evidentes: Las fallas evidentes que caen en esta categoría no afectan a la seguridad, al medio ambiente ni a la producción, con lo cual sólo involucran el costo directo de reparación (y cualquier daño secundario asociado).
EVALUACIÓN DEL RIESGO Y DEFINICIÓN DE ESTRATEGIAS DE MANEJO DEL RIESGO
Las técnicas de manejo de fallas son divididas en dos categorías:
- Tareas Proactivas: estas tareas son llevadas a cabo antes de la ocurrencia de la falla, con el objetivo de prevenir que el elemento entre en estado de falla. Abarca lo que comúnmente se conoce como mantenimiento “predictivo” y “preventivo”, aunque RCM utiliza los términos de reacondicionamiento cíclico, sustitución cíclica y mantenimiento a condición.
- Tareas “a falta de”: estas tareas lidian con el estado de falla y son seleccionadas cuando no es posible identificar una tarea proactiva eficaz. Incluyen tareas de búsqueda de fallas, rediseños y ningún mantenimiento programado.
Una gran fortaleza de RCM es la forma en la que provee un criterio simple, preciso y fácil para decidir cuál (si es que hay alguna) de las tareas proactivas es técnicamente factible en su contexto, y en caso en que hubiera, cada cuánto debiera ser realizada y por quién.
Si una tarea proactiva es técnicamente factible o no, es determinado por las características técnicas de la tarea y por la falla que desea prevenir. Si merece la pena, es determinado por cuán bien lidia con las consecuencias de la falla. Si no se puede encontrar una tarea proactiva que sea técnicamente factible y que merezca la pena, ni tampoco una combinación de tareas (para una falla con consecuencias para la seguridad o el medio ambiente), entonces debe tomarse alguna acción “a falta de”.
La esencia del proceso de selección de tareas es la siguiente:
- Para fallas ocultas con consecuencias para la seguridad, una tarea proactiva merece la pena si reduce el riesgo de una falla múltiple asociada a dicha función a un nivel tolerablemente bajo. Si dicha tarea no puede ser encontrada, entonces debe analizarse una tarea de búsqueda de fallas. Si no se encuentra una tarea de búsqueda de fallas adecuada, la decisión secundaria “a falta de” será un rediseño obligatorio. El elemento debe ser rediseñado o el proceso debe ser modificado para reducir la probabilidad de una falla múltiple a un nivel tolerable.
- Para fallas ocultas con consecuencias económicas, una tarea proactiva merece la pena si reduce la probabilidad de falla múltiple asociada a dicha función a un nivel tolerablemente bajo. Si dicha tarea no puede ser encontrada, entonces debe analizarse una tarea de búsqueda de fallas (a una frecuencia donde la suma del costo de realizar la tarea de búsqueda de fallas y el costo asociado a la falla múltiple sea mínima). Si no se encuentra una tarea de búsqueda de fallas adecuada, un rediseño puede ser deseado como una acción secundaria “a falta de”. El elemento puede ser rediseñado o el proceso modificado para reducir la probabilidad de falla múltiple a un nivel tolerable.
- Para fallas con consecuencias para la seguridad o medio ambiente, una tarea proactiva merece la pena si reduce el riesgo de una falla a un nivel tolerablemente bajo, en caso de que no lo elimine. Si no puede encontrarse una tarea que reduzca el riesgo de falla a un nivel aceptable, el rediseño es obligatorio (el elemento debe ser rediseñado o el proceso modificado).
- Si la falla tiene consecuencias operacionales, una tarea proactiva merece la pena si el costo total de realizar dicha tarea a lo largo de un período de tiempo es menor que el costo de las consecuencias operacionales más el costo de reparación a lo largo del mismo período. En otras palabras, la tarea debe ser justificada económicamente. Si no se logra justificar, la acción “a falta de” inicial es ningún mantenimiento programado. (Si esto ocurre y las consecuencias operacionales son inaceptables, entonces la acción “a falta de” secundaria es un rediseño).
- Si una falla tiene consecuencias no operacionales, una tarea proactiva merece la pena si el costo de realizar dicha tarea a lo largo de un período de tiempo es menor que el costo de reparación en ese mismo período. Estas tareas también deben estar justificadas económicamente. Si no lo están y los costos de reparación resultan muy altos, la acción “a falta de” secundaria es el rediseño.
- Este enfoque significa que las tareas proactivas son especificadas solamente para fallas que realmente las necesiten, lo que redunda en una reducción substancial de carga de trabajo rutinaria. Menos trabajo rutinario también significa que las tareas que se mantienen tienen mayor probabilidad de ser ejecutadas correctamente. Esto, junto con la eliminación de tareas contraproducentes, lleva a una mejora en la efectividad del mantenimiento.