Metodología para la identificación y análisis de ‘outliers’ en lotes de Componentes EEE destinados aplicaciones de alta fiabilidad
Samuel García Lorente
INTRODUCCIÓN
Los componentes EEE (eléctricos, electrónicos y electromecánicos) son los elementos básicos de cualquier sistema electrónico, y contribuyen de forma decisiva a determinar el rendimiento final del equipo del que forman parte, incluyendo las propiedades eléctricas, la resistencia mecánica y la capacidad para desempeñar su función en las condiciones ambientales demandadas por cada aplicación. El empleo de componentes EEE para aplicaciones espaciales, o para otras aplicaciones en los que el entorno sea muy hostil, requiere un riguroso cumplimiento técnico de ciertos requisitos que, generalmente, se incluyen en los requerimientos del proyecto, como pueden ser requisitos de funcionalidad, fiabilidad, calidad y radiación. Para garantizar el cumplimiento de estos requisitos, a menudo es necesario complementar las actividades que realiza el fabricante con otras inspecciones. De esta manera, se puede determinar con más confianza si un dispositivo es adecuado o no para esa aplicación. En el caso particular de las aplicaciones espaciales es especialmente crítico asegurar que los componentes EEE funcionen correctamente a lo largo de la vida útil completa del satélite, ya que no se les puede realizar ningún tipo de mantenimiento o reparación, ya sea por su inaccesibilidad o por el alto coste de la intervención.
COMPONENTES EEE COMERCIALES Y APLICACIONES DE ALTA FIABILIDAD
El concepto New Space (CubeSats, Megaconstellations, etc.) se refiere a la comercialización del espacio y comprende a aquellas empresas emergentes del sector comercial y aeroespacial que desarrollan tecnologías de manera más rápida, independiente y económica que las tradicionales, buscando la explotación de ese nicho de mercado monopolizado por los Gobiernos. De este modo, los sistemas espaciales con diseños de alta fiabilidad, ciclos de operación largos y alto coste están dando paso a modelos más flexibles, con tiempos de comercialización reducidos, tasa de reposición elevada y costes de producción más competitivos.
El uso de componentes EEE comerciales (COTS, Commercial Off-The-Shelf) en la industria espacial está siendo incrementado precisamente por este nuevo planteamiento y es actualmente una realidad. Sin embargo, todavía faltan metodologías que ayuden a incrementar el nivel de confianza en este tipo de componentes de manera que se permita hacer un uso más intensivo de ellos, sin renunciar a sistemas completamente eficientes, fiables y seguros.
A pesar de las ventajas económicas y comerciales que implican, los componentes EEE COTS conllevan una serie de riesgos inherentes a su utilización, como se describe a continuación.
Uno de los factores conductores al fallo más común en los componentes EEE, es la “mortalidad infantil”, sobre todo en aquellos componentes que no han sido sujetos a ensayos de screening o burn in, lo cual puede determinar el incumplimiento de los requisitos propios del sector espacio. El término “mortalidad infantil” hace referencia a los fallos que aparecen en las primeras etapas de funcionamiento del componente, es decir, estos componentes se caracterizan por tener valores altos de tasa de fallo al inicio del funcionamiento. Desde el punto de vista de fiabilidad, la etapa más adecuada de funcionamiento para los componentes EEE, sean COTS o no, es aquella que se conoce como fase útil, en la que su comportamiento ante el fallo está lo más próximo posible a una avería aleatoria, es decir, con una tasa de fallos constante en el tiempo, ya que esto implica una menor probabilidad de fallo al inicio y un descenso de la tasa de fallo respecto al tiempo.
En la Figura 1, se puede observar cómo la curva de la bañera de un sistema se forma a partir de la composición del comportamiento al fallo de sus componentes, en este caso modelizado con la distribución de Weibull. En función del parámetro de forma 𝛽, de dicha distribución se pueden encontrar los siguientes modos de comportamiento ante el fallo de un componente: mortalidad infantil, 𝛽<1; fallos aleatorios, 𝛽=1; o fallos por envejecimiento, 𝛽>1.
El comportamiento ante el fallo de aquellos componentes EEE que no han sido sometidos a ensayos de screening o burn in suele estar modelizado por valores de 𝛽 en torno a 0,2 y 0,3, en contraposición a los valores entre 0,7 y 0,8 que son típicos en el caso de que los componentes sean sometidos a dichos ensayos. Esto implica que la probabilidad de que los componentes fallen en el inicio de su vida sea mucho mayor en caso de no realizar dichos ensayos. Cabe destacar que, si el componente sobrevive al periodo de mortalidad infantil, éste mejora su tasa de fallo conforme avanza en el tiempo. En otras palabras, la tasa de fallo disminuye con el tiempo.
Relacionadas con esta problemática del comportamiento ante el fallo, se encuentran las dudas que generan los componentes COTS sobre su fiabilidad y rendimiento a largo plazo en las condiciones tan particulares de la aplicación espacial. No obstante, pese a que el término “alta fiabilidad” se usa exclusivamente para componentes calificados para espacio y aplicaciones militares, es erróneo concluir que, por definición, los componentes COTS no pueden ser considerados como componentes de “alta fiabilidad”. El uso continuado durante años de componentes COTS en aplicaciones militares ha demostrado que estos componentes son lo suficientemente fiables para realizar una misión específica de “alta fiabilidad”. Además, hay que tener en cuenta que, salvo por la radiación, las condiciones de la misión militar son a menudo más severas que las condiciones de la misión espacial, por lo que a priori no se debe descartar el empleo de estos componentes en aplicaciones espaciales.
Sin embargo, aceptando que la fiabilidad de los componentes es inherente a sus procesos de fabricación, todavía resulta necesario tomar acciones orientadas a aumentar la fiabilidad de estos en aplicaciones espaciales.
Otra de las preocupaciones del sector espacial respecto del empleo de componentes COTS es la falta de trazabilidad y homogeneidad en comparación con componentes calificados, ya que se pueden producir mezclas de lotes, empleo de chips de varias obleas, lotes de difusión en el mismo lote de fabricación, etc., pudiendo emplear piezas con diferente comportamiento especialmente frente a la radiación. Esta preocupación viene ocasionada principalmente por el bajo volumen que tiene la producción de componentes EEE de aplicación espacial, donde el control es más sencillo de realizar y es mucho más exhaustivo. Es por ello por lo que en el entorno de la producción comercial de piezas de EEE de alto volumen, como son los COTS, es necesario e importante la utilización del Control de Procesos Estadístico, SPC, ya que da como resultado tasas de fallo muy bajas al momento del inicio del uso del componente. Este proceso estadístico, sin embargo, no funciona bien para una producción de bajo volumen, teniendo que centrar el control principalmente en los ensayos para mitigar la falta de valor estadístico, como es precisamente el caso de los componentes calificados para uso espacial.
Otro problema que tienen los componentes comerciales COTS respecto a los calificados para aplicación espacial es la posibilidad de que haya una utilización inadvertida de componentes falsificados. Esto, por ejemplo, puede ser la sustitución de partes cuyo material especificado es oro por partes de otro metal bañadas en oro o incluso el empleo de chips defectuosos o de otros proveedores. Este cambio de material puede repercutir notablemente en el nivel de rendimiento del componente y producir un amplio rango de fallos dependiendo de cada caso.
Relacionado en cierta manera con lo anterior, existe la posibilidad de que los fabricantes de estos componentes empleen en su fabricación elementos prohibidos por normativas como la directiva RoHS (Restriction of Hazardous Substances) o el reglamento REACH (Registration, Evaluation, Authorisation and Restriction of Chemicals).
La directiva RoHS es la directiva europea relativa a la restricción de la utilización de sustancias peligrosas (cadmio, cromo hexavalente, plomo, mercurio, bifenilos polibrominados, difenileteres polibrominados y 4 tipos de ftalatos) en aparatos eléctricos y electrónicos con el fin de contribuir a la protección de la salud humana y del medio ambiente en diferentes ámbitos. Mientras que el reglamento REACH es el reglamento europeo relativo al registro, evaluación, autorización y restricción de las sustancias y preparados químicos y fue adoptado para mejorar la protección de la salud humana y del medioambiente de los riesgos causados por los químicos y su alcance incluye la fabricación, comercialización o uso de sustancias, como tales, en forma de mezclas o contenidas en artículos, y la comercialización de las mezclas.
La violación de la directiva RoHS o el reglamento REACH supone en algunos casos el empleo de materiales o procesos que suponen un riesgo de fiabilidad en aplicaciones como la espacial. Un ejemplo claro es el reemplazo de las aleaciones de estaño, por otras aleaciones de estaño diferentes o por el mismo estaño puro, que es conocido por presentar el riesgo de generar crecimiento de hilos conductores (“whiskers growth”) y producir cortocircuitos y contaminaciones, generando fallos a nivel de sistema.
Pese a todos los inconvenientes descritos y complementando las ventajas ya expuestas, los componentes EEE COTS pueden presentar mejores prestaciones técnicas en comparación con los componentes clásicos disponibles con nivel de calidad espacial, permitiendo alcanzar una reducción en el coste del producto final y mejorando otras características como son el peso o el volumen. Además, se podrían utilizar de manera segura siempre que se tengan en consideración las preocupaciones específicas de calidad y fiabilidad asociada con el uso de estos componentes en aplicaciones espaciales, así como implementar las contramedidas necesarias.
Por todo lo indicado anteriormente, es imprescindible tener una metodología para ensayar el producto (tanto a nivel de screening o burn in–cribado como de evaluación y calificación) con el objetivo de mejorar la fiabilidad asociada a los componentes EEE COTS.
METODOLOGÍA DE IDENTIFICACIÓN Y ELIMINACIÓN DE 'OUTLIERS'
En caso de emplear componentes EEE COTS para aplicaciones de alta fiabilidad, como son las aplicaciones espaciales, resulta esencial tener una metodología para la identificación y análisis de componentes ‘outliers’, es decir, de aquellos componentes que, pese a cumplir con los requisitos del fabricante, muestran características anómalas respecto a una población del mismo componente. Estas características anómalas pueden derivar en un mayor nivel de fallos en la aplicación del usuario final respecto a lo estimado inicialmente.
Con la aplicación de la metodología mencionada se pretende identificar estos outliers para emplear exclusivamente aquellos componentes que tengan el comportamiento adecuado, y de esta manera, asegurar el correcto funcionamiento del sistema en aplicaciones de alta fiabilidad, como es el entorno espacial.
La metodología proviene principalmente de un documento titulado “Special Requirements for Maverick Product Elimination and Outlier Management” de la JEDEC (Joint Electron Device Engineering Council), donde se presenta un método estadístico para identificar y eliminar aquellos componentes dentro de un lote con características anómalas (outliers), con el objetivo de mejorar la calidad y fiabilidad de los componentes restantes del lote. La metodología seguida se presenta en la Figura 2 y se detalla a continuación.
El procedimiento de identificación y eliminación de outliers se divide principalmente en dos etapas: (1) análisis estático y (2) análisis dinámico.
El análisis estático comienza con la recopilación de datos de al menos seis lotes diferentes que hayan superado los límites marcados por la especificación técnica. Para cada lote hay que seleccionar al menos 30 componentes al azar y obtener la media y la desviación estándar. Con estos valores se obtienen a su vez la media 𝜇∗, y la desviación estándar 𝜎∗, del conjunto de los lotes para calcular los límites estáticos siguiendo la expresión que se muestra a continuación:
En la expresión anterior, 𝑛∗ es un número real que representa el factor de la desviación estándar. Según el documento de la JEDEC mencionado anteriormente, el valor recomendado es 𝑛∗=6. Los límites estáticos se aplican sobre el lote de componentes bajo estudio y aquellos que entren dentro de este rango continúan a la siguiente etapa.
El análisis dinámico comienza con un análisis estadístico de los datos de ensayo del lote de componentes bajo estudio para asegurar que la distribución con la que se estaba representando sigue siendo válida y ajusta mejor que contando con los outliers descartados en el análisis estático dentro del conjunto de datos.
Una vez realizado el ajuste estadístico se obtienen de nuevo la media 𝜇, y la desviación estándar 𝜎, pero esta vez únicamente del lote bajo estudio y se aplica la siguiente expresión para obtener los límites dinámicos:
En esta expresión, de nuevo, 𝑛 es un número real que representa al factor de la desviación estándar y según el documento de la JEDEC mencionado anteriormente, el valor recomendado es 𝑛=6. No obstante, este puede ser reducido para mejorar la efectividad del método, de ahí la denominación de límites dinámicos.
Una vez impuestos los límites dinámicos, se puede asegurar que los componentes resultantes funcionarán con unas condiciones muy similares, con una probabilidad de comportamiento anómalo muy bajo.
CASO DE ESTUDIO
Los componentes EEE COTS que se proceden a estudiar son amplificadores únicos de retroalimentación de voltaje con entradas FET. Estos amplificadores tienen un coste bajo y están cualificados para aplicaciones automovilísticas, aunque también puede tener otras aplicaciones como son: preamplificadores de fotodiodos, filtros, controladores A/D, cambios de nivel y amortiguación. En este caso, se va a estudiar su aptitud para el desempeño de labores en aplicaciones de alta fiabilidad, como son las aplicaciones espaciales.
Se van a estudiar dos parámetros, tal y como se muestra en la Tabla 1, sobre los que se realizará un análisis de outliers. Tras el análisis, se realizarán hipótesis acerca de la relevancia de estos parámetros y el impacto que esta relevancia tendría sobre los resultados de este análisis de outliers.
El análisis de outliers se va a realizar a los dos parámetros de la Tabla 1 en dos escenarios diferentes: el primero antes de realizar un ensayo de burn in sobre los componentes y el segundo, después de realizarlo.
El burn in es una prueba de estrés combinado eléctrico-térmico que, normalmente, emplea voltaje y temperatura para acelerar la aparición de fallos de fiabilidad latentes en un dispositivo. El objetivo del ensayo burn in es eliminar posibles fallos que puedan producirse en la fase de mortalidad infantil (véase Figura 1), por lo que se realiza normalmente en el 100% de los componentes de un lote. Durante estos ensayos, los componentes están sujetos a un estrés igual o superior a las condiciones de la aplicación, pero siempre en condiciones de trabajo dentro de las especificaciones máximas del componente. Para su ejecución, se requieren placas especiales, como la que se muestra en la Figura 3, donde se conectan las muestras y se establecen contactos eléctricos no destructivos. Estas placas se insertan en la cámara de burn in, que proporciona la polarización (estática o dinámica) necesaria con una temperatura controlada y estable.
En primer lugar, se va a realizar el estudio en el caso previo a la realización del ensayo de burn in.
En la Figura 4 se muestran los diagramas de caja y bigotes de los parámetros bajo estudio, P1 y P2, para el caso previo al ensayo burn in. En ambos parámetros se ha representado el estado tanto antes de realizar el análisis de outliers (diagramas de la izquierda) como después de haber aplicado los límites estáticos y dinámicos (diagramas de la derecha). En ambos casos, los parámetros bajo estudio se ajustan a una distribución normal (p-valor igual a 0,99 y 0,49, respectivamente, según la prueba de Kolmogórov-Smirnov), hecho que se puede observar en los diagramas por la coincidencia en valor de la media y la mediana.
En la Figura 5 se muestra una representación adicional de los datos del caso previo al burn in a partir de histogramas, mostrando además los límites estáticos y dinámicos (líneas verticales exteriores e interiores, respectivamente), así como la función de densidad de probabilidad que resulta tras analizar los valores una vez eliminados los componentes outliers de los parámetros bajo estudio.
De la Figura 5 se pueden extraer varias conclusiones. La primera de ellas es que los límites estáticos, en este caso particular, no identifican a ninguno de los componentes del lote bajo estudio como outlier en ninguno de los dos parámetros observados. En referencia también a los límites estáticos, se puede observar que éstos prácticamente coinciden en los valores -6 y 6 en ambos casos. Esto se debe a que los valores de la media y la desviación estándar obtenidos de los 6 lotes eran consistentes con los valores del lote bajo estudio. Cabe destacar que, en caso de haber existido una mayor heterogeneidad entre estos valores estadísticos descriptivos, los límites estáticos hubieran diferido más de los valores -6 y 6.
En este caso particular, al comportarse estos parámetros como una distribución normal y haber establecido el factor de la desviación estándar, 𝑛, en el caso de los límites dinámicos con un valor igual a 2, la población resultante libre de outliers equivale aproximadamente a un 95% de la población total en ambos casos.
Los outliers identificados y eliminados tras el análisis en el caso previo al burn in se presentan en la Tabla 2.
Como se puede observar en la Tabla 2, el primer parámetro bajo estudio P1, presenta 22 outliers identificados, mientras que el segundo P2, 18. Como ya se ha mencionado anteriormente, estos outliers han sido identificados y eliminados tras aplicar los límites dinámicos. Cabe destacar que, en este caso particular, ninguno de los dos parámetros tiene outliers en común. En este punto del análisis, entran en vigor la relevancia y sensibilidad que tengan estos parámetros en el correcto funcionamiento del componente en la aplicación a la que está destinado. Tomando la hipótesis de que P1 es muy relevante para el correcto desempeño de la operación y que P2 no lo es, se podrían descartar los 22 outliers identificados en P1 y permitir la utilización de los de P2. Si, por el contrario, P2 es un parámetro relevante, pero P1 no, habría que descartar los 18 outliers de P2, permitiendo los de P1. En caso de que tanto P1 como P2 fuesen parámetros relevantes para la operación, habría que descartar el total de 40 outliers.
Tras el análisis de los datos previos al burn in se procede a realizar de nuevo el análisis sobre el mismo lote de componentes una vez se les ha realizado el ensayo de burn in.
La Figura 6 y la Figura 7 representan los diagramas de caja y bigotes y los histogramas junto con los límites estáticos y dinámicos, así como la función de densidad de probabilidades, de los parámetros bajo estudio, P1 y P2, para el caso posterior al ensayo burn in. De dichas figuras se pueden extraer las mismas conclusiones que de sus homónimas en el caso previo al burn in (Figura 4 y Figura 5). De nuevo los parámetros bajo estudio, P1 y P2, siguen una distribución normal (p-valor igual a 0,87 y 0,38 respectivamente, según la prueba de Kolmogórov-Smirnov).
Los outliers identificados y eliminados tras el análisis en el caso posterior al burn in se presentan en la Tabla 3.
Como se puede observar en la Tabla 3, el primer parámetro bajo estudio, P1, presenta 27 outliers identificados, mientras que el segundo, P2, 21. Al igual que ha ocurrido en el caso de estudio anterior, en este caso particular, ninguno de los dos parámetros tiene outliers en común. Por lo tanto, en caso de que P1 sea relevante para el correcto desempeño de la operación deseada, pero P2 no, habría que descartar los 27 componentes identificados como outliers de P1. Mientras que, por el contrario, si P2 es el parámetro relevante, habría que descartar los 21 de P2y mantener los 27 de P1. En el supuesto de que ambos parámetros fueran relevantes, habría que descartar los 48 outliers resultantes.
Comparando los resultados de los análisis realizados en ambos casos, se puede observar que, tal y como cabría esperar, el número de outliers es mayor una vez se ha realizado el ensayo de burn in. Esto se debe a que este ensayo ha acelerado la degradación de algunos componentes y por eso ha aumentado el número de población con valores atípicos. En concreto, P1 ha aumentado en 5 la población de outliers, mientras que P2, en 3.
Como conclusión de este caso de estudio, se puede afirmar que la realización de ensayos burn in resulta esencial para la detección de problemas en componentes que puedan derivar en situaciones críticas de fiabilidad, ya que, como se ha demostrado, este ensayo ha aumentado la población de componentes que presentan valores atípicos. Además, los ensayos burn in son la mejor forma de eliminar componentes defectuosos en una fase temprana de la vida del producto y garantizar su fiabilidad en aplicaciones muy críticas, como por ejemplo las espaciales.
Como complemento a este estudio, resultaría interesante realizar el análisis de outliers con otras medidas eléctricas, por ejemplo, en temperatura, donde el comportamiento de los parámetros también tiende a dispersarse, de manera que se obtendría una visión más global del comportamiento ante el fallo del lote de componentes bajo estudio.
CONCLUSIONES
Como conclusión general, la implementación de una metodología de identificación y eliminación de outliers, aplicada tras ensayos de burn in, permite poder identificar de una manera efectiva aquellos componentes que no son aptos para condiciones de alta demanda y que podrían presentar un riesgo para todo el sistema en sí mismo o las personas.