INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las...

21
INSTITUTO TECNOLÓGICO DE CD. JUÁREZ DEPARTAMENTO DE INGENIERÍA INDUSTRIAL Y LOGÍSTICA / TALLER DE INVESTIGACIÓN AJUSTE DE SUPERVIVENCIA DE UN STENT CORONARIO ANTEPROYECTO DE INVESTIGACIÓN QUE PRESENTA: MANUEL JUSUS REYES MENDEZ CD. JUÁREZ, CHIH. A 4 DE MAYO DE 2020

Transcript of INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las...

Page 1: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

INSTITUTO TECNOLÓGICO DE CD. JUÁREZ DEPARTAMENTO DE INGENIERÍA INDUSTRIAL Y LOGÍSTICA /

TALLER DE INVESTIGACIÓN

AJUSTE DE SUPERVIVENCIA DE UN STENT CORONARIO

ANTEPROYECTO DE INVESTIGACIÓN QUE PRESENTA:

MANUEL JUSUS REYES MENDEZ

CD. JUÁREZ, CHIH. A 4 DE MAYO DE 2020

Page 2: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

i

RESUMEN

En este anteproyecto se presenta las bases para realizar una investigación

sobre el análisis de datos de falla utilizando el software estadístico R. El objetivo es

explorar los datos de confiabilidad de las pruebas de dispositivos médicos para

ajustar los datos a la una distribución teórica.

El problema con el análisis de datos abarca desde la descripción del tipo de

distribución hasta los errores que se cometen por no hacer la elección correcta del

modelo de ajuste.

El marco teórico trata los conceptos básicos del estudio, los avances en este

campo y las principales referencias sobre estudios similares que se pueden citar. El

método de análisis se basa en el uso del software R, describiendo sus funciones, la

presentación gráfica y la interpretación de los resultados.

El cronograma considera únicamente las actividades que se recomiendan

llevar a cabo, considerando que el objetivo final es tener una practica mas en el

desarrollo del curso de Taller de Investigación.

El resultado esperado con el reporte final del proyecto, es una metodología

que facilita el análisis de confiabilidad con la ayuda de la Ciencia de los Datos de R.

Por último, se concluye que R es una herramienta poderosa para el análisis de datos

y la investigación reproductible.

Page 3: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

2

ÍNDICE

Pág.

RESUMEN ..................................................................................................... i

ÍNDICE .......................................................................................................... 2

TABLA DE FIGURAS.................................................................................... 3

1 INTRODUCCIÓN .................................................................................... 4

1.1 Antecedentes ................................................................................... 4

1.2 Planteamiento del Problema ............................................................ 5

1.2.1 Preguntas de Investigación ........................................................ 7

1.2.2 Hipótesis ..................................................................................... 7

1.2.3 Objetivos .................................................................................... 7

1.3 Justificación ...................................................................................... 8

1.4 Delimitaciones .................................................................................. 8

2 MARCO TEÓRICO ................................................................................. 9

2.1 Marco Teórico Conceptual ............................................................... 9

2.2 Marco Teórico Referencial ............................................................. 11

3 MATERIALES Y Métodos ..................................................................... 13

4 CRONOGRAMA DE ACTIVIDADES ..................................................... 19

4.1 Lista de Actividades........................................................................ 19

4.2 Cronograma ................................................................................... 19

REFERENCIAS .......................................................................................... 20

Page 4: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

3

TABLA DE FIGURAS

Figura 1 Fallas FtF detectadas en las pruebas de stens coronarios ............. 5

Figura 2 Tiempos de falla en pruebas de stens ............................................ 6

Figura 3 Colocación de un stent en una arteria coronaria ............................ 9

Figura 4 stent metálico................................................................................ 10

Figura 5 Histograma de los datos y distribuciones teóricas ........................ 17

Figura 6 Distribuciones teóricas de los datos ............................................. 18

Page 5: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

4

1 INTRODUCCIÓN

Este proyecto surge de la necesidad de contar con herramientas para el

análisis de datos. Aunque existen una gran cantidad de técnicas y software, en este

proyecto nos enfocaremos a los datos de falla utilizando graficas de dispersión y el

software R.

El Dr. Mathias Frotscher de Biotronick presentó un artículo en el 4º simposio

de ASTM en San Diego, California, en mayo de 2018 respecto a un nuevo enfoque

para la prueba de fatiga en las pruebas de stents coronarios. Ver (King, 2020).

Es una metodología de prueba que toma en cuenta el nuevo estándar ASTM

(The American Society for Testing and Materials) al someter a los stents

cardiovasculares a una carga hiper fisiológica, que puede ayudar a comprender la

fractura media del stent para optimizar el diseño del dispositivo o evaluar el cambio

crítico en el proceso de fabricación sin necesidad de probar un alto número de

ciclos.

Las pruebas se realizaron en un dispositivo patentado por Dyna Tech y con

el instrumento de radio fatiga para condiciones extremas, utilizando los 35 años de

experiencia de la empresa en el diseño y fabricación de probadores de dispositivos

médicos.

Los sujetos de este instrumento tienden a condiciones de carga extremas,

por lo que pueden estresarse radialmente en un grado mucho mayor de lo que era

posible anteriormente.

“La conferencia sobre Fatigue to Fracture (FtF)” se presentó en 6 agosto 2018

por Kendra Conti, directora ventas globales de Dinatek Labs donde se otorgó la

norma estándar:

ASTM F3211 Standard Guide for Fatigue-to-Fracture (FtF) Methodology for

Cardiovascular Medical Device.

1.1 Antecedentes

Page 6: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

5

En la Figura 1 se presenta las fracturas del material bajo las condiciones de

carga del probador FtF. Se puede ver un perfil de los modos de falla que se pueden

acumular.

Figura 1 Fallas FtF detectadas en las pruebas de stens coronarios

Esta imagen puede proporcionar una mejor comprensión de los límites de

fatiga de los dispositivos para la verificación rápida del diseño geométrico del

producto.

Todo análisis estadístico de los datos se inicia con una descripción de los

datos con el objeto de sintetizar la información mediante tablas de frecuencias,

representaciones gráficas y el cálculo de medidas estadísticas (o estadísticos).

Estos procedimientos descriptivos dependen de la naturaleza de la variable o

atributo que se analiza.

Para construir un modelo de una realidad basada en los datos disponibles,

se parte de los modelos teóricos. En el análisis de confiabilidad, existen varias

distribuciones de probabilidad teórica que se usan con frecuencia:

La distribución binomial. Esta distribución tiene varias aplicaciones en

muchos problemas de confiabilidad de tipo combinatorio. Esta distribución es

bastante útil cuando se relaciona con la probabilidad de salida tal como el número

total de fallas en una secuencia de k ensayos, donde cada ensayo tiene dos posibles

resultados (falla o no falla) y la probabilidad de falla es la misma para cada ensayo.

1.2 Planteamiento del Problema

Page 7: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

6

La distribución de Poisson. Se utiliza en confiabilidad cuando uno está

interesado en la ocurrencia de un número de eventos que son del mismo tipo. La

ocurrencia de cada evento es denotada por un punto en la escala de tiempo, donde

cada evento representa una falla.

La distribución exponencial. Es la distribución más ampliamente utilizada en

confiabilidad en ingeniería, debido a que muchos procesos en ingeniería muestran

una razón constante de riesgo durante su vida útil. Además, es analíticamente

manejable en el análisis de confiabilidad.

La distribución de Rayleigh. Esta distribución es usada en trabajos de

confiabilidad asociados a problemas en teoría del sonido.

La distribución de Weibull. Esta distribución puede ser usada para

representar varios fenómenos físicos.

Los datos obtenidos de las pruebas se muestran en la Figura 2. Fuente:

(Abeyratne & Liu, 2019).

1 75 11 102 21 60 31 90 41 51 51 158 61 14 71 145 81 41 91 184 2 28 12 189 22 89 32 75 42 99 52 88 62 290 72 85 82 209 92 116 3 52 13 150 23 130 33 29 43 30 53 80 63 151 73 79 83 20 93 121 4 67 14 118 24 79 34 95 44 64 54 38 64 105 74 173 84 123 94 80 5 78 15 42 25 58 35 119 45 114 55 27 65 87 75 147 85 56 95 54 6 5 16 144 26 102 36 201 46 159 56 67 66 41 76 48 86 99 96 81 7 46 17 61 27 79 37 26 47 95 57 48 67 137 77 105 87 93 97 100 8 132 18 152 28 63 38 25 48 134 58 59 68 95 78 65 88 86 98 132 9 169 19 49 29 72 39 17 49 193 59 34 69 155 79 24 89 70 99 39 10 97 20 155 30 57 40 67 50 26 60 55 70 47 80 51 90 67 100 66

Figura 2 Tiempos de falla en pruebas de stens

Dados los datos y la necesidad de contar con una representación del

fenómeno, el problema es definir la distribución probabilística de los datos de falla

en las pruebas de stens en el equipo Dyna Tech de radio fatiga para condiciones

extremas.

Page 8: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

7

1.2.1 Preguntas de Investigación

Las preguntas respecto al análisis exploratorio de datos son:

• ¿Cuáles son los parámetros estadísticos que se requieren para hacer

el análisis exploratorio?

• ¿Qué gráficas que se generan con esta información?

Respecto a la distribución de probabilidad, las preguntas son:

• ¿Cuál distribución es más conveniente utilizar, Exponencial, Weibull o

log normal?

• ¿Existe información complementaria que ayude a entender los datos

y practicar los métodos de análisis con el software R?

1.2.2 Hipótesis

La hipótesis de trabajo referente a los parámetros es: Buscar las medidas de

tendencia central y las de dispersión como base de partida. Además, utilizar graficas

de dispersión y de caja para complementar la descripción del fenómeno.

La hipótesis o supuesto referente a la distribución probabilística es: La

distribución Weibull es la mas adecuada para variables de fallas respecto al tiempo.

La información complementaria que se puede utilizar para completar el proyecto

sería la cuantificación de las fallas aplicar una regresión binomial.

1.2.3 Objetivos

El análisis de supervivencia es un conjunto de técnicas estadísticas en las

que la variable respuesta es el tiempo que transcurre entre el comienzo de

seguimiento del individuo en el estudio y la aparición del evento de interés. Con

frecuencia suele ocurrir que los individuos abandonen el estudio antes de que

presenten el evento, con lo que sólo se obtiene información parcial (censura) de la

variable de interés.

El objetivo del análisis de supervivencia es incorporar esta información

parcial que proporcionan los individuos censurados mediante métodos

desarrollados para este fin.

Page 9: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

8

Los objetivos de este trabajo son: familiarizarse con los conceptos y

terminología básica del análisis de supervivencia y confiabilidad, conocer cómo

estimar la distribución de probabilidad de los datos con el software R

En Análisis de supervivencia es uno de los problemas estadísticos más

frecuentes e interesantes es la comparación de curvas de supervivencia. El

problema surge cuando tenemos dos o más grupos, cada uno con su muestra, y

queremos ver si tenemos igualdad de curvas de supervivencia.

Antes de entrar a un análisis de las curvas es conveniente llevar un estudio

descriptivo de los datos. En este trabajo se presentan los datos hasta la falla que es

el inicio al estudio de supervivencia y confiabilidad.

Las aplicaciones de estas técnicas se dan en área médicas, por ejemplo, en

el estudio de enfermedades crónicas o tratamientos muy agresivos, el tiempo hasta

que ocurre la muerte del enfermo (tiempo de supervivencia) y su dependencia de la

aplicación de distintos tratamientos, el tiempo hasta la curación, o el tiempo hasta

la aparición de la enfermedad. En procesos de control de calidad se estudia el

tiempo hasta que un cierto producto falla (tiempo de fallo), o el tiempo de espera

hasta recibir un servicio (tiempo de espera), etc.

Para efecto metodológico de este estudio no se consideraron los datos

censurados (tiempos de falla no observados), dejando pendiente estos casos. Las

imitaciones de normalidad requeridas son factibles que se cumplan, ya que los

estudios de tiempos de falla se distribuyen de forma normal.

Finalmente, por ser un estudio completamente académico, se espera cumplir

con las funciones de enseñanza y aprendizaje del tema se supervivencia con la

herramienta estadística matemática del software R.

1.3 Justificación

1.4 Delimitaciones

Page 10: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

9

2 MARCO TEÓRICO

En este capítulo se identifican las fuentes primarias y secundarias sobre los

estudios de supervivencia para ampliar la descripción del problema e integrar la

teoría con la investigación y los factores que se estudian.

Esta información permitirá tener una visión completa de los planteamientos

teóricos sobre los cuales se fundamentará el problema y la metodología de estudio.

Se pretende proporcionar la información para realizar el marco conceptual que

respaldarán la investigación.

Stents coronarios

Los stents coronarios son dispositivos que se emplean para desobstruir las

arterias que llevan la sangre al corazón, las arterias coronarias. Cuando estas

arterias están obstruidas a causa de arteriosclerosis, el corazón sufre los efectos de

la falta de irrigación sanguínea. Si la obstrucción es parcial suele provocar una

angina de pecho, mientras que si la obstrucción es total suele causar el infarto de

miocardio (corazon, 2016).

Figura 3 Colocación de un stent en una arteria coronaria

2.1 Marco Teórico Conceptual

Page 11: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

10

Los stents coronarios se desarrollaron para evitar la retracción arterial. Se

pueden clasificar en 3 grandes familias: stents metálicos (SM), stents

farmacoactivos (SFA) y armazones vasculares bioabsorbibles (AB) (Anonimo, 2018)

El SM ideal debería tener buenas flexibilidad y aplicabilidad, una fuerza radial

intensa y buena biocompatibilidad, con objeto de asegurar unas tasas bajas de

hiperplasia y de trombosis del stent durante el seguimiento a largo plazo (figura 2).

Las aleaciones de platino-cobalto, cobalto-cromo y otras han reemplazado en gran

parte al acero inoxidable, pues ofrecen resistencia y visibilidad suficientes.

Figura 4 stent metálico

Los implantes de stents en arterias coronarias son el tratamiento de elección

para las enfermedades coronarias. Con la aparición de los stents, se ha resuelto la

contribución mecánica a la retracción aguda, lo cual hace que la cirugía de bypass

de urgencia sea cosa del pasado.

Hay un gran conjunto de evidencia que muestra una mejora significativa de

la seguridad y la eficacia de los stents coronarios con la evolución de los dispositivos

(Element, 2020).

En la industria médica, el análisis de vida no se ha utilizado con tanta

frecuencia. Se establecen las propiedades del material junto con el método de

prueba al éxito para caracterizar el rendimiento del diseño.

La metodología estándar para las pruebas de fatiga a fractura, ASTM F3211,

se desarrolló en respuesta al aumento en la utilización de las pruebas de FtF para

ayudar a modelar los métodos de falla y los límites para los implantes

Page 12: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

11

cardiovasculares. Antes de su lanzamiento, un método estándar para pruebas de

dispositivos cardiovasculares no estaba fácilmente disponible.

Supervivencia

El análisis de supervivencia o análisis de tiempo de falla, es un campo

especializado de estadística matemática, fue desarrollado para estudiar variables

aleatorias con valores positivos y observaciones censuradas o incompletas.

El modelo de riesgo proporcional propuesto originalmente por D. R. Cox

(1972). fue desarrollado inicialmente como un modelo de regresión empírico. Dado

que el tiempo de falla (o la vida útil) es simplemente una variable aleatoria no

negativa, el enfoque más natural es estudiar su distribución de probabilidad.

Nuevamente, las distribuciones de probabilidad utilizadas tanto en el análisis de

confiabilidad como en el de supervivencia son a menudo las mismas.

Las distribuciones más comúnmente utilizadas son: exponencial, Weibull,

distribución de valores extremos, distribución gamma, log-gamma, log normal,

gamma generalizada, logística, log-logística y gaussiana inversa.

La distribución exponencial puede servir como línea de base para modelos

más complejos, dada su tasa de falla constante. Las ecuaciones (6) a (8) muestran

el desarrollo de la función de supervivencia exponencial

ℎ(𝑡) = 𝜆 𝑡 ≥ 0, 𝜆 > 0 (6)

Con pdf: 𝑓(𝑡) = 𝜆𝑒−𝜆𝑡 (7)

La función de supervivencia es: 𝑆(𝑡) = 𝑒−𝜆𝑡 (8)

y la media y las varianzas son θ = 1 / λ y θ2, respectivamente. Cuando θ = λ = 1, se

denomina distribución exponencial estándar. Además, la distribución exponencial

es un caso especial de las distribuciones Weibull y gamma.

La distribución Weibull es la distribución de vida más utilizada. Su tasa de

riesgo se muestra en la ecuación (9).

2.2 Marco Teórico Referencial

Page 13: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

12

ℎ(𝑡) = 𝜆𝛽(𝜆𝑡)𝛽−1 (9)

donde λ> 0 y β> 0 son parámetros. Cuando β = 1, la distribución de Weibull se

convierte en distribución exponencial. Sus funciones de pdf y sobreviviente se

muestran en las ecuaciones (10) y (11).

𝑓(𝑡) = 𝜆𝛽(𝜆𝑡)𝛽−1 exp[−(𝜆𝑡)𝛽] 𝑡 > 0 (10)

𝑆(𝑡) = exp[−(𝜆𝑡)𝛽] 𝑡 > 0 (11)

La función de riesgo de la distribución de Weibull es monotónica

aumentando si β> 1, disminuyendo si β <1, y constante para β = 1. Aquí β se

denomina parámetro de forma y λ se llama parámetro de escala.

Page 14: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

13

3 MATERIALES Y MÉTODOS

El software R

El lenguaje de programación R que proporciona un entorno robusto para

tabular, analizar y visualizar datos, es impulsado por una comunidad de millones de

usuarios que colaboran para hacer que la computación estadística sea más efectiva

y eficiente para todos. (Thiem, 2018)

La historia de R comienza con una reunión entre dos profesores de

estadística: Ross Ihaka y Robert Gentleman con el propósito de “construir nada más

que un juguete para jugar con las ideas”. Desde ese inicio, el software R proporcionó

la filosofía de colaboración científica con la distribución gratuita de código,

democratizando la informática estadística.

En 1992, Gentleman, entonces profesor de la Universidad de Waterloo en

Canadá, viajó 8600 millas a la Universidad de Auckland para dar una conferencia

durante tres meses. Un día, que necesitaba un manual para un software

complicado, el profesor de estadística Ihaka de la Universidad de Auckland de

Nueva Zelanda, era el único que tenía una copia. Con el tiempo, ambos se dieron

cuenta de que compartían un interés en lenguajes informáticos estadísticos.

Tanto Ihaka como Gentleman compartían el conocimiento del lenguaje

"Scheme ", sin embargo, era difícil de escribir y carecía de la funcionalidad deseada.

Por otro lado, ambos estaban familiarizados con otro idioma, llamado "S", y S si

proporcionaba el tipo de sintaxis que deseaban. Ya que no existía, comercialmente,

una combinación de los dos idiomas, Gentleman sugirió construirlo ellos mismos.

En ese tiempo, la Universidad de Auckland necesitaba un lenguaje de

programación para sus cursos de estadística. El Departamento de Estadística

decidió que "esa cosa en la que Ross y Robert están trabajando", era mejor su mejor

opción. Los profesores lo llamaron R, algo similar al origen del nombre del software

S (de Statistic) y en referencia a la letra inicial de sus nombres.

Page 15: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

14

Ihaka y Gentleman mantuvieron el proyecto en secreto hasta agosto de 1993.

Aunque el R que tenemos hoy es software libre, a mediados de la década de 1990

los autores estaban considerando convertirlo en un producto comercial, pero en

última instancia, la idea de vender R les pareció problemática. La información del

Dr. Martin Mächler, un estadístico de ETH Zúrich que había encontrado R en

StatLib, también ayudó a impulsar a R en la dirección del software libre. Mächler

estaba involucrado en la comunidad de software de código abierto y creía que todos,

independientemente de sus ingresos, deberían tener acceso a él.

En 1995 se puso a disposición el código fuente de R bajo una licencia de

software libre. Mächler se unió a Gentleman e Ihaka como uno de los principales

desarrolladores de R, aceptando errores del público e implementando mejoras que

los usuarios sugirieron.

En marzo de 1997, Hornik y Leisch, de la Universidad de Economía y

Negocios de Viena, hicieron una contribución mayúscula mediante la construcción

de la Red Integral de Archivos R (CRAN). Esta red puso a disposición la información

esencial y los archivos de R para descargar en un solo lugar.

CRAN hace brillar a R. La mayor parte de la funcionalidad de R está

contenida en los paquetes ahí almacenados, que se pueden cargar y usar cuando

sea necesario. Esto hace que R sea más versátil que otro software estadístico. El

software de código cerrado, como SAS y SPSS, solo puede ser actualizado por sus

desarrolladores oficiales, mientras que R tiene una comunidad que produce

actualizaciones todo el tiempo.

En 2000, el proyecto R lanzó la versión 1.0.0, que consideraron lista para uso

público. Al año siguiente, varios estadísticos reconocidos publicaron artículos sobre

ciencia de datos, y en 2003 se publicó la primera revista académica dedicada a este

campo en crecimiento.

Posteriormente una nueva generación de usuarios, más interesados en lo

que el programa les permitía hacer, buscaron resolver sus propios problemas con

R. Esta nueva comunidad encontró a su líder en Hadley Wickham, el científico jefe

Page 16: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

15

de RStudio, que es famoso por sus paquetes dplyr, ggplot2, purrry y

devtools. Wickham creo sus paquetes de tal forma que los usuarios obtengan la

sintaxis de la ciencia de datos para que los problemas difíciles parezcan

sencillos. La colección de paquetes promovidos por Wickham se llama "tidyverse"

que es la columna central de la Ciencia de los Datos.

Por ejemplo, el paquete reshape reúne datos en una forma que otros

paquetes tidyverse puedan utilizarlos. El paquete dplyr proporciona métodos

simples para organizar, analizar y aplicar transformaciones más complejas a los

datos. El famoso paquete ggplot2 proporciona una "gramática de gráficas" para

ayudar a los usuarios a crear visualizaciones. La mayoría de las capacidades en el

tidyverse también están disponibles en la base R, pero tidyverse los hace más

simples de usar y proporciona una sintaxis más intuitiva y más legible.

El futuro de CRAN es un tema de especulación, ya que, según expertos, la

red comienza a crujir bajo el peso de su propio éxito. La red ahora contiene más de

12 000 paquetes y está creciendo casi exponencialmente. De enero a mayo de

2018, se agregaron o actualizaron una mediana de 21 paquetes por día.

Descripción del Método

El desarrollo de esta metodología, se basó en el trabajo de King R. (2020).

La explicación del código y el enfoque didáctico es la única aportación de los

autores. El código R utilizado, se presenta en el Apéndice.

Instalar y cargar paquetes de R

Los paquetes de R se instalan con el comando:

install.packages(“nombre_del_paquete”)

Esta acción deber de realizarse únicamente una vez y tomando en cuenta el

tiempo que dura en bajar su instalación que depende de la cantidad de información

del paquete y la velocidad de la conexión a internet. Para cargar los paquetes, se

Page 17: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

16

usa el comando library(nombre_del_paquete). Los paquetes a instalar se

muestran en la Tabla 1.

Tabla 1 Paquetes de R para Instalar

tidyverse Colección de paquetes relacionados para trabajar con datos y modelos en R knitr Un paquete de uso general para la generación dinámica de informes en R fitdistrplus Ayuda para ajustar una distribución paramétrica a datos no censurados o censurados scales Funciones de escala para visualización survival Análisis de supervivencia broom Convierte objetos del análisis estadístico en Tidy Tibbles

Ajuste Weibull de datos no censurados

El análisis de supervivencia tiene la característica de que algunos individuos

experimentan el evento terminal y otros no, así el tiempo de supervivencia de estos

últimos será desconocido o censurado. Cuando conocemos todos los tiempos de

vida, estamos ante datos no censurados o sin censura.

La lectura de datos en R se hizo mediante un archivo de Excel gravados con

la extinción csv. Para este proyecto se utilizaron 100 datos que se muestran en la

Tabla 2. Los datos de prueba representan los días que un conjunto de dispositivos

estuvo en prueba antes de fallar. Cada día en la prueba representa 1 mes en servicio

y todos los dispositivos fueron probados hasta la falla.

Tabla 2 Datos de tiempo de falla

75 102 60 90 51 158 14 145 41 184

28 189 89 75 99 88 290 85 209 116

52 150 130 29 30 80 151 79 20 121

67 118 79 95 64 38 105 173 123 80

78 42 58 119 114 27 87 147 56 54

5 144 102 201 159 67 41 48 99 81

46 61 79 26 95 48 137 105 93 100

132 152 63 25 134 59 95 65 86 132

169 49 72 17 193 34 155 24 70 39

97 155 57 67 26 55 47 51 67 66

Page 18: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

17

En la lectura de datos se utiliza el comando datos <-

read.csv(file.choose(),header = TRUE) para localizar directamente el

archivo. Es conveniente que el archivo de Excel con extinción csv tenga los datos

en una columna con un encabezado, en este caso utilizamos la letra X.

Para ajustar el modelo y obtener los parámetros utilizamos el comando

fitdist del paquete fitdistrplus para ajustar las distribuciones. En la figura 1 se

presenta el histograma de los datos y las densidades de los modelos paramétricos

que mejor se ajustan a los datos. El comando utilizado fue denscomp también del

paquete fitdistrplus.

Figura 5 Histograma de los datos y distribuciones teóricas

El escrip utilizado para obtener las distribuciones es:

####Leer los datos ####

install.packages(“tidyverse”)

install.packages(“fitdistrplus”)

datos <- read.csv(file.choose(),header = TRUE)

library(tidyverse) #Cargar el paquete tidyverse

datos_tbl <- datos%>%

as.tibble()%>%

rename(duracion_fatiga = X)#Renombramos el vector

####Ajuste Weibull de Datos No Censurados####

#fitdist {fitdistrplus} Ajuste de distribuciones univariadas a datos no censurados por mle

Page 19: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

18

library(fitdistrplus)

ajuste_mle_wieb_nocencs<- fitdist(datos_tbl$duracion_fatiga, "weibull")

forma_weib <- ajuste_mle_wieb_nocencs$estimate["shape"]

escala_weib <- ajuste_mle_wieb_nocencs$estimate["scale"]

# Resumen y grafica

summary(ajuste_mle_wieb_nocencs)

plot(ajuste_mle_wieb_nocencs)

# Ajuste del modelo gamma, extraer forma y la razón o rate

ajuste_mle_gamma_nocencs<- fitdist(datos_tbl$duracion_fatiga, "gamma")

forma_gamma <- ajuste_mle_gamma_nocencs$estimate["shape"]

razon_gamma <- ajuste_mle_gamma_nocencs$estimate["rate"]

# Ajuste del modelo lognormal, extraer la media, y la desviación estándar

ajuste_mle_lognormal_nocencs <- fitdist(datos_tbl$duracion_fatiga, "lnorm")

meanlog_lnorm <- ajuste_mle_lognormal_nocencs$estimate["meanlog"]

sdlog_lnorm <- ajuste_mle_lognormal_nocencs$estimate["sdlog"]

# visualización en fitdistrplus

plot.legend <- c("Gamma", "Lognormal", "Weibull")

#graphcomp {fitdistrplus} gráficas de densidad con el histograma de los datos

par(mfrow = c(1, 1))

denscomp(list(ajuste_mle_gamma_nocencs,ajuste_mle_lognormal_nocencs,

ajuste_mle_wieb_nocencs), legendtext = plot.legend)

El resultado de corres este script en RStudio es la siguiente gráfica:

Figura 6 Distribuciones teóricas de los datos

Donde se puede apreciar que el mejor ajuste de los datos de falla es una distribución

Weibull. Finalmente se concluye que el software R es una herramienta valiosa para

el análisis reproductivo y la ciencia de los datos.

Page 20: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

19

4 CRONOGRAMA DE ACTIVIDADES

Este proyecto es una actividad extraordinaria del taller de investigación, con

el objetivo de ejercitar la presentación de un reporte de investigación.

El participante deberá tomar como base este documento para generar un

reporte de investigación.

Queda como opcional que:

• el alumno corra el escrip con los datos proporcionados y que

• alumno, libremente, acomode la información en la plantilla de reporte

de investigación, pudiendo agregar más información si juzga

pertinente.

Las actividades a desarrollar son:

• Vaciar la información de este anteproyecto en la plantilla de reporte

• Cargar a los datos del archivo csv proporcionado a RStudio (opcional)

• Correr el escrip y obtener la gráfica mostrada (opcional)

Hora 1 Hora 2 Hora 3

Vaciar la información

Cargar a los datos

Correr el escrip

4.1 Lista de Actividades

4.2 Cronograma

Page 21: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ...9 2 MARCO TEÓRICO En este capítulo se identifican las fuentes primarias y secundarias sobre los estudios de supervivencia para ampliar la

20

REFERENCIAS

Abeyratne, & Liu. (2019). Aplicaciones practicas de Confiabilidad Bayesiana.

Anonimo. (2018). Breve historia de los stents coronarios. Revista Española de

cardiologia, 312-319.

corazon, D. (31 de Marzo de 2016). Que es un stent Coronario. Obtenido de

Quironsalud Barcelona: https://www.quironsalud.es/blogs/es/corazon/stent-

coronario

Element. (4 de Abril de 2020). Test to Success & ASTM F3211 Fatigue

Methodologies. Obtenido de Element:

https://www.element.com/nucleus/2020/04/17/18/59/astm-f3211-fatigue-to-

fracture

King, R. (15 de Abril de 2020). Análisis de supervivencia: ajuste al modelo Weibull

en R, para mejorar la confiabilidad del dispositivo . Obtenido de netlify.

Thiem, N. (2018). R generation. 14 SIGNIFICANCE.