Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO...

27
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician. Sherlock Holmes en The Sign of Four Quimiometría

Transcript of Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO...

Page 1: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO

RECONOCIMIENTO DE PAUTAS

Individuals vary, but percentages remain constant. So says the statistician.

Sherlock Holmes en The Sign of Four

Quimiometría

Page 2: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Datos multivariantes

Métodos modernos de análisis automático (métodos espectroscópicos o cromatográficos) permiten reunir grandes cantidades de datos:

Espectro UV-vis-NIR datos a 920 longitudes de ondaEspectro IR datos a 2000 longitudes de ondaCromatograma GC-MS: 600000 datos por corrida

Se miden y se analizan simultáneamente varias variales para una muestra

Quimiometría

Page 3: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

RECONOCIMIENTO DE PAUTAS

1969 Kowalsky y colaboradores publican trabajos sobre sistemas integrados de estadística y análisis de correlación para el entrenamiento de máquinas en el reconocimiento de determinadas variables (reconocimiento de pautas)

primeras y más reconocidas aplicaciones exitosas de la quimiometría

uso de datos para determinar patrones

métodos originados en la biología y fisiología

Quimiometría

Page 4: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

RECONOCIMIENTO DE PAUTAS

Ejemplos:

Uso de espectros IR para clasificar compuestos como ésteres o cetonas

¿Se puede usar un espectro para determinar la causa de un incendio?

¿Se puede usar un cromatograma para determinar el origen de un vino?

Quimiometría

Page 5: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Datos analíticos

Cromatograma: 30 lecturas a distintos tiempos a 28 longitudes de onda

Quimiometría

Page 6: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Los datos analíticos se pueden acomodar como los datos de una matriz X:

n objetos (filas): muestras, moléculas, materiales, ...

p características (columnas): espectros, propiedades físicas,

patrones elementales, características estructurales, ...

Quimiometría

X=

x11 x12 ... x1px21 x22 … x2p..

xn1 xn2 ... xnp

Page 7: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Grupos de métodos

Análisis exploratorio de datos (Exploratory Data Analysis,

EDA):

análisis de componentes principares (principal

components analysis, PCA)

análisis de factores (factor analysis, FA)

Quimiometría

Page 8: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Grupos de métodos

Reconocimiento de patrones no supervisado

(Unsupervised Pattern Recognition):

basado en la búsqueda de similitudes, aplicado en

taxonomía numérica

análisis de conglomerados (cluster analysis)

Quimiometría

Page 9: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Grupos de métodos

Reconocimiento de patrones supervisado (Supervised

Pattern Recognition)

pretenden clasificar

requieren el uso de datos de entrenamiento

análisis de discriminantes

redes neuronales

Quimiometría

Page 10: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Primer paso: revisar los datos disponibles

Datos ausentes: no permiten un análisis matemáticoNO se deben reemplazar con ceros (0)pueden reemplazarse con la mediapuede generarse un número aleatorio en el rango de la fila o columna

Page 11: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Datos repetidos: se pueden remover si:están altamente correlacionadosson constantesson redundantes

Page 12: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Centrado de datos: si los datos tienen un corrimiento pueden ser transladados a partir del origen de coordenadas, por el procedimiento de:

Centrado empleando la media: cada variable xij es centrada por substracción de la media de la columna (xj)

(xij*)cen = xij- xj

Page 13: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Escalado de datos: datos con diferentes valores absolutos o diferentes varianzas que pueden distorsionar los métodos multivariados, se pueden escalar por:

rango

0 ≤ xij* ≤ 1

Page 14: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Escalado de datos: desviación estándar (autoescalado)

Page 15: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Procesamiento de los datos

Escalado de datos:

normalización:los datos se escalan a una constante (1 o 100)

Page 16: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Escalado de datos

datos originales datos centrados datos autoescalados

Page 17: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Matrices

Cuando los datos analíticos se transforman se pueden obtener distintas matrices:

Matriz de covarianza: se calcula a partir de los datos de la

matriz X, las varianzas y covarianzas (cov) de todas las

variables p

cov(j,k) = Σ (xij – xi) (xik – xk) j, k = 1 … p; j ≠ k

Quimiometría

1n-1 i=1

n

Page 18: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Matrices de covarianza

Quimiometría

C=

s11 cov(1,2) ... cov(1,p)cov(2,1) s22 … cov(2,p)

: : :

cov(p,1) cov(p,2) … spp

2

2

2

Page 19: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Matrices

Matriz de correlación: se calcula a partir de los datos de la

matriz X, los coeficientes de correlación (r) y las desviaciones

estándar (s)

rjk = j ≠ k

Quimiometría

cov(j,k)sj – sk

Page 20: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Matrices de correlación

Quimiometría

R=

1 r11 ... r1pr12 1 … r2p

: : :

r1p r2p … 1

Page 21: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Ejemplo:

Datos: intensidades de emisión de fluorescencia

de 12 compuestos (A-L)

a 4 longitudes de onda (300, 350, 400, 450 nm)

Page 22: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Page 23: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Estadística básica

Determinación para cada longitud de onda de:media desviación estándar

Correlación para cada par de variables

coeficiente de correlación (Pearson)diagramas de dispersión (gráficos drafstman)

Page 24: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial con Minitab

Descriptive Statistics: 300 nm

Variable N Mean StDev SE Mean300 12 15,750 1,485 0,429

Descriptive Statistics: 350 nm

Variable N Mean StDev SE Mean350 12 61,250 1,658 0,479

Page 25: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Descriptive Statistics: 400 nm

Variable N Mean StDev SE Mean400 12 68,917 1,505 0,434

Descriptive Statistics: 450 nm

Variable N Mean StDev SE Mean450 12 29,250 1,485 0,429

Page 26: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Basic Statistics: Correlations: 300. 350. 400. 450

300 350 400350 0,914 0,000

400 -0,498 -0,464 0,099 0,128

450 -0,670 -0,692 0,458 0,017 0,013 0,135

Cell Contents: Pearson correlation/P-Value

Page 27: Introducción al Análisis Multivariado · INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS Individuals vary, but percentages remain constant. So says the statistician.

Quimiometría

Análisis inicial

Gráfico Drafstman