Regresión lineal en química...

Regresión lineal en química analítica

Alejandro C. Olivieri

Departamento de Química Analítica, Facultad de Ciencias Bioquímicas y Farmacéuticas, Universidad Nacional de Rosario,

Suipacha 531, Rosario (S2002LRK), Argentina. E-mail: [email protected]

2

Tabla de Contenidos

CLASE 1 3 REGRESIÓN LINEAL 3 Material suministrado con la clase 1 3 Parte 1: calibración univariada 3 Determinación del extremo superior del rango lineal 4 Preparación de patrones 4 Medición de la respuesta de los patrones 5 Estimación de los parámetros de la regresión 5 Predicción en muestras incógnita 6 Cifras de mérito del método 7 Sensibilidad de calibración 7 Sensibilidad analítica 7 Límite de detección 8 Límite de cuantificación 9 Rango dinámico 9 Rango lineal 9 Programas de computación 12 EJERCICIO RESUELTO 12 RESPUESTA DETALLADA 14 EJERCICIOS PROPUESTOS 18 CLASE 2 20 REGRESIÓN LINEAL 20

Material suministrado con la clase 2 20 Parte 2: exactitud y comparación de métodos analíticos 20 Exactitud de un método analítico 21 Región de confianza en el caso homoscedástico 22 Regresión ponderada 24 Región de confianza en el caso heteroscedástico 25 Comparación de métodos analíticos 26 Programas de computación 27 EJERCICIO RESUELTO 27 RESPUESTA DETALLADA 27 EJERCICIOS PROPUESTOS 32 RESOLUCIONES A LOS EJERCICIOS PROPUESTOS 34 RESPUESTAS A LOS EJERCICIOS PROPUESTOS EN LA CLASE 1 34 RESPUESTA A LOS EJERCICIOS PROPUESTOS EN LA CLASE 2 35 REFERENCIAS 38

3

La estadística es un método sistemático para llegar a la conclusión incorrecta con un 95% de confianza.

Clase 1

Regresión lineal

"Camino recto", fotografía, tomada de www34.brinkster.com.

Material suministrado con la clase 1 Para esta clase se proveen los siguientes archivos: • Archivos de texto (*.TXT) conteniendo datos típicos. • Rutinas (*.M) para el entorno de programación MATLAB. • COMO OPERAR CON MATLAB.PDF, documento de Adobe que explica el empleo

del entorno MATLAB. • Programas ejecutables en QB (*.EXE). • COMO OPERAR CON QB.PDF, documento de Adobe que explica el uso de los

programas en QB.

Parte 1: calibración univariada En este capítulo estudiaremos una de las más populares aplicaciones de la regresión lineal

en química analítica: la recta de calibración univariada. La teoría se expone en este

4

documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la sección Ejercicio Resuelto.

El análisis mediante recta de calibración puede hacerse cuando sólo el analito de interés presenta señal analítica o respuesta (absorbancia, fluorescencia, potencial eléctrico, corriente, etc.), o cuando la señal del blanco es constante.

Las etapas que deben seguirse en un análisis mediante recta de calibración son: • Determinación del extremo superior del rango lineal • Preparación de patrones • Medición de la respuesta de los patrones • Estimación de los parámetros de la regresión • Cálculo de las cifras de mérito del método • Predicción en muestras incógnita Las expresiones matemáticas que se presentarán a continuación y su empleo en el análisis

univariado están tomadas, en general, del trabajo de referencia clásico de Danzer y Currie, preparado para la Unión Internacional de Química Pura y Aplicada (IUPAC).1 De la amplia literatura que existe en este campo, recomendamos también los libros de Gardiner2 y Miller y Miller.3

Determinación del extremo superior del rango lineal Esta etapa es fundamental, ya que la regresión lineal está basada en la suposición de que

los datos de respuesta analítica están linealmente relacionados con la concentración del analito. Si se sospecha que existen desvíos de la linealidad, se recomienda realizar un análisis exploratorio previo cuyo objeto es extender el rango de aplicabilidad de la técnica analítica a la máxima concentración posible. En dicho análisis, se incluyen patrones de concentración conocida del analito desde cero hasta valores que se desvíen visiblemente de la linealidad. Una prueba estadística apropiada permitirá luego decidir hasta qué concentración se cumple la relación lineal respuesta-concentración. Sin embargo, dado que los parámetros a emplear en esta prueba se obtienen del análisis matemático-estadístico de la regresión, diferiremos el cálculo detallado para más adelante.

Preparación de patrones Una vez estimado el extremo superior del rango lineal de la técnica, deben prepararse

patrones de concentración conocida dentro de dicho rango, e incluyendo el valor cero de concentración del analito (blanco). Usualmente, se preparan varios patrones (como mínimo cinco) con concentraciones igualmente espaciadas entre cero y el extremo superior del rango lineal, y cada patrón se analiza por triplicado.

Debe ponerse especial cuidado en la preparación de los patrones del analito para la calibración, de manera que las concentraciones de calibrado se conozcan con la máxima precisión posible. Este requisito se relaciona con el hecho de que la recta de regresión se ajusta mediante ecuaciones que suponen que los valores del eje x (concentraciones) tienen una incertidumbre considerablemente menor que los del eje y (respuestas).

Sólo a modo de ejemplo, si se realizan mediciones de absorbancia como respuesta, podemos suponer que el nivel de incertidumbre en la respuesta puede ser de alrededor de 0,005 unidades de absorbancia. Si los valores de las respuestas son, en promedio, de 1 unidad de absorbancia, esto implica un nivel relativo de incertidumbre de aproximadamente 0,5% en la respuesta. Por lo tanto, se deben preparar patrones de calibrado cuyas concentraciones se conozcan con un error menor al 0,5%. Preparar soluciones de calibrado, por ejemplo, con incertidumbres del orden del 0,1% en promedio, requiere pesar más de 100 mg de reactivo, preparar soluciones en matraces calibrados de al menos 100 mL, tomar alícuotas con pipetas aforadas calibradas, etc.

5

Medición de la respuesta de los patrones Una vez preparados los patrones de concentración conocida, se miden sus respuestas

analíticas, incluyendo réplicas de cada medición. Usualmente cada patrón se mide por triplicado. Es importante establecer la siguiente nomenclatura: si se emplean 6 patrones, cada uno por triplicado, entonces el número de niveles diferentes de concentración (p) es 6, y el número total de puntos de la recta de calibrado (m) es 18.

Estimación de los parámetros de la regresión El análisis de los datos de calibrado mediante regresión lineal implica el cálculo de la

pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuación y = A x + B. Los valores estimados de A y B se calculan mediante las siguientes ecuaciones:

A =

∑

∑

=

=

−

−−= m

ii

m

iii

xx

xy

xx

yyxx

QQ

1

2

1

)(

))(( (1)

B = xAy − (2) donde xi es la concentración de cada uno de los m patrones de calibrado, x es el promedio de las concentraciones de calibrado, yi es la respuesta en cada punto e y es el promedio de las respuestas de los patrones de calibrado.

Además de los valores individuales de A y B, es importante tener una idea de su incertidumbre asociada, ya que los datos instrumentales llevan asociados un error que depende del ruido instrumental, y el ajuste por cuadrados mínimos sólo provee estimaciones de la pendiente y ordenada al origen. Los desvíos estándar en los parámetros A y B se calculan con las siguientes ecuaciones:

sA = xx

xy

Qs / (3)

sB = xx

xy Qx

ms

2

/1

+ (4)

En las ecuaciones precedentes, el parámetro sy/x es el desvío estándar de los residuos de la regresión y está dado por:

sy/x = 2

)ˆ(1

2

−

−∑=

m

yym

iii

(5)

donde yi es la respuesta experimental de cada patrón de calibrado e iy representa la respuesta estimada en cada punto, esto es, iy = A xi + B. En la ecuación (5) se emplean m – 2 grados de libertad, ya que hay m datos disponibles, y 2 parámetros estimados en la regresión (A y B).

Estos parámetros estadísticos dan también una idea de la bondad de la regresión. Es deseable que sy/x sea lo más pequeña posible; no obstante su valor está limitado por el ruido instrumental. La distribución de los residuos, es decir, el modo en que los valores de (yi – iy ) varían con la respuesta, cumple también un papel importante en el análisis de la adecuación de los datos al modelo lineal, como veremos más adelante.

6

Predicción en muestras incógnita Los valores de A y B se requieren para realizar predicciones en muestras incógnitas, a

través de la ecuación yinc = A xinc + B, de donde puede obtenerse la concentración estimada del analito en la muestra:

xinc = (yinc – B) / A (6) donde yinc es, en general, un promedio de las respuestas obtenidas para un determinado número de réplicas de la incógnita (habitualmente tres).

Un resultado no es tal, sin embargo, si no está acompañado por su correspondiente nivel de incertidumbre. Para informar xinc con su incertidumbre asociada, y establecer su número correcto de cifras significativas, es necesario calcular el error estándar en la concentración predicha s(xinc), lo cual se lleva a cabo mediante la siguiente expresión:

s(xinc) = xx

xy

QAyy

mnAs

2

2inc/ )(11 −

++ = xx

xy

Qxx

mnAs 2

inc/ )(11 −++ (7)

donde sy/x es el desvío estándar de los residuos de la regresión dado por la ecuación (5), A es la pendiente de la recta de regresión, n es el número de réplicas de la muestra incógnita, m es el número total de patrones de calibrado, yinc es el promedio de las respuestas de las réplicas de la incógnita, y es el promedio de las respuestas de los patrones de calibrado, y Qxx fue definido en la ecuación (1).

La ecuación (7) es responsable de que la incertidumbre en la predicción dependa de cada muestra y no de la calibración en forma global, ya que para cada muestra incógnita hay un valor predicho de la concentración (xinc) y por lo tanto un valor asociado del desvío estándar s(xinc). La forma de la ecuación (7) proviene de un análisis de la propagación de las distintas fuentes de error a la concentración predicha. Puede demostrarse que hay dos fuentes principales de incertidumbre: 1) la señal medida para la muestra incógnita y 2) las señales medidas para las muestras de calibrado. La primera contribuye con el término (1/n) dentro de

la raíz cuadrada de la ecuación (7), y la segunda con los términos ⎟⎟⎠

⎞⎜⎜⎝

⎛ −+

xxQxx

m

2inc )(1 , que

colectivamente reciben el nombre de leva (del inglés leverage). La leva mide, de algún modo, la "distancia" de la muestra incógnita al centro de la calibración. Dado que la leva es mínima cuando la concentración de la incógnita es igual al promedio de las concentraciones de calibrado (esto es, cuando xinc = x ), se concluye que el método posee su máxima precisión en este último caso. De ahí que se recomiende analizar muestras cuya concentración de analito sea cercana al centro de las concentraciones de calibrado. La extrapolación a concentraciones mucho mayores o menores que el promedio de la calibración aumenta la leva y con ello el error en la predicción.

Otra conclusión que puede extraerse de la ecuación (7) es que el efecto de la calibración sobre el error de predicción será también menor si m > n, es decir, cuando el número de patrones de calibrado es superior al de réplicas empleadas para predecir.

En todo caso, el análisis de la ecuación (7) muestra que, para muestras no demasiado alejadas del centro de la calibración, y dado que en general se cumple que m > n, el error estándar en la concentración se puede aproximar por s(xinc) = sy/x / (A n1/2).

Debe notarse finalmente que el intervalo de confianza para la concentración predicha puede calcularse multiplicando el valor del desvío estándar dado por la ecuación (7) por el correspondiente coeficiente de student para un dado nivel de confianza (usualmente 95%) y un número de grados de libertad igual a (m – 2).

7

Cifras de mérito del método Las cifras de mérito de un método analítico se utilizan regularmente con el propósito de

calificar un determinado método y comparar sus propiedades analíticas con las provistas por otras técnicas. Incluyen, entre otras, las siguientes:

• Sensibilidad de calibración • Sensibilidad analítica • Límite de detección • Límite de cuantificación • Rango dinámico • Rango lineal Debe notarse que la expresión "cifras de mérito" es la traducción correcta del inglés

figures of merit. Esta última no debe traducirse como "figuras de mérito".

Sensibilidad de calibración La sensibilidad de calibración es igual a la pendiente de la recta de calibrado: SEN = A (8) Indica la variación de respuesta producida por una unidad de variación de concentración

del analito, y sus unidades son de señal × concentración–1.

Sensibilidad analítica La sensibilidad de calibración no es adecuada para comparar dos métodos analíticos

cuando estos están basados en respuestas de diferente naturaleza (por ejemplo, absorbancia y fluorescencia, o absorbancia y medidas electroquímicas, etc.). Para ello es preferible utilizar la llamada sensibilidad analítica γ, definida por la relación entre la sensibilidad y el ruido instrumental:

γ = SEN / sy (9) donde sy es una medida conveniente del nivel de ruido en la respuesta. Para estimar el nivel de ruido pueden usarse dos procedimientos, que en teoría deberían coincidir. En el primero, se estima el ruido instrumental (sy) a través de los desvíos de las réplicas de las mediciones de calibrado respecto de sus promedios:

sy = pm

yyp

i

r

jiij

−

−∑∑= =1

2

1)(

(10)

donde p es el número de niveles de concentración estudiados en la recta, r es el número de réplicas de cada punto, yij es el valor de la respuesta correspondiente a cada nivel y réplica, e

iy es el promedio de las respuestas de las réplicas para cada nivel de concentración. En la ecuación (10), el número de grados de libertad es m – p, ya que de los m datos disponibles, p grados de libertad se reservan para el cálculo de las p medias iy . Este cálculo se ilustra en forma detallada en el ejercicio resuelto que acompaña al presente documento.

En el segundo método de estimación del nivel de ruido, se lo estima como el desvío estándar de los residuos de la regresión lineal, el parámetro ya definido sy/x [véase la ecuación (5)].

Si los datos estudiados cumplen la relación lineal entre respuesta y concentración, los dos métodos anteriormente descritos deben proveer resultados similares en cuanto a la estimación del ruido instrumental.

8

Límite de detección Es la mínima concentración detectable de manera confiable por la técnica. En la

definición moderna, el límite de detección (LOD) se calcula en función del desvío estándar de la concentración predicha para una muestra blanco (s0).4 Para estimar s0 se recurre a la ecuación (7), escrita del modo siguiente:

s(xinc) = xx

xy

Qxx

mnAs 2

inc/ )(11 −++ (11)

Si suponemos que se analiza una muestra por triplicado (lo más usual es n = 3) en la que el analito no está presente (xinc = 0), la ecuación (11) se reduce a:

s0 = xx

xy

Qx

mAs 2/ 1

31

++ (12)

aunque s0 será diferente si se emplea un número diferente de réplicas. En todo caso, es importante informar qué valor de n se considera en el cálculo de s0 y por lo tanto del LOD.

Como se muestra en la Figura 1, el LOD se calcula mediante una prueba de hipótesis estadística. En primer lugar se fija una concentración llamada nivel crítico (LC en la Figura 1), a partir de la cual se toman decisiones respecto de la detección del analito. Para concentraciones superiores a LC, existe una probabilidad α de cometer el llamado error de tipo I o falso positivo. Este último consiste en aceptar erróneamente la hipótesis alternativa, admitiendo que el analito está presente cuando en realidad está ausente. Como se aprecia en la Figura 1, la probabilidad de cometer este error de tipo I está dada por la zona sombreada de azul (área α), siendo la "distancia" de LC al cero de la escala igual al producto de s0 por el coeficiente tα,ν. Si α se toma igual a 0,05, entonces una concentración superior a LC tendrá sólo un 5% de probabilidad de constituir un falso positivo.

Del mismo modo, existe una probabilidad β de cometer un error de tipo II o falso negativo, en el que se acepta erróneamente la hipótesis nula, admitiendo que el analito está ausente cuando en realidad está presente (zona sombreada de rojo en la Figura 1, con probabilidad igual a β). Si β se toma también como 0,05, la probabilidad de obtener un falso negativo será del 5%. En este caso la distancia de LC a la concentración correspondiente a dicho valor de β es el producto del coeficiente tβ,ν por s0, considerando que este último parámetro es muy cercano al desvío estándar en la concentración de una muestra blanco.

Puede notarse entonces que el valor de LOD depende de α y β, y de los desvíos estándar de las dos curvas gaussianas de la Figura 1. En general, ambas probabilidades se toman como iguales 0,05, mientras que los desvíos estándar se suponen ambos iguales a s0. De este modo, el LOD está dado por:5

LOD = 2 × t0,05,m–2 × s0 (13) definición que ha sido adoptada también por IUPAC6 e ISO.7 En la práctica, dado que m es un número relativamente grande, el valor de (2×t0,05,m–2) tiende a 3,3, por lo que una ecuación aproximada para el límite de detección es LOD = 3,3 s0.

Nótese que antiguamente se definía el LOD contemplando únicamente errores de tipo I, como la concentración correspondiente a una relación señal/ruido igual a 3, lo que equivale a fijar el límite de detección como LOD = 3sbl / A, donde sbl es el desvío estándar en la señal del blanco. En esta aproximación, la probabilidad de cometer errores de tipo I era de 0,1%, que corresponde a t0,001,ν = 3 (para un número muy grande de grados de libertad). Esta definición, ya abandonada por la IUPAC, no contempla los errores de tipo II.

9

Figura 1. Prueba de significación empleada para estimar el límite de detección. LC es el

nivel crítico, LOD el límite de detección, α y β las probabilidades correspondientes a errores de tipo I y II respectivamente, s0 el desvío estándar del blanco (en unidades de concentración) y tα,ν y tβ,ν los coeficientes de student para ν grados de libertad.

Límite de cuantificación Es la mínima concentración cuantificable en forma confiable. Este parámetro (LOQ) se

toma como la concentración correspondiente a 10 veces el desvío estándar (en unidades de concentración) del blanco, con lo cual:

LOQ = 10 s0 (14) De este modo, el desvío estándar relativo (DSR) para una concentración igual al LOQ es

del 10%, nivel que se toma convencionalmente como el máximo DSR aceptable para cuantificar el analito en una muestra.

Rango dinámico Se considera que va desde la menor concentración detectable (el LOD) hasta la pérdida de

relación entre respuesta y concentración; véase la Figura 2, adaptada de la excelente obra de Valcárcel.8 El rango dinámico es también el rango de aplicabilidad de la técnica. En la zona de pérdida de la linealidad, podría aplicarse, en principio, un método de regresión polinómica para la calibración (o algún otro de naturaleza no lineal), de modo que nada impide que dicha zona sea utilizada con propósitos predictivos.

Rango lineal Se considera que el rango lineal comprende desde la menor concentración que puede

medirse (el LOQ) hasta la pérdida de la linealidad (Figura 2). Una manera conveniente de medir el cumplimiento de la linealidad es a través de la relación que existe entre la variancia de la regresión, medida por (sy/x)2 [ecuación (5)], y la del ruido instrumental, medida por (sy)2 [ecuación (10)]. Si la primera es significativamente mayor que la segunda, se supone que hay causas de desvío de la ley lineal que son estadísticamente superiores al ruido en la respuesta. Para emplear esta prueba es esencial que se cumpla el supuesto bajo el cual se realiza el ajuste lineal, esto es, que los errores en concentración de calibrado sean menores que en respuesta. De lo contrario, se acumularían en (sy/x)2 incertidumbres derivadas de la imprecisión en las concentraciones de los patrones, que nada tienen que ver con el ruido instrumental o las pérdidas de la linealidad.

La prueba estadística que se utiliza para determinar si los datos se ajustan a la ley lineal es la F: en primer lugar se calcula un valor "experimental" de F, dado por:

0

αβ

Hipótesis alternativa: analito presente a este nivel

Predicción LC

Hipótesis nula: analito ausente

LOD

(tα,ν + tβ,ν) s0

10

Concentración

Res

pues

ta

Rango lineal

Rango dinámico

LODLOQ

Extremo superiordel rango lineal

Pérdida de la relaciónrespuesta-concentración

Fexp = ( )( )2

2/

y

xy

s

s (15)

Luego se compara este valor con el crítico que se encuentra en tablas de F (de una cola) para m – 2 y m – p grados de libertad, y un determinado nivel de confianza, por ejemplo 95%. Si Fexp < F, se acepta que los datos se comportan linealmente. Alternativamente, se calcula la probabilidad pF asociada a este valor de Fexp, y se considera que la prueba de linealidad es aceptada si pF > 0,05. Esta prueba se describe en detalle en el trabajo de Danzer y Currie.1

Figura 2. Rangos dinámico y lineal de un método analítico.

11

Concentración

Res

iduo

s0

Res

iduo

s

0

Res

iduo

s

0

A

B

C

Figura 3. Residuos de la regresión. A) Comportamiento lineal. B) Comportamiento no lineal. C) Comportamiento lineal con alta incertidumbre en la concentración de los patrones.

También es útil, como en todo ajuste por cuadrados mínimos, examinar visualmente la

distribución de los residuos de la regresión. Un gráfico de residuos (yi – A xi + B) en función de xi puede ser muy informativo respecto de la presencia de no linealidades, ya que el valor de Fexp puede resultar significativo no solamente porque la relación entre las variables no sea lineal, sino por incertidumbres en la preparación de los patrones. La Figura 3 ilustra casos representativos al respecto. En el caso A), el comportamiento es lineal: se espera que la

12

distribución de los residuos sea al azar, y que la variabilidad interna de las réplicas a cada nivel de concentración sea comparable a la variabilidad global (precisamente este es el sentido de la prueba estadística F antes comentada). En el caso B) se aprecia visualmente que los residuos poseen un comportamiento parabólico, caso típico de desvíos de la ley lineal. Finalmente, en el caso C), los residuos muestran una variabilidad global significativamente mayor que la que presentan las réplicas a cada nivel. Esta situación es típica de la presencia de mayor incertidumbre en las concentraciones nominales de los patrones de calibrado que en la señal instrumental, aunque el sistema se comporte linealmente. De ahí que se haya puesto hincapié en la necesidad de contar con patrones cuya concentración se conozca con mayor precisión que el ruido instrumental. En general, sin embargo, la distribución de los residuos no es tan clara como los casos presentados en la Figura 3, por lo que es importante aplicar el criterio estadístico F.

Debe notarse que no hemos empleado, en todo este documento, al parámetro r, el coeficiente de correlación, aún cuando popularmente se recurre a él como prueba de linealidad o de bondad del ajuste. En este sentido, vale la pena repetir textualmente el siguiente pasaje del trabajo de Danzer y Currie: "el coeficiente de correlación, que es una medida de la relación de dos variables azarosas, no tiene ningún significado en la calibración analítica, debido a que los valores de x no están distribuidos al azar".1 El coeficiente de correlación se emplea para responder preguntas tales como: ¿está correlacionada la concentración de antimonio con la de plomo en muestras de agua de una zona productora de metales?. En este caso se trata de analizar si existe correlación entre variables sobre las que el operador tiene muy poco control.

Programas de computación Los métodos descritos en esta clase pueden aplicarse con cualquier programa comercial

que sea capaz de efectuar una regresión por cuadrados mínimos. Los parámetros faltantes pueden calcularse luego "a mano" con las ecuaciones provistas en este documento. En este sentido, la obra de Gardiner2 hace una excelente descripción del uso de la planilla de cálculo EXCEL para propósitos analíticos en general, y para estudios mediante regresión univariada en particular.

Para quienes deseen introducirse al mundo del entorno matricial MATLAB, esencial para cálculos avanzados en quimiometía, se proveen dos rutinas que calculan todos los parámetros aquí descritos, y permiten calibrar y predecir a partir de datos univariados. Confiamos que la discusión del ejercicio resuelto que se acompaña, el contenido del documento 'COMO OPERAR CON MATLAB.PDF', así como las rutinas 'LR_CAL.M' y 'LR_PRED.M', proveerán la información requerida para organizar los datos e implementar las rutinas.

También se proveen programas independientes ejecutables en QB, como alternativa para quienes no puedan acceder a MATLAB: 'LR_CAL.EXE' y 'LR_PRED.EXE'. Para operarlos puede consultarse el documento 'COMO OPERAR CON QB.PDF'.

Ejercicio resuelto 1) La Tabla 1 proporciona un ejemplo de datos de respuesta-concentración para su análisis,

incluyendo respuestas medidas por triplicado. Grafique los datos de respuesta en función de la concentración y compruebe en forma visual que se desvían de la linealidad. Establezca un límite superior del rango lineal en forma cualitativa, para luego compararlo con el calculado mediante una prueba estadística apropiada.

13

Tabla 1. Concentraciones y respuestas para un rango en el que se sospecha que existen desvíos de la linealidad.

Concentración del patrón

Respuesta 1 Respuesta 2 Respuesta 3

0,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

0,06 1,44 2,82 4,15 5,29 6,61 7,79 8,89 10,03 10,84 11,87

0,08 1,56 2,76 4,20 5,46 6,54 7,70 8,97 9,88 10,91 11,81

–0,06 1,41 2,90 4,08 5,52 6,69 7,69 8,83 9,77 10,65 11,90

Note que los valores de concentración están dados con una precisión de ±0,01, lo cual

implica un error relativo porcentual promedio de 0,01×100/5 = 0,2% (Tomamos 5 como el valor promedio de las concentraciones de calibrado). Los valores de respuesta también están informados con una incertidumbre de ±0,01 unidades, si bien un análisis cualitativo de la variabilidad de los replicados indica que la incertidumbre en esta medición es mayor que lo informado en la Tabla 1. Posteriormente haremos un análisis más detallado, pero en principio es importante verificar que la incertidumbre relativa es mayor en la respuesta que en la concentración.

Usuarios de MATLAB: los datos de la Tabla 1 están contenidos, en el formato apropiado para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_COMPLETOS.TXT'.

Usuarios de QB: los datos están en el archivo de texto 'D_E_R_C.TXT', para ser estudiados por el programa 'LR_CAL.EXE'.

2) La Tabla 2 muestra los mismos datos que la Tabla 1, restringidos hasta un límite

superior de concentración para el cual se cumple la linealidad (más adelante se muestra cómo se llegó a esta conclusión).

Tabla 2. Concentraciones y respuestas para un rango en el que existe linealidad.

Concentración del patrón

Respuesta 1 Respuesta 2 Respuesta 3

0,00 1,00 2,00 3,00 4,00 5,00

0,06 1,44 2,82 4,15 5,29 6,61

0,08 1,56 2,76 4,20 5,46 6,54

–0,06 1,41 2,90 4,08 5,52 6,69

Usuarios de MATLAB: los datos de la Tabla 2 están contenidos, en el formato apropiado

para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_LINEAL.TXT'.

Usuarios de QB: los datos están disponibles para ser estudiados por el programa 'LR_CAL.EXE' en el archivo de texto 'D_E_R_L.TXT'.

14

Calcule los valores de la pendiente y ordenada al origen para la recta ajustada con los datos de la Tabla 2.

3) Estime los desvíos estándar en la pendiente y ordenada al origen, e informe los valores

de A y B con el número correcto de cifras significativas. 4) La Tabla 3 muestra los valores de la respuesta para cuatro muestras incógnita, todos por

triplicado.

Tabla 3. Respuestas para cuatro muestras incógnita. Muestra Respuesta 1 Respuesta 2 Respuesta 3

1 2 3 4

0,69 2,20 3,55 4,82

0,65 2,13 3,41 4,71

0,75 2,05 3,52 4,70

Los datos de la Tabla 3 están contenidos, en el formato apropiado para ser estudiados por

la rutina 'LR_PRED.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_TEST.TXT'. Estime la concentración del analito en las cuatro muestras de la Tabla 3, calcule sus

desvíos estándar e informe el resultado con el número apropiado de cifras significativas. 5) Calcule las cifras de mérito del método.

Respuesta detallada 1) El análisis de estos datos mediante los programas LR_CAL.M (Matlab) o

LR_CAL.EXE (QB) indica que los datos no se comportan en forma lineal. En particular, se obtiene un valor de Fexp de 8,88, con una probabilidad asociada pF de 0,001. La gráfica de los residuos es informativa al respecto:

15

2) Los valores estimados, dados por las ecuaciones (1) y (2) son, para el ejemplo de la Tabla 2, A = 1,3174 y B = 0,1237. Estos últimos números tienen, probablemente, más cifras significativas que lo permitido por sus desvíos estándar. Para acotarlos al número correcto de cifras es necesario estimar sus incertidumbres.

3) Los desvíos estándar calculados son sy/x = 0,1, sA = 0,01 y sB = 0,04. Lo correcto es

informar la pendiente y ordenada al origen de la recta ajustada del modo que sigue: A = 1,32(1) B = 0,12(4) En la Tabla 3 encontrará un resumen de todos los cálculos intermedios necesarios para

estimar A, B y sus errores estándar.

Tabla 3. Parámetros necesarios para el cálculo de A, B, sA y sB. i xi xi – x yi yi – y (xi – x )2 (xi – x ) (yi – y ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0,00 1,00 2,00 3,00 4,00 5,00 0,00 1,00 2,00 3,00 4,00 5,00 0,00 1,00 2,00 3,00 4,00 5,00

–2,50 –1,50 –0,50 0,50 1,50 2,50 –2,50 –1,50 –0,50 0,50 1,50 2,50 –2,50 –1,50 –0,50 0,50 1,50 2,50

0,06 1,44 2,82 4,15 5,29 6,61 0,08 1,56 2,76 4,20 5,46 6,54 –0,06 1,41 2,90 4,08 5,52 6,69

–3,36 –1,98 –0,60 0,73 1,87 3,19 –3,34 –1,86 –0,66 0,78 2,04 3,12 –3,48 –2,01 –0,52 0,66 2,10 3,27

6,25 2,25 0,25 0,25 2,25 6,25 6,25 2,25 0,25 0,25 2,25 6,25 6,25 2,25 0,25 0,25 2,25 6,25

8,39 2,97 0,30 0,37 2,81 7,98 8,34 2,79 0,33 0,39 3,06 7,81 8,69 3,01 0,26 0,33 3,15 8,18

Total Qxx = 52,5 Qxy = 69,17 Promedio x = 2,50 y = 3,42

4) Los valores de predicción se muestran en la Tabla 4. Tabla 4. Predicciones en muestras incógnita. Muestra Respuesta

promedio (yinc) Concentración predicha (xinc)

Desvío estándara s(xinc)

DSR = 100 s(xinc) / xinc (%)

1 2 3 4

0,70 2,13 3,49 4,74

0,44 1,52 2,56 3,51

0,05 0,05 0,05 0,05

12 3,3 1,9 1,4

a A partir de la ecuación (6), insertando sy/x = 0,1; A = 1,32; n = 3; m = 18; yinc de la columna 2 de la Tabla 4, y = 3,42 y Qxx = 52,5. Note que los valores pueden aproximarse por s(xinc) = sy/x / (A n1/2), tal como se dijo en la parte teórica.

16

Puede notarse que la concentración predicha se acotó a dos cifras decimales significativas,

teniendo en cuenta que los desvíos estándar son todos aproximadamente de 0,05 unidades. Nótese que los valores de s(xinc) son iguales en la Tabla 4 porque se informan con una sola cifra significativa, aunque su cálculo detallado demuestra que difieren entre sí, de la manera prevista por el efecto de la leva.

Es importante destacar también que el desvío estándar relativo (DSR) dado en la Tabla 4 es alto para la primera muestra, y razonablemente bajo para las otras. En el primer caso, la concentración predicha es también baja. Estas consideraciones se relacionan con la mínima concentración detectable por la técnica, que se considerará a continuación.

También pueden fijarse los intervalos de confianza alrededor de una predicción, empleando los coeficientes de student de dos colas para un 95% de confianza y (m – 2) grados de libertad. Por ejemplo, para la muestra No. 4 en la Tabla 4:

xinc = 3,51 ± t(p = 0,05; 16 GL) × s(xinc) = 3,51 ± 2,1 × 0,05 = 3,5 ± 0,1 5) Es importante analizar la gráfica de los residuos para este caso. Como puede verse en la figura anterior, la distribución de los residuos conserva aún

rastros de la falta de linealidad de los datos, pero la prueba F dice que esta impresión no es estadísticamente relevante: Fexp = 1,58, pF = 0,21. La Tabla 5 ilustra el cálculo detallado de sy para esta prueba.

En el presente ejemplo, la sensibilidad está dada por SEN = 1,32 (Unidades de respuesta)×(Unidades de concentración)–1

Para el cálculo de la sensibilidad analítica se requiere una estimación del nivel de ruido instrumental. Para los datos de la Tabla 2, p = 6, r = 3, sy = 0,08 (véase la Tabla 5 para el detalle del cálculo).

17

Tabla 5. Parámetros requeridos para el cálculo de sy. i j yij iy (yij – iy )2 1

1 2 3

0,06 0,08 –0,06

0,03

0,0009 0,0025 0,0081

2

1 2 3

1,44 1,56 1,41

1,47

0,0009 0,0081 0,0036

3

1 2 3

2,82 2,76 2,90

2,83

0,0001 0,0049 0,0049

4

1 2 3

4,15 4,20 4,08

4,14

0,0001 0,0036 0,0036

5

1 2 3

5,29 5,46 5,52

5,42

0,0169 0,0016 0,0100

6

1 2 3

6,61 6,54 6,69

6,61

0,0000 0,0049 0,0064

Total

=−∑∑

= =

p

i

r

jiij yy

1

2

1)( 0,081

A partir de los resultados de la tabla anterior, se puede calcular un nivel de ruido

instrumental de (0,081/12)1/2 = 0,08. Dado que, para los mismos datos, sy/x = 0,1, puede notarse que ambos procedimientos para estimar el ruido producen resultados similares. Empleando 0,1 unidades de respuesta como nivel de ruido, podemos calcular la sensibilidad analítica para el ejemplo en estudio a partir de la ecuación (10), como γ = SEN / sy/x = 13 (Unidades de concentración)–1.

El parámetro γ se interpreta mejor en términos de su inversa. El valor de γ–1 (0,08 unidades de concentración en nuestro caso) indica la menor diferencia de concentración que puede apreciarse a lo largo del intervalo de aplicación de la técnica analítica.

Con respecto al límite de detección, puede estimarse como LOD = 2×t0,05,16 × 0.06 = 0,2. Se interpreta este último resultado diciendo que la técnica es capaz de detectar al analito cuando está en concentraciones superiores a 0,2.

Para el ejemplo de la Tabla 2 el LOQ se calcula como 0,6 unidades de concentración. Se interpreta como la menor concentración que se puede cuantificar, esto es, en el intervalo de concentración entre 0,2 y 0,6 la técnica puede detectar pero no cuantificar al analito.

Con esto se comprueba que la concentración predicha para la muestra incógnita No. 1 de la Tabla 4 está por debajo del LOQ, lo cual explica el alto valor de DSR.

Con respecto al rango dinámico, la máxima concentración probada fue de 10,00 unidades (Tabla 1). Hasta esa concentración existe un cambio de respuesta al cambiar la concentración, por lo que, a falta de mayor información, supondremos que el rango dinámico está entre 0,3 y 10 unidades de concentración.

Para estimar el rango lineal, se recurre a los datos de la Tabla 1, y se comprueba que para este caso, si se incluyen todos los datos, Fexp = 8,88, pF = 0,001, con lo cual dichos datos se declaran no lineales. Si vamos quitando datos, comenzando con los de mayor concentración, y recalculamos los valores de Fexp y sus pF asociadas, se obtienen los resultados informados en la Tabla 6.

18

Tabla 6. Rangos de concentración y estudio de la linealidad mediante la prueba F. Rango de concentración Fexp pF

0-10 0-9 0-8 0-7 0-6 0-5

8,88 6,69 4,62 3,50 2,73 1,58

0,001 0,001 0,001 0,007 0,031 0,214

Estos resultados indican que a partir de una concentración de analito igual a 6 unidades se

pierde la linealidad. En realidad, la no-linealidad se mantiene. Debería decirse que a partir de 6 unidades de concentración no es posible distinguir la incertidumbre por falta la linealidad de la incertidumbre intrínseca de la respuesta analítica.

La Tabla 7 resume las cifras de mérito calculadas.

Tabla 6. Cifras de mérito. Cifra de mérito Valor (unidades)

Sensibilidad Sensibilidad analítica Límite de detección Límite de cuantificación Rango dinámico Rango lineal

SEN = 1,32 (Unidades de respuesta)×(Unidades de concentración)–1 γ = SEN / sy/x = 13 (Unidades de concentración)–1

LOD = 0,2 (Unidades de concentración) LOQ = 0,6 (Unidades de concentración) 0,2-10,0 (Unidades de concentración) 0,6-6,0 (Unidades de concentración)

Ejercicios propuestos 1) Se analiza una serie de muestras patrones mediante dos métodos analíticos, uno basado

en medidas de absorbancia y otro basado en medidas de fluorescencia. Los resultados se muestran en la siguiente tabla:

Concentraciones de patrones y respuestas obtenidas mediante dos métodos analíticos. Concentración

del patrón Método A Método B

Respuesta 1

Respuesta 2

Respuesta 3

Respuesta 1

Respuesta 2

Respuesta 3

0,000 0,100 0,200 0,300 0,400 0,500

0,01 0,17 0,32 0,48 0,64 0,79

0,02 0,17 0,33 0,48 0,64 0,79

0,02 0,17 0,32 0,48 0,64 0,79

2,0 17,4 32,5 47,8 63,2 78,4

1,9 17,4 32,6 47,8 63,3 78,5

1,9 17,3 32,6 48,0 63,3 78,4

Calcule las cifras de mérito para cada método. ¿Cuál de estos métodos puede considerarse

más sensible? ¿Qué parámetro(s) emplea para justificar la mayor sensibilidad de un método sobre el otro?.

2) Se mide por triplicado una muestra incógnita, usando ambos métodos descriptos en el

problema anterior. Los resultados se presentan en la siguiente tabla:

19

Método A Método B

Respuesta 1

Respuesta 2

Respuesta 3

Respuesta 1

Respuesta 2

Respuesta 3

0,25 0,26 0,25 25,2 25,1 25,3 Calcular la concentración del analito por ambos métodos, y estimar su desvío estándar.

¿Qué comentarios pueden hacerse respecto de estos resultados? Se recomienda emplear las rutinas de MATLAB 'LR_CAL.M' y 'LR_PRED.M' (o sus

versiones respectivas en QB) organizando los datos de los ejercicios propuestos de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto.

3) En el análisis fluorimétrico de un compuesto, se realizan dos curvas de calibrado,

empleando dos longitudes de onda diferentes para la excitación. En el caso A, la emisión del compuesto está superpuesta con la dispersión Ramana del solvente, y el analista observa por lo tanto la presencia de un blanco constante de intensidad significativa. Decide modificar la longitud de onda de excitación, en este caso generando los datos del caso B, donde el blanco parece ser menor.

En la tabla siguiente se informan los datos de calibración para cada caso, en sus respectivos rangos lineales. ¿Qué conclusiones pueden extraerse respecto de las cifras de mérito de estos dos casos?

Caso A

Muestra Concentración Respuesta 1 Respuesta 2 Respuesta 3 1 2 3 4 5 6

0,000 0,198 0,392 0,583 0,769 0,950

0,78 3,38 5,75 8,53 10,97 13,40

0,80 3,44 6,16 8,51 11,04 13,08

0,82 3,51 6,01 8,68 10,89 13,37

Caso B

Muestra Concentración Respuesta 1 Respuesta 2 Respuesta 3 1 2 3 4 5 6 7 8

0,000 0,198 0,392 0,583 0,769 0,950 1,130 1,310

0,01 1,96 3,75 5,59 7,30 9,07 10,83 12,08

0,03 1,88 3,75 5,52 7,35 8,95 10,71 12,11

0,04 1,90 3,80 5,56 7,27 9,03 10,46 12,21

20

El 42,57 % de toda la estadística está equivocado.

Clase 2 Regresión lineal

"Elliptical viewpoint", escultura, tomada de www.sculpture-design.com.

Material suministrado con la clase 2 Para esta clase se proveen los siguientes archivos: • LECTURA ADICIONAL CLASE 2.PDF, documento de Adobe con un trabajo

educativo para lectura adicional. • Archivos de texto (*.TXT) conteniendo datos típicos para estudios de exactitud y

comparación de métodos. • Archivos (*.M) con rutinas para el entorno de programación MATLAB. • Archivos (*.EXE) con programas ejecutables en QB.

Parte 2: exactitud y comparación de métodos analíticos En este segundo capítulo sobre regresión lineal exploraremos su uso para el análisis de la

exactitud de un método analítico y para la comparación de dos métodos analíticos diferentes. La teoría se expone en este documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en la sección Ejercicio Resuelto.

La discusión que sigue está basada en trabajos recientes acerca del empleo de ensayos de recuperación para la validación y comparación de métodos,9 así como en la obra clásica de Massart y colaboradores.10

Para el estudio de la exactitud de un método analítico, es usual preparar una serie de patrones con concentraciones conocidas del analito de interés, diferentes a las utilizadas en la etapa de calibración. Luego se determina la concentración del analito en cada uno de ellos por interpolación en la recta de calibrado, y se analiza la exactitud de la determinación a través de la recuperación de las concentraciones nominales del analito.

21

Por otro lado, cuando se desean comparar dos métodos analíticos, se determina, por ambos métodos, el contenido de un analito en una serie de muestras en las que su concentración es variable (dentro del rango lineal de cada uno de ellos).

En ambos casos se trata de comparar parejas de valores que idealmente serían iguales, y estudiar el posible desvío de esta situación ideal, en un contexto estadístico y con un cierto nivel de confianza. Es por esta razón que ambos procedimientos se incluyen en la presente clase.

Exactitud de un método analítico Si se dispone de una serie de patrones de concentración conocida para la validación de un

método analítico, se procede del modo siguiente. En primer lugar se miden sus respuestas, incluyendo réplicas de cada medición (usualmente cada patrón se mide por triplicado). Se estima la concentración a partir de cada respuesta analítica, se promedian los valores para cada nivel y se calcula el desvío estándar asociado. Luego se realiza una regresión lineal de los promedios en función de las concentraciones nominales a cada nivel. El análisis difiere en ciertas sutilezas respecto del realizado en el caso de la Clase 1.

La nomenclatura empleada aquí se describe a continuación: x indica la variable concentración nominal de cada nivel, y la variable concentración promedio predicha para las réplicas de cada nivel, n el número de réplicas, q el número de niveles de validación estudiados, y s(yi) el desvío estándar en la señal para cada nivel de concentración (xi). Hay q desvíos estándar, dados por:

s(yi) = 1

)(1

2

−

−∑=

n

yyn

jiij

(1)

En la ecuación (1), yij indica la concentración para el patrón i en la réplica j, e iy es el promedio de las n réplicas para el nivel i.

Debemos notar que una de las premisas para realizar un estudio por regresión lineal simple es que la variancia de la variable y sea aproximadamente constante, u homoscedástica.11 La Figura 1 muestra las diferencias entre una variancia homoscedástica y otra heteroscedástica.

En la calibración de datos analíticos se supone que la distribución del ruido instrumental es constante a lo largo del rango de calibración, o en otras palabras, que la respuesta analítica es homoscedástica. Esto no es necesariamente así, sin embargo, si la variable y es la concentración predicha para patrones de validación, y no la respuesta analítica.

Como se estudió en la Clase 1, el desvío estándar en la concentración predicha mediante una recta de calibrado no es constante para diferentes muestras, sino que varía con la concentración del analito. Es decir que, en principio, la variable y que estamos considerando en esta clase no es homoscedástica. En estos casos, se recomienda realizar una regresión lineal mediante cuadrados mínimos ponderados (WLS, por weighted least-squares) y no una regresión ordinaria (OLS, por ordinary least-squares) como la empleada en la Clase 1.

Dado que el método WLS es más complicado que el OLS, lo recomendable es previamente verificar si efectivamente la variancia no es constante, para utilizar el primero en los casos en los que es estrictamente necesario. Una prueba de constancia de la variancia (o prueba de la homoscedasticidad) puede realizarse mediante el uso del parámetro estadístico F, calculando el valor "experimental" Fexp definido por el cociente entre el máximo y el mínimo valor de las variancias en las réplicas de los patrones [se toma como medida de cada variancia el valor de s(yi)2]:

22

Fexp = [ ][ ]2

2

)(min)(max

i

i

ysys (2)

Este valor se compara luego con el valor crítico de tablas para n – 1 y n – 1 grados de libertad (usualmente con el 95% de confianza). Si Fexp > Fcrit entonces se recomienda calcular los parámetros A y B de la regresión con el método WLS que se describe más adelante.

Figura 1. Arriba, variancia homoscedástica; abajo, variancia heteroscedástica.

Región de confianza en el caso homoscedástico Si se ha podido aplicar el método OLS descrito en la Clase 1, debido a que las variancias

son aproximadamente constantes, se dispone de los valores ajustados de A y B y de sus desvíos estándar. Estos parámetros han sido utilizados tradicionalmente para determinar si las concentraciones estimadas de los patrones de validación se diferencian estadísticamente (o no), de las nominales. El procedimiento consistía en verificar si los valores ideales de A y B (1 y 0 respectivamente) estaban contenidos dentro de los correspondientes intervalos de confianza para la pendiente y ordenada al origen ajustadas. Sin embargo, actualmente se considera que este procedimiento es incorrecto, puesto que no tiene en cuenta que A y B no

23

son variables estadísticamente independientes, y que siempre existe un cierto grado de correlación entre ellas.

El procedimiento correcto debe considerar el intervalo de confianza conjunto entre la pendiente y la ordenada al origen. Este intervalo es una región en el plano de las dos variables (pendiente y ordenada al origen) que tiene forma elíptica. Por este motivo, la prueba estadística correcta consiste en investigar si el punto (1,0) está contenido en la región elíptica de confianza conjunta de la pendiente y la ordenada al origen. La prueba se conoce como EJCR (por elliptical joint confidence region). Específicamente, la región elíptica está descripta por la siguiente ecuación:9

2,22

/1

22

1

2 2)())((2)( −==

=−α+−β−α+−β ∑∑ qxy

q

ii

q

ii FsxAxBABq (3)

En la ecuación precedente, α y β son las variables que corresponden a las dos dimensiones del plano en que se representa la región elíptica, y F2,q–2 es el valor del parámetro estadístico F con 2 y q – 2 grados de libertad para un dado nivel de confianza (usualmente 95%).

Por lo tanto, debe dibujarse en un gráfico bidimensional la región anterior y verificar si contiene al punto (1,0). Detalles de cómo se dibuja esta elipse en un caso particular se dan en el ejercicio resuelto del documento que se acompaña. La Figura 2 ilustra este tipo de región para un caso típico: si el punto (1,0) no está contenido dentro de la elipse, esto implica que el método no es exacto.

Es importante remarcar que el tamaño de la elipse, que está controlado, entre otros parámetros, por el desvío estándar de la regresión sy/x, da una idea de la precisión del método analítico que se está probando. En este sentido, es importante utilizar un número significativo de niveles de concentración para la prueba de exactitud, de manera que sy/x sea representativo de la regresión. De lo contrario, si se emplean sólo unos pocos niveles de concentración, se corre el riesgo de que la elipse abarque un área considerable, e incluya al punto ideal (1,0) sólo por azar. Véase la Figura 3 para aclarar este punto.

Nótese que el valor de sy/x en este caso es similar al parámetro usualmente empleado en la comparación de concentraciones predichas y nominales, llamado RMSE (por root mean square error):

RMSE = q

yy∑ − 2nominalpredicho )(

(4)

Se divide el numerador por q (y no por q – 1) debido a que RMSE no es un desvío estándar, sino la raíz cuadrada de una media de desvíos.

24

Pendiente

1.0 1.1

Ord

enad

a al

orig

en

-0.2

0.0

0.2

Pendiente

1.0 1.1

Ord

enad

a al

orig

en

-0.2

0.0

0.2

Figura 2. Dos regiones elípticas de confianza conjunta. Izquierda, método exacto. Derecha, método no exacto. El cuadrado marca el punto ideal (1,0).

Figura 3. Distintos tipos de elipses, de acuerdo con la exactitud y precisión: verde, exacta y precisa; celeste, exacta e imprecisa; amarilla, inexacta e imprecisa; naranja, inexacta y precisa. El cuadrado negro marca el punto ideal (1,0).

Regresión ponderada Si los datos no cumplen con la prueba de homoscedasticidad, el análisis de los datos de

validación debe hacerse mediante regresión lineal ponderada. En este caso se calculan la pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuación y = A x + B, minimizando la siguiente suma ponderada de cuadrados (SC):

SC = ∑=

−q

iiii yyw

1

2)ˆ( (5)

Pendiente

Ord

enad

a al

orig

en ■

25

donde wi es el "peso" o "ponderación" aplicado a cada punto de la regresión, q el número de puntos, yi el valor de la variable y en cada punto (los promedios iy de las réplicas) e y es el promedio de los valores de la variable y. En el método OLS utilizado en calibración, la suma de cuadrados no incluye peso o ponderación alguna.

Cuando los datos son heteroscedásticos, el peso wi se define como inversamente proporcional a la variancia de la variable en el punto i:

wi = 2)(

1

iys (6)

El efecto concreto del pesado de los datos en forma inversamente proporcional a su variancia es dar mayor contribución, en la regresión, a los datos más precisos, y comparativamente menor peso a los menos precisos.

Los valores estimados de A y B de una regresión lineal ponderada se calculan mediante las siguientes ecuaciones:

A = 2

1

1

)(

))((

w

q

iii

q

iwiwii

xxw

yyxxw

−

−−

∑

∑

=

= (7)

B = wy – A wx (8) donde xi es la concentración de cada uno de los q patrones de validación, y los parámetros wx e wy son las coordenadas del centro de gravedad pesado por donde pasa la recta ajustada, que están dadas por:

wx =

∑

∑

=

=q

ii

q

iii

w

xw

1

1 (9)

wy =

∑

∑

=

=q

ii

q

iii

w

yw

1

1 (10)

En el método WLS el parámetro sy/x (el desvío estándar de los residuos de la regresión) está dado por:

sy/x = 2

)ˆ(1

2

−

−∑=

q

yywq

iiii

(11)

donde yi es la respuesta experimental, e iy representa la respuesta estimada en cada punto, esto es, iy = A xi + B.

El lector podrá comprobar que si todos los wi son idénticos entre sí (homoscedasticidad perfecta), las ecuaciones anteriores se reducen al caso OLS tratado en la Clase 1.

Región de confianza en el caso heteroscedástico Cuando se aplica el método WLS para determinar A y B, la prueba de exactitud del

método analítico es idéntica a la descrita en el caso OLS, excepto que la ecuación que describe la elipse de confianza conjunta es:

26

2,22

/1

22

11

2 2)())((2)( −===

=−α+−β−α+−β ∑∑∑ qxy

q

iii

q

iii

q

ii FsxwAxwBAwB (12)

Comparación de métodos analíticos La comparación de dos métodos se lleva a cabo disponiendo de una serie de muestras para

las que se ha determinado el contenido de un analito por dos métodos alternativos. Usualmente se mide cada muestra por triplicado por ambos métodos, y se aplica un modelo de regresión lineal para verificar si los resultados provistos por ambos métodos son comparables.

Cada muestra estudiada proporciona entonces una concentración predicha por cada uno de los dos métodos, acompañadas por sus respectivas variancias. Supongamos que los resultados determinados por el método 1 se consideran la variable x y los provistos por el método 2 la variable y (en la comparación de un método dado frente a otro considerado como referencia, este último se toma como método 1). Ambas variables, por lo tanto, tienen asociada una incertidumbre finita. La regresión lineal de y vs. x en este caso difiere tanto del método OLS como del WLS, ya que en estos dos últimos la suposición básica es que no hay error en la variable x, aunque en realidad debería decirse que en OLS y WLS la incertidumbre asociada a la variable x (concentración nominal de patrones) es significativamente menor que la asociada a la variable y (respuesta analítica de los patrones, o concentración predicha por un dado método). Este supuesto no se cumple en la comparación de métodos analíticos, y es necesario recurrir a un método de regresión que tenga en cuenta los errores en ambos ejes. Un método popular para estos casos es el de cuadrados mínimos bivariados o BLS (por bivariate least-squares).12

En la técnica BLS la pendiente y la ordenada al origen de la recta ajustada se obtienen minimizando una función idéntica a la mostrada en la ecuación (5), excepto que los pesos son una función de las variancias en ambas variables:

[ ] 1222 )()( −+= iii xsAysw (13) En otras palabras, los pesos de la regresión "doblemente ponderada" BLS se eligen como

inversamente proporcionales a una combinación de las variancias en x y en y. Lamentablemente no existen fórmulas explícitas para estimar la pendiente y la ordenada al origen cuando los pesos tienen la forma dada por la ecuación (13), y debe recurrirse a un algoritmo matemático iterativo que no está disponible en los programas comerciales de ajuste por cuadrados mínimos. Esto es así porque en la ecuación (13) interviene la pendiente estimada A, que a su vez depende de los pesos.

Sin embargo, hay ocasiones en que no es imprescindible aplicar el método BLS: cuando la variancia en la variable x es significativamente menor que en la variable y, la comparación puede realizarse con éxito empleando el método WLS, considerando que no hay error en la variable x. De hecho, si s(xi)2 << s(yi)2, la ecuación (13) se reduce al caso WLS en que wi = s(yi)–2. Por este motivo se aconseja asignar, para la regresión lineal, la variable x a los valores hallados por el método más preciso, y la variable y al método menos preciso.

Si puede hacerse esta última aproximación, la comparación de métodos consiste en el cálculo de la pendiente y ordenada al origen mediante WLS, y consideración de la región elíptica de confianza conjunta, tal como se describió para el estudio de exactitud. Si el punto ideal (1,0) está contenido dentro de la elipse, los métodos son comparables estadísticamente en cuanto a la predicción de la concentración del analito en las muestras de validación.

Se recomienda consultar el trabajo que se adjunta (LECTURA ADICIONAL CLASE 2.PDF), en el que se ilustran los peligros de no emplear el método correcto de regresión para la comparación de métodos analíticos. También se discute el hecho de que en ciertos casos los métodos WLS y BLS pueden producir resultados similares, pero muy diferentes a los provistos por OLS.

27

Programas de computación Usuarios de MATLAB: se provee acceso a la rutina EJCR.M que puede usarse para

aplicar los métodos OLS, WLS y BLS, y generar la elipse correspondiente. Usuarios de QB: se provee acceso al programa EJCR.EXE, que realiza las operaciones

necesarias pero no grafica la elipse. Esta última puede obtenerse importando los datos generados por el programa en un entorno gráfico apropiado.

Véase también el ejercicio resuelto detalladamente que se acompaña.

Ejercicio resuelto 1) La Tabla 1 muestra datos para analizar la exactitud de un método analítico. Determine si

el método es exacto mediante regresión lineal y estudio de la región elíptica de confianza conjunta para A y B.

Tabla 1. Concentraciones nominales de patrones, y valores hallados por un método analítico (con sus desvíos estándar).

Muestra Nominal Hallada (promedio de cinco réplicas)

Desvío estándar

1 2 3 4 5 6 7

0,05 5,16 9,91 14,90 19,80 24,90 30,00

0,06 5,02 10,00 15,20 19,90 25,00 30,00

0,06 0,05 0,04 0,02 0,03 0,04 0,06

2) La Tabla 2 muestra datos para la comparación de dos métodos analíticos (promedios de

tres réplicas en cada caso), incluyendo los desvíos estándar de cada uno. Compare los resultados mediante regresión WLS y análisis de la región elíptica conjunta.

Tabla 2. Concentraciones halladas por dos métodos analíticos con sus desvíos estándar.

Muestra Método 1 Desvío estándar

Método 2 Desvío estándar

1 2 3 4 5 6 7

0,05 5,16 9,91 14,90 19,80 24,90 30,00

0,03 0,02 0,02 0,01 0,02 0,01 0,03

0,06 5,02 10,00 15,20 19,90 25,00 30,00

0,06 0,05 0,04 0,02 0,03 0,04 0,06

Respuesta detallada 1) En primer lugar debemos determinar si los datos de la Tabla 1 son homoscedásticos.

Para ello calculamos el cociente:

Fexp = [ ][ ] 9

)02,0()06,0(

)(min)(max

2

2

2

2==

i

i

ysys

28

Dado que este último valor es mayor que el de tabla [Fcrit (95%,4,4) = 6,5] concluimos que los datos son heteroscedásticos, y que debemos emplear el método WLS para el análisis por regresión lineal. Calculamos entonces los pesos wi de cada dato, los que se reúnen en la Tabla 3. El cálculo de cada peso se realiza mediante la ecuación:

wi =

∑=

−

−

q

ii

i

ys

yqs

1

2

2

)(

)(

De esta manera, se consigue que la suma de los pesos sea igual a q, lo que facilita los cálculos.

Tabla 3. Datos xi, yi y pesos wi para exactitud de métodos.

i xi yi wi 1 2 3 4 5 6 7

0,05 5,16 9,91 14,90 19,80 24,90 30,00

0,06 5,02 10,00 15,20 19,90 25,00 30,00

0,33 0,48 0,75 3,00 1,33 0,75 0,33

Note que los pesos son mayores para datos con menor desvío estándar. Para la muestra número 1, por ejemplo, tendremos:

w1 = 33,0

)06,0(1

)04,0(1

)03,0(1

)02,0(1

)04,0(1

)05,0(1

)06,0(1

)06,0(7

2222222

2=

++++++

Luego debemos calcular los valores de los diferentes productos de variables y pesos, que se muestran en la Tabla 4.

Tabla 4. Cálculos parciales para el método WLS. i ii xw 2

ii xw ii yw iii yxw 1 2 3 4 5 6 7

0,0167 2,4839 7,4538 44,8281 26,4756 18,7285 10,0287

0,0008 12,8169 73,8671 667,9384 524,2178 466,3399 300,8596

0,0201 2,4165 7,5215 45,7307 26,6094 18,8037 10,0287

0,0010 12,4692 74,5380 681,3868 526,8653 468,2128 300,8596

Total 110,0153 2.046,0405 111,1304 2.064,3327 Con los resultados anteriores, calculamos:

wx = 110,0153 / 7 = 15,72

wy = 111,1304 / 7 = 15,88

29

A = 2

1

1

)(

))((

w

q

iii

q

iwiwii

xxw

yyxxw

−

−−

∑

∑

=

= =

= 0022,1)72,15(70405,046.2

88,1572,1573327,064.22

2

1

2

1 =×−

××−=

−

−

∑

∑

=

=

w

q

iii

ww

q

iiii

xvxw

yxvyxw

B = wy – A wx = 15,88 – 1,0022 × 15,72 = 0,12 Estos valores deben acotarse al número correcto de cifras significativas conociendo los

desvíos estándar correspondientes. Los desvíos estándar en la pendiente y la ordenada al origen, estimadas por el método WLS de regresión lineal, están dados por ecuaciones análogas a las empleadas en el método OLS, pero con los valores de x e y pesados convenientemente:

sA = xx

xy

Qs /

sB = xx

wxy Q

xm

s2

/1

+

donde sy/x se determina mediante la ecuación apropiada para datos pesados (WLS), tal como se describió en la parte teórica:

sy/x = 2

)ˆ(1

2

−

−∑=

q

yywq

iiii

= 0,16

Por su parte, Qxx está dado por:

Qxx = 2

1

2w

q

iii xqxw −∑

=

= 316,2

A partir de estos parámetros, se obtiene (redondeando a una cifra significativa): sA = 0,01 sB = 0,2 Por lo tanto, la pendiente y la ordenada al origen se informan como A = 1,00(1) y B =

0,1(2). Para el estudio de la región elíptica, necesitamos los siguientes parámetros: q = 7

=∑=

q

iii xw

1110,0153

=∑=

q

iii xw

1

2 2.046,0405

=2/ xys 0,026

=−2,2 qF 8,6 Por lo tanto, la ecuación de la elipse estará dada por:

44,0)1(0405,046.2)1,0)(1(0306,220)1,0(7 22 =−α+−β−α+−β

30

La ecuación anterior tiene la siguiente forma: 4

232

21 )())(()( aBaBAaAa =−β+−β−α+−α

donde a1, a2, a3, a4, A y B son constantes y α y β son las variables. Los valores de las constantes son:

a1 = 2,046×103 a2 = 220,03 a3 = 7

a4 = 0,44 A = 1 B = 0,1 La ecuación describe una elipse en el plano (α,β). Para dibujar esta elipse es necesario

conocer sus límites en el eje de las abscisas (α). Estos límites se pueden calcular a partir de las siguientes consideraciones. En primer lugar re-escribimos la ecuación anterior como de segundo grado en (β – B):

[ ] 0)())(()( 42

122

3 =−−α+−β−α+−β aAaBAaBa Luego calculamos los valores de (β – B) a partir de la resolvente de segundo grado:

(β – B) = [ ]

3

42

1322

22

2)(4)()(

aaAaaAaAa −−α−−α±−α−

Observamos que sólo se obtendrán valores reales de (β – B) si se cumple que la expresión dentro de la raíz cuadrada es positiva; los límites se encuentran cuando esta expresión se iguala a cero:

[ ] 0)(4)( 42

1322

2 =−−α−−α aAaaAa de donde se pueden calcular los límites superior e inferior de (α – A) como:

LIM(α – A) = ± 13

22

43

44

aaaaa

+− = ± 0,0373

Para construir una tabla de valores de α y β, y graficar la elipse se calculan los correspondientes valores de β dentro de estos límites de α mediante la ecuación:

β = B + [ ]

3

42

1322

22

2))(4)()(

aaAaaAaAa −−α−−α±−α−

Ejemplos de pares de valores de α y β calculados con la ecuación anterior son:

α – A α β –0,0373 –0,0273 –0,0173 –0,0073 0,0027 0,0127 0,0227 0,0327

0,9627 0,9727 0,9827 0,9927 1,0027 1,0127 1,0227 1,0327

0,7110 0,6971 0,5903 0,4563 0,3027 0,1306 –0,0642 –0,3022

0,6520 0,3516 0,1441 –0,0362 –0,1970 –0,3393 –0,4587 –0,5350

La gráfica de la elipse correspondiente, construida con datos de la tabla anterior, es la

siguiente (el cuadrado sólido marca el punto ideal de pendiente 1 y ordenada 0):

31

Pendiente (α)

0.96 0.98 1.00 1.02 1.04 1.06

Ord

enad

a al

orig

en (β

)

-1

0

1 Se aprecia claramente que el punto ideal (1,0) está contenido en la elipse, por lo que el

método analizado es exacto. Usuarios de MATLAB: los datos de la tabla están contenidos en el archivo de texto

'DATOS_EXACT_WLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numéricos necesarios para graficar la región elíptica mediante programas gráficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse.

Usuarios de QB: los datos están en el archivo 'D_E_WLS.TXT' para ser estudiados por EJCR.EXE.

2) En este caso se trata de comparar dos métodos analíticos. Los resultados del análisis

mediante WLS son idénticos a los discutidos para la parte 1) (¿porqué?). Cuando se realiza un análisis BLS se calculan los siguientes valores de pendiente y

ordenada al origen: A = 1.00(1) B = 0,1(2) Nótese que son idénticos a los hallados mediante la técnica WLS. La explicación es que

los valores de la variable x (las concentraciones estimadas mediante el método analítico 1) tienen desvíos estándar menores que los de y (las concentraciones estimadas mediante el método analítico 2). Como consecuencia, es prácticamente lo mismo realizar el análisis mediante WLS o mediante BLS.

Usuarios de MATLAB: los datos de la tabla están contenidos en el archivo de texto 'DATOS_COMPAR_BLS.TXT', y organizados de tal modo que pueden estudiarse mediante la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona

32

los valores ajustados de pendiente y ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numéricos necesarios para graficar la región elíptica mediante programas gráficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse.

Usuarios de QB: los datos están en D_C_BLS.TXT.

Ejercicios propuestos 1) Los valores siguientes corresponden a la comparación entre las predicciones efectuadas

para la determinación de teofilina en sangre mediante un método espectrofotométrico, comparado con un método de inmunofluorescencia polarizada (FPIA). No se determinaron las muestras por triplicado debido a la cantidad insuficiente de muestra (sueros de pacientes pediátricos). Sin embargo, se estima que los desvíos estándar promedio para cada método son: 0.4 μg ml−1 para el método FPIA y 0.9 μg ml−1 para el espectrofotométrico. Llevar a cabo el análisis de comparación de métodos mediante la construcción de la elipse apropiada, suponiendo que los desvíos estándar anteriores son constantes para todos los datos.

Muestra Teofilina hallada / μg ml−1

FPIA Espectrofotométrico 1 0.0 1.4 2 6.5 5.3 3 33.2 30.6 4 9.7 12.7 5 12.2 14.9 6 14.8 17.7 7 20.1 19.9 8 15.6 18.5 9 19.3 20.4 10 16.8 22.6 11 24.2 27.1 12 28.6 29.8 13 0.0 0.0 14 3.9 1.6 15 8.0 5.7 16 11.2 14.2 17 11.4 15.3 18 14.7 17.5 19 16.5 17.6 20 16.6 19.4 21 19.8 18.7 22 19.5 18.9 23 23.0 21.2

2) En la determinación del antibiótico ciprofloxacina en orina se emplean tres métodos

multivariados diferentes. La tabla que sigue proporciona datos para estudiar la exactitud de cada método, frente a un grupo de muestras de referencia, cuya concentración de analito es conocida. Grafique las correspondientes EJCR y comente los resultados. Note que no hay datos disponibles acerca de los desvíos estándar, por lo que deberá realizarse un análisis OLS.

33

Muestra Nominal Método 1 Método 2 Método 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

190 87 23 13 38 150 26 58 125 65 90 160 48 75 0 0 0 0

173 80 26 6 19 142 33 67 146 63 89 158 41 64 10 5 3 11

214 86 29 14 28 145 16 60 126 67 92 172 52 68 11 8 7 7

208 107 46 28 50 160 47 80 146 75 120 174 61 92 26 21 30 27

Se recomienda emplear la rutina de MATLAB 'EJCR.M' (o su equivalente en QB)

organizando los datos del ejercicio propuesto de la manera que se presenta en los archivos de texto correspondientes al ejercicio resuelto.

34

Resoluciones a los ejercicios propuestos

Respuestas a los ejercicios propuestos en la clase 1

1) Empleando las ecuaciones de regresión lineal y cálculo de cifras de mérito expuestas en la teoría de la clase 1, se obtienen los siguientes resultados respecto de la sensibilidad:

Método Sensibilidad de calibración Sensibilidad analítica

A B

1,552 153.0

4,3×102 1,8×103

Nótese que la sensibilidad de calibración tiene cifras significativas compatibles con su

desvío estándar. En cambio, la sensibilidad analítica se informa con un número de cifras significativas que depende del cociente sensibilidad/ruido. Dado que el ruido se conoce con una o a lo sumo dos cifras significativas, la sensibilidad analítica se informa con dos cifras como máximo.

Estos resultados indican que tanto la sensibilidad de calibración como la sensibilidad analítica es significativamente mayor para el método B. Sin embargo, la sensibilidad de calibración es dos órdenes de magnitud mayor para B, mientras que la sensibilidad analítica es superior, pero en menos de un orden de magnitud. La sensibilidad analítica es un mejor parámetro para la comparación.

2) Las concentraciones predichas para la incógnita y sus desvíos estándar, usando ambos

métodos, son: Método Concentración (desvío

estándar) A B

0,153(1) 0,1517(4)

Como puede apreciarse, el desvío estándar calculado mediante el método B es menor,

debido a su mayor sensibilidad analítica. Como comentario, la sensibilidad analítica parece comportarse mejor, en cuanto cifra de

mérito, para calificar el desempeño de estos dos métodos, ya que se correlaciona con la precisión de cada cálculo de concentración.

3) Cifras de mérito en cada caso: Caso Sensibilidad Sensibilidad

analítica 1/γ LOD LOQ Rango

lineal A 13,2 114,1 0,009 0,02 0,06 0,06-0,95 B 9,3 91,2 0,011 0,03 0,08 0,08-1,31

Debe notarse que el caso A posee efectivamente un blanco significativo, ya que la

ordenada al origen es significativamente distinta de cero. En cuanto a las cifras de mérito, son algo mejores en el caso A, aunque el rango lineal es

también sensiblemente menor.

35

La elección entre estos dos casos es un ejemplo de que no se puede tener todo en la vida: habría que decidir qué es más importante para aplicaciones concretas, si el rango lineal extendido o la mayor sensibilidad.

Respuesta a los ejercicios propuestos en la clase 2 1) La tabla de datos debe complementarse con la de los desvíos estándar. En este caso,

dado que el desvío estándar para FPIA es menor que para el método espectrofotométrico, podría emplearse un análisis de tipo WLS, con los valores de desvío estándar igual a 0,9 para todos los datos de la tabla anterior. Esto último, sin embargo, es idéntico al uso de un método OLS (ver la teoría de la clase 2). Por lo tanto, podemos en este caso particular realizar una regresión lineal ordinaria empleando como variable y los valores provistos por el método espectrofotométrico y como variable x los provistos por el método FPIA.

Los resultados del análisis OLS son: Pendiente: 0,983 Ordenada al origen: 1,35 sy/x: 2,35 La elipse correspondiente contiene, aunque marginalmente, al punto ideal (1,0):

Vale la pena destacar el resultado que se obtendría mediante un análisis BLS, esto es,

considerando que tanto la variable x como la y están sujetas a incertidumbre: Pendiente: 0.996 Ordenada al origen: 1.16 sy/x: 2.39

36Pendiente0.8 0.9 1.0 1.1

Ord

enad

a al

orig

en

-10

0

10

20

30

1

2

3

Como puede apreciarse en la figura siguiente, el resultado final en cuanto al estudio de la comparación de los métodos es similar al hallado mediante el análisis OLS sencillo.

La rutina de MATLAB 'EJCR.M', proporciona los valores ajustados de pendiente y

ordenada al origen, produce una figura con la correspondiente elipse, y genera un archivo de texto que contiene los valores numéricos necesarios para graficar la región elíptica mediante programas gráficos: la primera columna de este archivo contiene los valores de pendiente y la segunda y tercera los valores de ordenada al origen que corresponden a las dos mitades de la elipse.

2) Se requiere graficar tres elipses, calculadas por OLS, que proporcionan visualmente

una buena impresión de la exactitud y precisión relativas de los tres métodos probados:

37

La conclusión es que el método más preciso es el 3 (menor tamaño de elipse), pero es muy poco exacto (alejado del punto ideal). El método 2 es el más exacto, y además es más preciso que el método 1.

38

Referencias 1. K. Danzer y L. A. Currie, Guidelines for calibration in analytical chemistry. Part 1.

Fundamentals and single component calibration, Pure & Appl. Chem. 1998, 70, 993-1014.

2. W. P. Gardiner, Statistical analysis methods for chemists. A software-based approach, The Royal Society of Chemistry, Cambridge, 1997.

3. J. N. Miller y J. C. Miller, Estadística y quimiometría para química analítica, 4ta. Edición, Prentice Hall, Madrid, 2002.

4. C. A. Clayton, J. W. Hines y P. D. Elkins, Detection limits with specified assurance probabilities, Anal. Chem. 1987, 59, 2506-2514.

5. L. A. Currie, Detection and quantification limits: origins and historical perspective, Anal. Chim. Acta 1999, 391, 127-134.

6. L. A. Currie, Recommendations in Evaluation of Analytical Methods including Detection and Quantification Capabilities, Pure Appl. Chem. 1995, 67, 1699-1723.

7. P. Wilrich, ISO/DIS 11843-1,2 (1995), Capability of Detection, ISO/TC69/SC6, ISO Standard, 11843-1, 1977.

8. M. Valcárcel, Principios de química analítica, Springer-Verlag Ibérica, Barcelona, 1999, p. 81.

9. A. G. González, M. A. Herrador y A. G. Asuero, Intra-laboratory testing of method accuracy from recovery assays, Talanta 1999, 48, 729-736.

10. D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam, 1997, Capítulo 8.

11. Los términos homoscedástico/a y homoscedasticidad existen en el contexto del "Diccionario Estadístico" que puede consultarse en http://www.estadistico.com/dic.html. También se usan, en forma equivalente, homocedástico/a y homocedasticidad.

12. J. Riu y F. X. Rius, Assessing the accuracy of analyical methods using linear regression with errors in both axes, Anal. Chem. 1996, 68, 1851-1857.

Regresión lineal en química...

Documents

Transcript of Regresión lineal en química...