"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

domingo, 25 de septiembre de 2016

¿Son mis coeficientes de ajuste significativamente distintos de cero?

No es la primera vez ni será la última en la que me encuentre a científicos que incluyen el punto (0, 0) en una curva de calibración (me refiero a calibración lineal en toda la entrada). Yo siempre lo desaconsejo, pues para mí el calibrado es válido solo entre los puntos que se incluyen de forma experimental. Además, es muy común que a concentraciones bajas existan desviaciones de la supuesta linealidad del calibrado. En algunas técnicas, como la espectroscopia de absorción atómica con atomización electrotémica (ETAAS) es fácil asumir que el punto (0, 0), que se obtiene poniendo el equipo a cero cuando se mide el blanco, podría ser incluido, porque ciertamente hay buena linealidad a concentraciones muy bajas para esta técnica. Pero en fin, en el fondo es cuestión de escuelas de pensamiento...

Hoy no pretendo hablar de esto, aunque si de algo relacionado. Porque una cosa es incluir el punto (0, 0) en un calibrado cuando se ha medido el blanco y patrones de muy baja concentración (ng/mL, en el ejemplo de ETAAS), y otra es asumir ese valor sin haber comprobado lo que ocurre a concentraciones bajas. Y eso es lo que hace mucha gente cuando "obliga" a la recta de calibración a pasar por el origen de coordenadas. A veces, un valor muy distinto al cero puede ser significativamente igual al mismo, y un valor muy próximo a cero no serlo en absoluto. Aquí repasaremos el test estadístico más habitual para comprobar si un coeficiente es significativamente igual a cero, lo que puede ser utilizado para cualquier tipo de ajuste.

Una serie de datos de calibración, dos opciones de ajuste

Antes de empezar decir que estos datos son simulados, y que en un ajuste real, posiblemente la mayor variabilidad de los resultados hagan que no sea tan simple tomar decisiones. En mi opinión, tampoco es tan imperante eliminar la ordenada en el origen de una regresión lineal simple, pues la ecuación resultante es sencilla para realizar posteriores operaciones. No suelo emplear este procedimiento salvo que estuviésemos comprobando varias variables (cada una con su coeficiente) en un ajuste múltiple, o queramos eliminar algún orden superior de un polinomio. Otra advertencia es que este test es extremadamente sensible al nivel de errores aleatorios del sistema de medida, es decir, una mayor variabilidad puede eliminar un coeficiente sin necesidad y una poca variabilidad mantener un coeficiente innecesario. Pero al menos tenemos unas reglas que se pueden aplicar para tomar decisiones.

Imaginemos los siguientes datos de señal (Y) y de concentración (X). Calculemos la ecuación de la recta de mejor ajuste mediante la fórmula matricial =ESTIMACION.LINEAL(B2:B7,A2:A7,1,1). Este procedimiento se explica en la entrada del blog Cálculo de regresión en Excel 2007, que es perfectamente extrapolable a cualquier otra versión de Excel. Se observa una pendiente b=0.0244 ± 0.0001 y una ordenada en el origen a= 0.0027 ± 0.0006, con un coeficiente de determinación R^2=0.99984. La ordenada en el origen es muy pequeña, con lo que uno puede pensar en eliminarla. Pero, ¿sería correcto? Si obtuviésemos la ecuación de la recta haciendo cero la ordenada en el origen (=ESTIMACION.LINEAL(B2:B7,A2:A7,0,1)), el nuevo coeficiente de determinación sería R^2=0.99983. Casi el mismo valor, con lo que uno se piensa si merece la pena eliminar la ordenada en el origen del ajuste. 

Introducción de los datos del primer ejemplo y cálculo de la recta de mejor ajuste, con ordenada en el origen.
Pero no es esa la forma correcta de comprobarlo. Lo habitual en la mayoría de los paquetes estadísticos, y Excel no es una excepción, es mostrar los resultados con una prueba t de Student asociada que compara el valor del coeficiente con el cero (la hipótesis nula es que el valor del coeficiente es estadísticamente igual a cero). Es muy simple, porque el valor de t se obtiene dividiendo el coeficiente entre su error y se compara este valor con el t crítico para una probabilidad α y n-k grados de libertad (n es el número de puntos del calibrado y k el número de parámetros que se estiman en el modelo). En las versiones más recientes de Excel se emplea la fórmula =INV.T.2C(probabilidad,grados_de_libertad) para obtener el valor de t crítico (en versiones antiguas =DISTR.T.INV(), que aún funciona en las nuevas versiones). Esta es la forma que prefiero personalmente para comprobarlo, calcular los valores de t de los parámetros y el valor crítico, y compararlos directamente. Si el valor calculado es mayor que el crítico, se rechaza la hipótesis nula y se dice que el coeficiente es significativo. En caso contrario, el coeficiente es igual a cero, desde un punto de vista estadístico, para la probabilidad seleccionada (generalmente α=0.05).

 Aunque en la mayoría de los paquetes estadísticos no se suele calcular el valor crítico de t y compararlo directamente con el t calculado para el parámetro, sino que se calcula la probabilidad de que  t calculado sea menor que t crítica, o lo que es lo mismo, que el coeficiente sea igual a cero. En Excel se puede usar la función =DISTR.T.2C(x,grados_de_libertad) para obtener esta probabilidad, siendo x el valor de t calculado para el parámetro. En las siguientes figuras se ve como se introducen estas fórmulas en nuestro ejemplo y como quedarán los resultados.

Introducción de los datos del ejemplo para comprobar la significación de los coeficientes 

Resultados de la comprobación
Como puede verse, ambos valores de t son mayores que el valor crítico, o bien ambas probabilidades (p) son inferiores a 0.05. Es decir, los coeficientes no son significativamente iguales a cero y no se deben eliminar del modelo.

Esto mismo lo hace Excel empleando la función Regresión del complemento Análisis de datos del menú Datos. El complemento hay que activarlo en Archivo/Opciones/Complementos. Esta función se explica en  Cálculo de regresión en Excel 2007 y también se puede ver en el tutorial de ajuste en Excel publicado en la revista Educación Química. El formulario de esta función, que aparece en la siguiente figura, genera una hoja nueva en el libro de la que podemos sacar la misma información que  he indicado antes.

Formulario de la función Regresión del complemento Análisis de Datos

Resultados para la función Regresión del complemento análisis de datos.
En las celdas B17 y B18 aparecen los valores de ordenada en el origen (intercepción o intercepto) y pendiente, respectivamente. En las celdas C17 y C18 aparecen sus errores. Los valores de t calculado aparecen en las celdas D17 y D18 y la probabilidad de que el coeficiente sea igual a cero en las celdas E17 y E18. Además calcula unos límites de confianza para los coeficientes como (Coeficiente ± error del coeficiente* t calculado) para un nivel de confianza dado. Como se observa, los resultados son similares a los que se han obtenido mediante fórmulas.

El segundo ejemplo lo dejo a modo de ejercicio. Es curioso como ahora que tenemos una ordenada en el origen de 1.3 ± 1.0, el coeficiente es estadísticamente igual a cero. Como he dicho, todo depende de los errores del parámetro...

Segundo ejemplo, para que lo haga aquel que esté interesado






2 comentarios:

  1. Gracias por el artículo. Yo lo que hacía hasta ahora (posiblemente de manera errónea) es usar el SE de la ordenada en el origen para decidir si quitarla o no. Si el valor de la ordenada es menor o igual al SE lo elimino.

    Lo de que no recomiendas incluir el (0,0) no me ha quedado muy claro a qué te referías (posiblemente sea uno de esos científicos de los que hablas). ¿Te refieres cuando no se usa un blanco en la curva de calibración? Te agradecería si pudieras extenderte en este punto o proporcionar algún enlace para estudiarlo.

    ResponderEliminar
    Respuestas
    1. Gracias por el comentario. Respecto a las preguntas, vamos por orden.

      El hecho de que intuitivamente eliminases la ordenada cuando su error es mayor que su valor está justificado. Precisamente en esos casos el valor de t calculado va a ser siempre menor que cualquier valor crítico de t que consideres, con lo que tu intuición y el test dan el mismo resultado. Ten en cuenta que si le calculases el intervalo de confianza, el valor de cero se encontraría dentro del mismo. No lo has hecho mal, solo que "estadísticamente" es más elegante el test que indico en esta entrada.

      En cuanto a lo del (0, 0), me refiero a que hay personas que por sistema ajustan una función forzando a pasar la curva por el punto (X, Y) = (0, 0). Lo que yo planteo es que si uno calibra entre 1 mg/L y 10 mg/L, la linealidad se puede asegurar (mediante algún test sería lo correcto, aunque hay mucha controversia al respecto de los criterios de linealidad) solo en ese intervalo. En nuestro imaginario caso, por debajo de 1 mg/L no se sabe que ocurre de forma experimental, y tampoco por encima de 10 mg/L. Si alguno trabaja a concentraciones muy bajas, como cito en el ejemplo podría ser usando ETAAS, con concentraciones del orden del ng/mL, la cosa podría cambiar. El ETAAS es una técnica que obtiene un vapor atómico tras eliminar disolvente y matriz en pasos previos a la medida y suele ser lineal a concentraciones muy bajas. En estos caso la ordenada en el origen casi pasa por el cero. Muchos investigadores hacen el blanco, ajustan a cero la señal y usan este punto para alargar su recta de calibrado por la parte baja. No es mala praxis en sí, porque pueden demostrar que eso es prácticamente así. Pero yo soy como el Apóstol Santo Tomás, si no lo veo no lo creo, y solo uso el rango de concentraciones en que he preparado los patrones.
      He encontrado una presentación que explica muy bien lo que quiero decir con lo del (0, 0). Y trae referencias.

      Eliminar

Haz tu comentario... quedará pendiente de moderación