Supuestos de ACP

inferencial. • Normalidad .... estadísticos con distribuciones desconocidas o pobremente conocidas. ... La significancia estadística no siempre se piensa como la.
2MB Größe 26 Downloads 115 vistas
Análisis de Gradiente Ambiental: Ordenación sin contrastar

Ordenación sin contrastar

Características importantes de las técnicas ordenación no contrastantes

• Una familia de técnicas con objetivos similares. • Las entidades de muestreo (por ej, especies, sitios, observaciones) se

organizan a lo largo de gradientes ecológicos continuos.

• Las relaciones se evalúan dentro de un cjto de variables, no intenta

registrar relaciones entre un cjto de variables independientes y uno o más variables dependientes.

Características importantes de las técnicas ordenación no contrastantes

• La dominancia se extrae, subrayando gradientes de variación (por

ej, componentes principales) entre unidades de muestreo de un cjto de observaciones multivariadas, enfatiza la variación entre muestras más que su similitud (como en cluster). • Se reduce la dimensionalidad de un cjto de datos multivariados

condensando una gran cantidad de variables originales en un cjto de nuevas dimensiones compuestas (por ej., componentes principales) con una mínima pérdida de información.

Características importantes de las técnicas ordenación no contrastantes • Resume la redundancia de los datos ubicando entidades similares en

la proximidad en espacio de ordenación y produciendo una comprensión parsimoniosa de los datos en términos de unos pocos gradientes dominantes de variación. • Define dimensiones compuestas nuevas (por ej., componentes principales) como combinaciones lineales, pesadas de las varaibles originales. • Elimina ruido de un cjto de datos multivariados redescubriendo patrones en las primeras y pocas dimensiones compuestas (por ej, componentes principales) y desechando ruido a ejes subsecuentes.

Análisis de componentes principales (ACP)

ACP: el conjunto de datos • Cjto simple de variables, no hay distinción entre variables

independientes y dependientes.

• Variables contínuas, categóricas, o de conteo (preferentemente contínuas) cjtos de datos mixtos no son muy apropiados. •Cada entidad muestreal debería ser medida sobre el mismo cjto de variables. • Idealmente más muestras (filas) que variables (columnas(por ej, matriz de datos con rango completo).

ACP: La matriz de datos

• Datos ecológicos en dos vías:

¾ sitios por especie. ¾ nicho por especie. ¾Características ambientales por especie ¾ Características de especímenes de especies por especie.

ACP: el conjunto de datos

Supuestos de ACP El uso descriptivo de ACP no requiere supuestos pero si su uso inferencial. • • • •

Normalidad multivariada muestras aleatorias e independientes Efectos de outliers. Linealidad de variables 1. Normalidad multivariada ACP asume que la estructura subyacente de los datos es normal multivariada (hiperelisoidal con densidad variando de forma normal alrededor del centroide). Tal distribución existe cuando cada variable tiene una distribución normal alrededor de valores fijos sobre otras variables.

Supuestos de ACP

• Normalidad multivariada

Supuestos de ACP Consecuencias de normalidad multivariada:

• Tests de significancia inválidos.

• Pérdida de independencia (ortogonalidad) entre componentes principales. • Componentes principales tardíos (aquellos asociados a autovalores pequeños) podrían reemplazar a los componentes primeros, pero tendrán cargas en los componentes principales menores.

Supuestos de ACP Diagnóstico univariado para normal multivariada ¾Conducir tests univariados de normalidad para cada variable. ¾ Visualmente inspeccionar los gráficos de distribución (histogramas, boxplot, normal QQ) para cada variable. . ¾ “La normalidad univariada no es igual a normalidad multivariada. ¾ A menudo se usa para verificar si será necesario transformar las variables antes del ACP. ¾Se asume que la normal univariada es un buen paso hacia la normal multivariada.

Supuestos de ACP Soluciones normalidad Multivariada: • Colección de una muestra grande;

aunque haya una muestra grande, no es inherente a distribución normalidad. • Se puede ignorar el problema y no hacer inferencias. • Usar técnicas de ordenación no paramétrica como NMDS

Supuestos de ACP 2. Muestras aleatorias Independientes (y efectos de outliers) ACP asume que las muestras aleatorias de vectores de observación son graficados independientemente de una población normal multivariada p dimensional, los puntos muestrales representan una muestra aleatoria independiente de un espacio multidimensional.

Supuestos de ACP Consecuencias de muestras no independeintes (y outliers) • Invalidación de significancia de tests.

• Outliers y puntos agrupados que exceden sobre la dirección de los ejes componentes y por lo tanto afectan fuertemente la eficacia ecológica de la ordenación.

Supuestos de ACP 3- Outliers – diagnósticos univariados: • Estandarizar los datos e inspeccionar las entidades con

cualquier valor mayor a 2.5 desviaciones estándar de la media en cualquier variable.

Supuestos de ACP Outliers – diagnósticos univariados: Graficar boxplot para cada varaible y chequear los outliers posibles.

Supuestos de ACP Diagnósticos multivariados y Outliers: • Examinar las desviaciones de las distancias (euclidea) l promedio muestral a las otras muestras.

Puntuaciones de desviaciones estándar mayores a 3

Observaciones extremas

Supuestos de ACP Soluciones a supuestos de Muestra aleatoria independiente (y outliers):

• plan de muestreo inteligente (muestra

representativa grande).

• Usar muestreo aleatorio estratificado cuando sea necesario. • Eliminar “outliers”. • Ignorar problemas y no hacer inferencias.

Supuestos de ACP 3- Linealidad ACP asume que las variable cambian linealmente a lo largo de gradientes y que existen relaciones lineales entre las variables tales que las variables pueden combinarse en una forma lineal para crear los componentes principales.

Supuestos de ACP

Consecuencias de linealidad:

• Falla en identificar e

interpretar el gradiente.

Supuestos de ACP Consecuencias de linealidad:

(A) Gráficos de dispersión de variables

Supuestos de ACP Consecuencias de linealidad: (B) Gráfico de dispersión de puntos de componentes principales (CP).

Supuestos de ACP Consecuencias de linealidad: (C) Gráficos de dispersión de variables vs puntos de componentes principales (CP).

Supuestos de ACP Soluciones a ausencia de linealidad: • Mostrar un rango menor del gradiente ambiental.

• Uso alternativo de otros métodos de ordenación (ADC, ACPD, NMDS). • Interpretar resultados con precaución.

ACP: consideraciones de tamaño de muestra Reglas generales: • Más muestras (filas) que variables (columnas).

• Las muestras deberían describir adecuadamente cada comunidad distintiva. • Deberían tomarse las muestras de manera de asegurar que la estructura de covarianza de la población estimada sea segura y precisa desde el cjot de datos muestreales, para asegurar la estimación de parámetros estables.

Regla: N ≥ 3*P

ACP: consideraciones de tamaño de muestra Soluciones para tamaño de muestra:

• Eliminar variables poco importantes.

• Muestrear secuencialmente hasta que la media y la varianza de los parámetros estimados (autovectores y autovalores) se estabilicen. • Examinar la estabilidad de los resultados utilizando procedimientos de remuestreo. • Interpretar los resultados con precaución y no extrapolar.

ACP: derivando los componentes principales

Matrices de covarianza y correlación

ACP: derivando los componentes principales

Matrices de covarianza y correlación

ACP: derivando los componentes principales

ACP: derivando los componentes principales

Matrices de covarianza y correlación

• La matriz de Correlación trata a todas las variables con igual

importancia (da igual peso a todas las variables). Más parsimonioso. • Matriz de filas covarianza da más peso a variables con mayor

covarianza (da pesos a variables proporcionalmente a sus varianzas).

ACP: derivando los componentes principales Autovalores o “eigenvalues”

Función característica:

• Un cjto de datos NxP tiene P autovalores.

• autovalores = varianzas de los correspondientes CP. • λ1 > λ2 > λ3 > . . . > λp • Se aproxima Σλi = P = traza de la matriz de correlación • Se aproxima Σλi = Σσi = traza de matriz de covarianza

ACP: derivando los componentes principales

Autovalores o “eigenvalues”

ACP: derivando los componentes principales Autovectores o “eigenvectors”: Ecuación característica:

• Los autovectores son iguales a los coeficientes (pesos) de

las variables en las ecuaciones lineales que defienen los componentes principales. • Se aproxima : vi proporcional a estructura de pesoscoficientes (si). • Se aproxima que vi "no" es proporcional a si.

ACP: derivando los componentes principales Autovectores o “eigenvectors”:

ACP: derivando los componentes principales Autovectores Aproximación por correlación

Aproximación por covarianza

ACP: derivando los componentes principales Scores o puntos muestreales

Los scores o puntos representan los valores de las nuevas variables no correlacionadas (componentes) que pueden servir como datos de entrada para otros procedimientos estadísticos.

ACP: evaluando la importancia de los componentes principales • ¿Cuán importante o significativos es cada componente?

• ¿Cuántos componentes retener e interpretar? Criterio de raíz latente: • Retener componentes con autovalores mayores a 1

(aproximación sólo por correlación) porque autovalores menores a 1 representan menos varianza que contada por una variable. • Determinar la máxima cantidad de componentes a retener.

• Más confiable cuando la cantidad de variables está entre 20 y 50 y menos cuando P < 20.

ACP: evaluando la importancia de los componentes principales 1. Criterio de raíz latente

8 componentes principales

ACP: evaluando la importancia de los componentes principales

2. Criterio porcentaje relativo de varianza: Compara las magnitudes relativas de los autovalores para ver cuanto de la variación total muestreal en el cjto de datos es cuantificada por cada CP.

ACP: evaluando la importancia de los componentes principales 2. Criterio de porcentaje de varianza relativa: •

Acumula porcentajes de varianza de todos los autovalores a 100%.

• Se usa para evaluar la "importancia" de cada CP. •

Se usa para determinar la cantidad de CP a retener.

• Se usa para evaluar la efectividad en la ordenación como un todo parsimonioso resumiendo la estructura de los datos. • Es influenciado por la cantidad de variables en el cjto de datos (decrece cuando P incrementa). • Es influenciado por la cantidad de muestras (decrece cuando N incrementa). • Debería usarse en conjunción con otras mediciones.

ACP: evaluando la importancia de los componentes principales Tests de significancia para detectar los componentes principales:

A. Tests paramétricos: Raramente empleados por involucrar supuestos (muestra aleatoria independiente, normal multivariada, etc.).

B. Tests no paramétricos basados en procedimientos de remuestreo: Jackknife/Bootstrap/procedimientos de aleatorización: conceptualmente simples, uso de computadoras, involucra remuestreo de datos originales, para determinar la variabilidad de estadísticos con distribuciones desconocidas o pobremente conocidas.

ACP: evaluando la importancia de los componentes principales Tests de significancia: La significancia estadística no siempre se piensa como la significancia ecológica.

• Componente puede no tener una interpretación ecológica fenomenal como juzgado por las cargas componentes principales. • Componente puede no describir varianza según sus necesidades ecológicas. • Puede que la utilidad de cada CP dependa de un criterio ecológico.

ACP: interpretación de los componentes principales 1. Estructura de componentes principales (también ‘loadings’o cargas):

• Correlaciones bivariada producto-momento entre componentes

principales y variables originales.

• Las raices de cargas indican el porcentaje de la varianza de la variable cuantificada por ese componente. • Note que la estructura depende si se usa matriz de correlación o de covarianza en el eigenanalysis.

ACP: interpretación de los componentes principales 1. Estructura de componentes principales (también ‘loadings’o cargas):

ACP: interpretación de los componentes principales Significancia de estructura correlaciones: • sij > ±0.30 significante, cuando N > 50

• sij > ±0.26 significante, cuando N = 100 • sij > ±0.18 significante, cuando N = 200 • sij > ±0.15 significante, cuando N = 300 • La desventaja de esas reglas es que la cantidad de variables y el

componente específico no son tenidos en cuenta.

ACP: interpretación de los componentes principales Interpretando la estructura de correlaciones: • A mayor tamaño de muestra, menor es la carga para que sea

considerada significante.

• A mayor cantidad de variables utilizadas, menor es la carga para que sea considerada significante. • A mayor cantidad de componentes, mayor el valor de las cargas sobre los últimos factores para ser considerados significativos en interpretar. • Note, que los coeficientes de correlación pueden no necesariamente interpretar variables de importancia ecológica.

ACP: interpretación de los componentes principales Interpretando estructura de correlaciones:

• Los marcados

con rojo son cargas altamente significantes para cada variable.

•Los azules son otras cargas significativas.

ACP: interpretación de los componentes principales Interpretando estructura de correlaciones: • Los marcados con

rojo son cargas altamente significantes para cada variable.

•Los azules son otras cargas significativas.

ACP: interpretación de los componentes principales

Puntos en CP y Biplots: • Gráficos de dispersión

de puntos ilustran las relaciones entre entidades.

• Los ejes pueden tener una variedad de escalas. • Los gráficos de dispersión de puntos puede ser útil en evaluar los supuestos del modelo (linealidad, outliers, etc).

ACP: rotación de componentes principales Propuesta: Mejorar la interpretación del componente por redistribuir la varianza desde los primeros a los últimos componentes para simplificar teóricamente la estructura del CP, esto es incrementando cargas de variables importantes y decreciendo cargas en las variables poco o no importantes. • Rotación Ortogonal: ejes mantenidos a 90°

¾ rotación varimax ¾ rotación quartimax ¾ rotación equimax •

Rotación Oblicua: ejes no mantenidos a 90°

ACP: rotación de componentes principales

ACP: rotación de componentes principales

Rotaciones Ortogonales: • Varimax..rotación de columna para simplificar estructura dentro del componente y aprovechar la interpretación del componente (incrementa cargas altas y decrece cargas bajas). • Quartimax.. Rotación de filas para simplificar la interpretación de variables en términos comprender mejor los componentes (variables cargan alto sobre menos componentes).

ACP: rotación de componentes principales Uso y limitaciones: • Effectivo cuando la muestra es multivariada normal. • Rotaciones siempre reducen el autovalor (varianza) del primer componente. • Rotaciones siempre mantiene la varianza porcentual acumulativa (o varianza total cuantificada por los componentes retenidos). • Solamente es bueno si la rotación mejora la interpretación del componente.

Análisis de componentes principales Limitaciones • El ACP puede producir cjtos datos distorsionados con gradientes

largos, otras técnicas usar en estos casos.

• El ACP asume una distribución normal multivariada subyacente la cual es poco probable en datos ecológicos. • El ACP asume modelo de respuesta lineal, por ej., que las especies responden linealmente bajo gradientes ambientales subyacentes,

Análisis de componentes principales Revisión

autovalores autovectores

Varianzas de los CP. Pesos de variables en las combinaciones lineales de CP.

coeficientes estructura (cargas)

Correlaciones entre variables originales y CP.

puntos de componente principal

Localización de muestras sobre los componentes principales.

communalities finales

% de varianza en variables originales explicadas por los CP retenidos.