• Document: Distancias Estadísticas
  • Size: 6.87 MB
  • Uploaded: 2018-12-05 18:39:43
  • Status: Successfully converted


Some snippets from your converted document:

ESTADISTICA ESPAÑOLA Vol. 30, Núm. 1 19, 1989, p^gs. 295 a 378 Distancias Estadísticas por CARLES M. CUADRAS ^ Departament d'Estadística Universitat de Barcelona RESUMEN Este artículo trata de la aplicación de las funciones de distan- cia a la estadística y a1 análisis de datos. Se exponen y discuten expresiones sobre distancias y coeficientes de similaridad entre individuos y poblaciones. Se íncluyen también algunas aplicacio- nes a la biología, genética, psicología, arqueología, lingi.iística, anélisis de la varianza, regresión y asociación estoc^istica. Palab^as clave: Distancia de Mahalanobis, distancia de Rao, dis- tancia ultramétrica, coeficientes de similaridad, medidas de divergencia. AMS 1984: 62H25; 62H30; 62P99. 1. INTRODUCCION Las medidas de distancia entre poblaciones y dentro de poblaciones, han sido ampliamente utilizadas en numerosos campas científicos: antropología, agricultura, biología, genética, economía, lingiiística, psicología, sociología, etc. ^ La noción de distancia estadística junto con sus propiedades constituyen una importante herramienta, tanto en la estadística matem^tica como en el análisis de datos. En el primer caso porque mediante una distancia se ?9fi C^STAC^ISTIC'A ESF'A!^Ol_.A pueden construir contrastes de hipótesis, estudiar propiedades asintóticas de estimadores, comparar par^imetros, etc. En el segundo caso, porque fa distancia es un concepto muy intuitivo, que permite obtener representa- ciones geométricas, fáciles de entender, ofreciendo al investigador una importante ayuda para interpretar la estructura de !os datos. En líneas generales consideramos dos clases de distancias estadísticas entre individuos y poblaciones: a1 Los n individuos de una población S2 quedan descritos por una nnatriz de datos X(n x p), donde p es el número de variables estadísticas (cuantita- tivas, cualitativas, binarias o categóricasl. EI número n suele ser el tamaño de una muestra de la población (ejemplo: n= 75 estudiantes universitarios}, pero puede darse el caso de que Sl sea una población finita de n elementos (ejemplo: las n= 50 provincias españolas). Una distancia ^5;^ = ó(i,j) entre dos individuos o elementos i,j de S2 es una medida simétrica no negativa que cuantifica la diferencia entre ambos en relación con las variables. ^ se puede sumarizar a través de ia matriz de distancias ^f1 ^12 • . . ó1n ^2 r ^22 . . . Ú2 n ............... ^n ^ ^n2 ' ' ' ann siendo ^5;; = o, cS;, V J; . TABLA 1 Matriz de distancias genéticas entre 6 poblaciones de Drosophila sub- obscura: Heriot (H), Dalkeith (D), Groningen (G), Viena (V}, Zurich (Z}, Drobak ( Dr) H D G V Z Dr H O 0.083 0.290 0.399 0.331 0.307 D O ©.276 0.370 0,3 0.307 C; O 0.187 0.112 0.152 ^/ 0 0.128 0.260 Z O 0.235 Dr ^ b) Los individuos de cada pablación están caracterizados por un vector aleatorio X=(X,, ..., XP}, que sigue una distribución de probabilidad f(x^, ..., xP; f^}. La distancia entre dos individuos i,j, caracterizados por los puntos x;, DISTANCIAS ESTADISTICAS 297 xj de Rp, es una medida simétrica no negativa ^S Cx,,x^) que dependerá de Q. Análogamente la distancia entre dos poblaciones será una medida de diver- gencia ^S (8,,Q2) entre los parámetros que las caracterizan. También puede ser conveniente introducir una distancia c^ (x;,Q) entre un individuo i y las parámetros 8. Se pueden definir también distancias no paramétricas que miden la divergencia funcional entre funciones de densidad. En .algunos casos están relacionadas con medidas de entropia. Tanto en el caso a) como en el b^, en muchas aplicaciones interesa representar el conjunto S1 con la distancia ^, es decir, (S2, ^), mediante un espacio geométrico modelo (V,d), donde V es un conjunto geométrico (espacio euclídeo, variedad de Riemann, grafo, curva, etc.) y d es una distancia sobre V. Según la técnica de representación utilizada ( análisis de compon

Recently converted files (publicly available):