Estadística espacial y temporal

+10

No comments posted yet

Comments

bryan29c (6 years ago)

interesante presentacion sobre estadistica, me fue de mucha utilidad en mis estudios, tambien comparto con ustedes la noticia sobre Ana Patricia Botin http://www.santander.com/csgs/Satellite/CFWCSancomQP01/es_ES/Santander-/Sala-de-comunicacion/D%C2%AA-Ana-Patricia-Botin-Sanz-de-Sautuola-y-OShea.html saludos.

Slide 1

Estadística espacial y temporal* Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES http://carlosreynoso.com.ar * Introducción al curso y desarrollo del Módulo 1

Slide 2

Objetivos Proporcionar comprensión básica de las herramientas estadísticas convencionales del espacio y el tiempo, y en particular de sus alcances y limitaciones. Concientizar sobre la problematicidad inherente a herramientas que proporcionan (por definición) información sesgada y estática, ligada a supuestos de normalidad, homogeneidad y monotonía. Informar sobre formas alternativas de elaborar conocimiento y permitir la intervención en asuntos temporales y espaciales.

Slide 3

Módulo 1 – Estadísticas convencionales Argumentos, conceptos y límites de las estadísticas convencionales. Problemas fundamentales: distribuciones normales vs Ley de Potencia. Dilemas de la prueba estadística de la hipótesis nula. Justificación del modelado complejo como alternativa y complemento del modelado estadístico clásicos. Demarcación: ciencias de la complejidad vs pensamiento complejo. Principales algoritmos de la complejidad. Herramientas de estado de arte y su uso en proyectos de misión crítica a escala real.

Slide 4

Módulo 2 – Estadísticas temporales Estadísticas de la temporalidad. Dinámica no lineal y series temporales complejas en ciencias humanas. Modelos espaciales/temporales en geografía humana. Modelos de cambio y transiciones de fase. Criticalidad auto-organizada. Modelado complejo de procesos temporales: sincronización y control de caos. Significación y etiología de las medidas de análisis de recurrencia. Estado del arte y perspectivas. Ejercicios de análisis y diagnosis de series temporales con análisis de recurrencia. Ejercicios de dinámica no lineal aplicada a la hidrodinámica, modelado hidrológico y problemáticas análogas.

Slide 5

Módulo 3 – Estadísticas de la espacialidad Geoestadística clásica y geoestadística de la complejidad. Conceptos fundamentales y programas de cálculo y modelado. Problemas y alcances del modelado a escala regional. Ejercicios de contrastación entre análisis clásicos y complejos.

Slide 6

Módulo 4 – Estadísticas reticulares Estadísticas reticulares de la sociedad, el espacio y el tiempo. Redes sociales y redes espaciales. Alcances y limitaciones de la estadística reticular basada en presunciones de normalidad. Práctica razonada en análisis, medición y estadísticas reticulares.

Slide 7

Agenda de la presentación Tipificación de modelos Modelos estadísticos en la teoría y en la práctica La estadística como herramienta de la retórica Falacias, paradojas y técnicas de prevaricación Dilemas de la prueba estadística de la hipótesis nula Estadísticas robustas y no paramétricas Complejidad estadística como proyecto en construcción

Slide 8

Tipificación de modelos

Slide 9

Estadísticas Estadísticas en general Presunciones de normalidad No robustas, paramétricas Estadísticas espaciales Presunciones de homogeneidad Estadísticas temporales Presunciones de monotonía Análisis de series temporales Series temporales no lineales Presentación separada Transiciones de fase Presentación separada

Slide 10

Estadísticas – Demasiadas cosas Conceptos y técnicas de muestreo Estadísticas descriptivas Medidas de tendencia central Teoremas del límite central (TLC, CLT) Probabilidad Distribuciones de probabilidad (PDF) Multiplicidad de distribuciones Regresión lineal simple y múltiple Análisis de frecuencia acumulativa, intervalos de confianza Descubrimiento de patrones Patrones espaciales, atractores, minería de datos, minería de Web

Slide 11

Introducción a la estadística

Slide 12

Distribución normal Cerca del 68% del conjunto se encuentra a 1 desviación estándar de la media, 95 a 2 y 99,7 a 3 Las desviaciones que excedan 2 veces la DE se considerarán significativas Regla de 68-95-99,7 Mal llamada “curva de Bell”

Slide 13

Distribución normal Igual que el resto de las estadísticas, no es una matemática antigua Se remonta a Friedrich Gauss y por eso se la llama gaussiana Exaltada por el antropólogo Francis Galton:

Slide 14

Distribución normal Consolidada en ciencias sociales por Émile Durkheim: Sociología: Ciencia para distinguir los estados normales de los estados patológicos Anomia = falta de normalidad Crimen = una “desviación” Suicidio = varía en función inversa al grado de integración en la pauta normal

Slide 15

Distribución normal Exaltada por Karl Marx, también basado en Adolphe Quételet:

Slide 16

Estaturas “normales” Datos de Nassim Taleb:

Slide 17

Mandelbrot & Hudson

Slide 18

Fundamentación normal de la NHST Requisito de muestreo aleatorio ¿De dónde viene el 5%?

Slide 19

Fundamentación normal de la NHST

Slide 20

Ley de potencia Independiente de escala = No hay valores normales, ni una media, ni una escala característica La dispersión de los valores puede ser de orden astronómico

Slide 21

Escenarios independientes de escala Leyes de Pareto, Gutenberg-Richter, Omori, Zipf, Richardson Citas bibliográficas entre miembros de la comunidad académica, colaboraciones en reportes de investigación Relaciones sexuales (!!), agendas telefónicas Nexos sintácticos entre palabras en un texto o discurso Clientelismo, influencia Alianzas tecnológicas Relaciones entre actores de cine Sinapsis neuronales Contactos entre personas de una organización Cadenas alimentarias Conexiones entre organismos vinculados al metabolismo o proteínas reguladoras Propagación de enfermedades y virus informáticos Alternativa al concepto de epidemiología de las representaciones (Dan Sperber)

Slide 22

Diversidad de distribuciones Benford, Benini, Benktander, Bernoulli, beta, binomial, binomial negativa, de Bose-Einstein, Bradford, Bull, Burr, Cantor, Cauchy (o Breit-Wigner, o Lorentz), Champernowne, Chernoff, chi cuadrado, de Davis, Dirichlet, doble gamma, doble Weibull, de Erlang, exponencial, geométrica, de Gauss, Gibrat, Gompertz, gamma, Heaps, hiper­exponencial, hiper­geométrica, de Horton, Kleiber, Kumaraswamy, Laplace, Lévy, logarítmica, logística, log­normal, Lotka, de Moyal, multinormal, de Nakagami, Pareto, Poisson, Pólya, Rademacher, Rayleigh, Rice, secante hiperbólica, de Wigner o semi­circular, Skellam, de Student, triangular, uniforme, de von Misses, Wald, Wallenius, Yule-Simon, zeta, los tres tipos de valor extremo (Gumbel, Fréchet, Weibull) y por supuesto la distribución de Zipf, Zipf/Mandelbrot o LP Casi no hay tests de no-normalidad

Slide 23

Ejemplo – Distribución logística (1/2) Promovida por Joseph Berkson (1938) Afirmaba que el cigarrillo no causaba cáncer de pulmón Distribución simétrica pero de cola pesada Biología/ecología – Crecimiento de especies en competencia Epidemiología – Dispersión [spreading] de epidemias Mercadeo – Difusión de ventas de nuevos productos Energía – Difusión y sustitución de fuentes energéticas primarias (curva de Hubbert) Hidrología – Distribución de descargas de ríos (o régimen de lluvias) en el largo plazo

Slide 24

Ejemplo – Distribución logística (2/2)

Slide 25

Dilemas de la estadística en general

Slide 26

Dilemas de la estadística en general Falta de fundamentación lógica y matemática Problemas específicos de dominio Diferentes lógicas en lo espacial y temporal Autocorrelación Falta de robustez Teorema de Arrow Nelson Goodman Similitudes, diferencias, analogías Explosión combinatoria Cantidades precisas, cualidades inciertas Umberto Eco – Charles Hockett (prevaricación) 

Slide 27

Prevaricación (1/2)

Slide 28

Prevaricación (2/2)

Slide 29

Catálogo de problemas Problema del límite [boundary] Efecto del borde [edge] Efecto de forma Problema de escala Problema de la autocorrelación espacial [pattern problem] Waldo Tobler y la primera ley de la geografía Problema del cambio de soporte (COSP) Promediación por captura a diferentes escalas Falacia ecológica Falacia locacional Cada actor se sitúa en un solo sitio Nadie “vive” en los lugares más atestados Oficinas, estadios, ferrocarriles, malls Problema de la Unidad Areal Modificable (MAUP) →

Slide 30

Problemas de estadística espacial

Slide 31

Problema de la Unidad Areal Modificable (MAUP) Stan Openshaw

Slide 32

Problema de la Unidad Areal Modificable (MAUP) /1/2) Descubierto por Gehlke y Biehl (1934) y descripto por Stan Openshaw (1984) Vinculado a problemas de autocorrelación espacial y a la falacia ecológica Doble problema Problema de escala Problema de agregación No hay reglas, ni estándares, ni convenciones internacionales para orientar la agregación de datos espaciales.

Slide 33

Problema de la Unidad Areal Modificable (MAUP) (2/2) Los resultados derivados de datos recolectados en áreas pequeñas pueden ser diferentes si la recolección es sobre áreas más grandes P. ej. diversidad ecológica Personas, viviendas, edificios, manzanas, barrios, zonas urbanas, regiones, partidos, provincias, zonas geográficas, países, confederaciones.

Slide 34

Problema de la Unidad Areal Modificable (MAUP) Hay un número inmenso de organizaciones areales posibles, arrojando resultados diversos en cualquier medición. No es sólo un problema técnico sino un problema conceptual inevitable. Yule y Kendall (1950s) basados en Gehlke y Biehl (1934) demostraron que se puede producir cualquier correlación entre 0 y 1 meramente eligiendo un tamaño adecuado de la unidad areal

Slide 35

Catástrofres de la presunción de normalidad Falta de robustez de los parámetros de la estadística paramétrica Insuficiencia de los modelos de normalidad en su propio terreno La normalidad como horizonte de posibilidades de las consultoras financieras La “falsa medida del hombre” como matriz de referencia universal Escamoteo de la diversidad de distribuciones Ocultamiento de los fracasos históricos 

Slide 36

El indicador del agujero de ozono como outlier

Slide 37

El agujero de ozono Los métodos computacionales programados para identificar y suprimir outliers son responsables de haber retrasado la investigación sobre el agujero de ozono durante años (desde 1976 a 1985, por lo menos) por considerar que las desviaciones del 10% por debajo de la normalidad (180 unidades de Dobson) detectadas por los instrumentos TOMS del satélite Nimbus 7 se debían a errores en la toma y filtrado de datos. Revisados los programas del satélite y eliminados los filtros, se comprobó que el agujero venía siendo detectado por los sensores satelitales desde mucho antes sin que nadie hiciera nada al respecto (Farman, Gardiner y Shanklin 1985). Véase descargo de Friedrich Pukelsheim (“mito urbano”)

Slide 38

Efectos colaterales no significativos Laboratorios Merck Anti-inflamatorio Rofecoxib (marca Vioxx) Entre 5 y 8 casos fatales que no se manifestaron en el grupo de control 4,95% de significancia En el mejor escenario, poco menos de 5.000 muertes cada 100.000 cajas !! Desde 2005 se revirtió la jurisprudencia La Corte Suprema de USA, Wall Street Journal, etc., menos retrógrados que ciertos antropólogos

Slide 39

Prueba estadística de la hipótesis nula (NHST) http://carlosreynoso.com.ar/atolladeros-del-pensamiento-aleatorio-batallas- en-torno-de-la-prueba-estadistica/

Slide 40

Prueba estadística de la Hipótesis Nula (1/24) Prehistoria – Arbuthnott (1710) Prueba estadística de la existencia de Dios. Mayor proporción de nacimientos de hombres que de mujeres en Londres durante 82 años

Slide 41

Prueba estadística de la Hipótesis Nula (2/24) Prehistoria – Ysydro Edgeworth (1885) Se preguntaba si “las diferencias observadas entre las estaturas medias de 2315 criminales y la estatura media de 8585 adultos británicos de sexo masculino es significante”. Por influencia de Edgewoth se habla también de prueba estadística de significancia.

Slide 42

Prueba estadística de la Hipótesis Nula (3/24) Ronald Fisher Statistical methods for the research worker (1925) The design of experiments (1935)

Slide 43

Prueba estadística de la Hipótesis Nula (4/24) Ronald Fisher Es posible argumentar desde las observaciones a las hipótesis. Para lograrlo, se define primero una hipótesis nula. La HN se ve des-probada si la muestra estimada se desvía de la media de la distribución de muestreo por una cantidad mayor a la de un criterio especificado, llamado el nivel de significancia o valor crítico de p, el cual se sugiere se fije en un valor del 5%. La prueba fisheriana de significancia se centra en el rechazo de la hipótesis nula.

Slide 44

Prueba estadística de la Hipótesis Nula (5/24) Neyman y Pearson (1930s en adelante) Introducen la Hipótesis Alternativa No hablan de significancia, sino de Prueba de Hipótesis Introducen los tipos de error I y II

Slide 45

Prueba estadística de la Hipótesis Nula (6/24) Errores de tipo I y II

Slide 46

Prueba estadística de la Hipótesis Nula (7/24) Clifford Geertz, Conocimiento Local Tipificación al revés de lo correcto No corresponde hablar de “aceptar” hipótesis sino de rechazar vs no poder rechazar la hipótesis nula Tampoco el investigador está condenado a equivocarse, ni es posible situarse “entre” un error y otro

Slide 47

Prueba estadística de la Hipótesis Nula (8/24) Resumen de Fisher vs Neyman-Pearson:

Slide 48

Prueba estadística de la Hipótesis Nula (9/24) Supongamos que en 20 intentos hemos obtenido 14 caras y 6 cruces El valor de p sería la probabilidad de que se obtengan por lo menos 14 caras en 20 intentos La probabilidad se puede calcular de diversas formas. P. ej. por coeficientes binomiales

Slide 49

Prueba estadística de la Hipótesis Nula (10/24) Como la distribución binomial es simétrica para una moneda de dos caras, el valor de p para un test de doble cola es simplemente el doble del valor obtenido en la ecuación 0,0576… x 2 = 0,1152 Como este valor de p excede a 0,05, la observación es consistente con la HN, esto es, con la afirmación de que el resultado observado puede deberse solamente al azar. Aunque la moneda no cayó en forma pareja, no nos es posible rechazar la HN al nivel del 5%. Si lo hiciéramos, incurriríamos en lo que en una prueba de hipótesis sería un error de Tipo I

Slide 50

Prueba estadística de la Hipótesis Nula (11/24) La lógica de las pruebas de significancia o hipótesis es inválida Jacob Cohen (1994) Este primer razonamiento sería válido (modus tollens, negación del antecedente negando el consecuente) Pero el razonamiento es probabilístico: Otro caso de la misma falacia sería:

Slide 51

Prueba estadística de la Hipótesis Nula (12/24) La falacia es bien conocida desde los tiempos de How to Lie with Statistics (Darrel Huff, 1974: 75 y ss.) El libro de estadísticas más vendido en la segunda mitad del siglo XX Otro ejemplo a considerar:

Slide 52

Prueba estadística de la Hipótesis Nula (13/24) Otra falacia estadística implicada en la prueba estadística de la HN tiene nombre: Afirmación del consecuente: P → Q Q  P Negar la HN no implica afirmar cualquier otra (la contranula HN) Como decía Bateson, afirmación y negación operan a distintos niveles de tipificación

Slide 53

Prueba estadística de la Hipótesis Nula (14/24) Afirmación del consecuente en versión Neyman-Pearson Paul Meehl lo expone claramente:

Slide 54

Prueba estadística de la Hipótesis Nula (15/24) Hipótesis nula – Significado Fisher: La HN nunca se prueba ni se establece, sino que es posiblemente des-probada en el curso de la experimentación. Puede decirse que cada experimento sólo existe con el propósito de dar a los hechos la oportunidad de des-probar [dis­proving] la hipótesis nula.

Slide 55

Prueba estadística de la Hipótesis Nula (16/24) Hipótesis nula – Críticas: Joseph Berkson (2003): La evidencia ordinaria no toma esta forma. Con el corpus delicti delante nuestro no decimos “Hay evidencia contra la hipótesis de que nadie está muerto”. Decimos, más bien, que “Evidentemente alguien ha sido asesinado” Crítica usual: la HN casi nunca es verdad Hay empero papers y sitios de Web que reivindican la mala fama de la hipótesis nula La prueba de Arbuthnott, el creacionismo y su “diseño inteligente”, el triángulo de las Bermudas

Slide 56

Prueba estadística de la Hipótesis Nula (17/24) Hipótesis nula – Críticas – Trivialidad Fred Guthery – HN en ecología:

Slide 57

Prueba estadística de la Hipótesis Nula (18/24) Hipótesis Nula – Más críticas Jakob Cohen (“The earth is round: p<0.5”) Nil hypothesis – Refutación sin riesgos David Bakan:

Slide 58

Prueba estadística de la Hipótesis Nula (19/24) Carlos Reynoso (2011)

Slide 59

Prueba estadística de la Hipótesis Nula (20/24) Qué significa el valor de p? El tema está para la chacota: “Criteria for selecting a significance level: On the sacredness of .05” (Labovitz 1968), “The sacredness of .05: A note concerning the uses of statistical levels of significance in social science” (Skipper, Guenther y Nash 1970), “Confidence intervals rather than p values: estimation rather than hypothesis testing” (Gardner y Altman 1986), “The irreconcilability of P values and evidence” (Berger y Sellke 1987), “The end of the p value?” (Evans, Mills y Dawson 1988), “A picture is worth a thousand p values: On the irrelevance of hypothesis testing in the microcomputer age” (Loftus 1993), “The earth is round (p< .05)” (Cohen 1994), “Toward evidence-based medical statistics: 1. The p value fallacy” (Goodman 1999), “What your statistician never told you about P-values” (Blume y Peipert 2003), “Incongruence between test statistics and p values in medical papers” (García-Berthou y Alcaraz 2004), “A farewell to p-values?” (Moran y Solomon 2004), “A dirty dozen: Twelve P-value misconceptions” (Goodman 2008), “Exposing the P value fallacy to young residents” (Sestini y Rossi 2009) y “Much ado about the p value” (van der Pas 2010).

Slide 60

Prueba estadística de la Hipótesis Nula (21/24) Valor de p: Se define como la probabilidad de observar eventos tanto o más extremos que los que se manifiestan en los datos observados en caso que la hipótesis nula fuera verdad. Si es suficientemente pequeño (típicamente p 0.05) puede decirse que los datos proporcionan evidencia contra la HN, la que convendría rechazar. No mide la probabilidad de que la HN sea falsa

Slide 61

Prueba estadística de la Hipótesis Nula (22/24) Percepciones erróneas: Cuestionario de Gigerenzer y otros (2004)

Slide 62

Prueba estadística de la Hipótesis Nula (23/24) Porcentajes de respuestas erróneas:

Slide 63

Prueba estadística de la Hipótesis Nula (24/24) - Conclusiones Hay dictámenes de la Corte Suprema de USA que desestiman la NHST. Todavía vigente en políticas editoriales de journals científicos. La bibliografía crítica no ha puesto el acento en los supuestos estadísticos que la soportan. Recomendación pragmática: Especificar los datos de la NHST con el menor valor de p posible Pero asentar las reservas frente al método y a los supuestos en que se funda.

Slide 64

Tópicos pendientes Estadísticas de la complejidad Demarcación de métodos de complejidad Algoritmos de la complejidad Presentaciones separadas

Slide 65

Referencias

Slide 66

http://www.deirdremccloskey.org/academics/stats.php

Slide 67

http://sites.udel.edu/mjs/statistical-significance-references/

Slide 68

http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/ErisA.html

Slide 69

http://www.jasnh.com/

Slide 70

http://www.economist.com/node/2384590

Slide 71

Referencia primaria http://carlosreynoso.com.ar/estadistica-espacial-y-temporal/

Slide 72

¿Preguntas? Carlos Reynoso UNIVERSIDAD DE BUENOS AIRES http://carlosreynoso.com.ar

Summary: Estadisticas temporales y espaciales aplicadas a los estudios territoriales

Tags: estudios térritoriales estadisticas complejidad

URL: