jueves, 30 de julio de 2020

Estadistica Simple

Estadistica Simple

"Nuestra vida es un juego de Azar..Con un solo evento cierto: La nada infinita. A.Jiménez M

Estadística: En un sentido estricto el término se utiliza para denotar la toma, recopilación, organización, análisis y presentación de datos; incluso el término es aplicado a los mismos datos o números que se derivan de ellos, así se habla de estadística de empleo, estadística de accidentes, etc. La estadística es un método empleado en la toma de decisiones cuando estamos frente a la incertidumbre, partiendo de estudio de datos numéricos. Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población. Las personas o cosas que forman parte de la población se denominan elementos. A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: Sexo, Edad, Nivel de estudios, Profesión, Peso, Altura, Color de pelo,Etc. Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres. La población puede ser según su tamaño de dos tipos: Población finita: Cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase. Población infinita: Cuando el número de elementos que la forman es infinito, o tan grande que pudiese considerarse infinitos.. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita Un estudio estadístico, generalmente se realiza sobre un subconjunto de elementos de la población. Este subconjunto recibe el nombre de muestra. Variables y atributos. Los caracteres de un elemento que forman parte de la población los podemos clasificar en: dos grandes clases: *Variables Cuantitativas. *Variables Cualitativas o Atributos. Las variables cuantitativas son las que se describen por medio de números, como por ejemplo el peso, Altura, Edad, etc… A su vez este tipo de variables se puede dividir en dos subclases: Cuantitativas discretas: Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc. Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc. No obstante en muchos casos el tratamiento estadístico hace que a las variables discretas las trabajemos como si fuesen continuas y viceversa. Variables Cualitativas: Son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo: Sexo, profesión, estado civil, etc. A su vez las podemos clasificar en: Ordenables: Aquellas que sugieren una ordenación, por ejemplo la graduación militar, El nivel de estudios, etc. No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.
REDONDEO DE DATOS El resultado de redondear un número como 72.8 al entero más próximo es 73, puesto que 72.8 está más cerca de 73 que de 72. De la misma manera, 72.8146 redondeado al número decimal con dos decimales será 72.81 puesto que 72.8146 está más cerca de 72.81 que de 72.82 DISTRIBUCIONES DE FRECUENCIAS Toma de Datos: Es la obtención de una colección de los mismos que no han sido ordenados numéricamente. Por ejemplo, Un conjunto de alturas de 100 estudiantes de una universidad. Ordenación: Es ordenar los datos obtenidos y colocarlos en forma creciente o decreciente de magnitud. Rango: Es la diferencia entre el mayor y el menor de los datos dentro de una colección. Por ejemplo, si la altura mayor de los 100 estudiantes de una muestra es de 74 pulgadas y la menor es de 60 pulgadas, el rango es de 14 pulgadas ( =74 – 60 ). Distribución de Frecuencias:
Los datos se pueden distribuir en clases o categorías y determinar el número de individuos o elementos pertenecientes a cada clase .
Intervalos de Clases y Límites de Clases:
Si nos fijamos en el cuadro superior, un intervalo de clase es una rango de valores observados. Delimitados por dos números extremos que reciben el nombre de límite superior y límite inferior. Por ejemplo, 63 - 65 es un intervalo, donde el límite inferior es 63 y el superior es 65
Limites Reales de Clases:
Estos límites se obtienen sumando el límite superior e inferior de dos intervalos de clases contiguos. Por ejemplo:
60 - 62
63 - 65
62 + 63 = 125/2 = 62,5
Tamaño o ancho de un intervalo de clase (= C)
Es la diferencia entre el límite superior e inferior de un intervalo de clases.

Marcas de Clases:
Es el punto medio del intervao de clase y se obtiene sumando los límites inferior y superior de la clase y dividiendo por dos. Por ejemplo, el siguiente intervalo:
66 - 68
tiene como marca de clase el número 67 = ( 66+68)/2
Reglas Generales para construir las Distribuciones de Frecuencias:
  1. Determinar el mayor y el menor entre los datos registrados, realizar su resta y así encontrar el rango (= r)
  2. Dividir el rango en un número conveniente de intervalos de clases del mismo tamaño. El número de intervalos se toma generalmente entre 5 y 20 dependiendo de los datos. Los intervalos de clase se eligen tambien de forma que las marcas de clases o puntos medios coincidan con algunos datos realmente observados.
  3. Encontrar el número de observaciones que caen dentro de cada intervalo de clase; es decir, encontrar las frecuencias de clases. Para ésto es mejor utilizar una columna de conte
Ejemplo:
Los kilómetros recorridos por 20 estudiantes al venir a la universidad desde sus casas, estan dados a continuación:

Mediana :
Calculo de la Moda para datos agrupados:
La Moda de una serie de números es aquel valor que se presenta con mayor frecuencia, es decir, es el valor más común. La moda puede no existir, incluso si existe puede no ser única. Una distribución que tiene una sola moda se llama unimodal. Para datos agrupados, la moda puede obtenerse mediante la siguiente fórmula:
Si deseas puedes bajarte el archivo sobre Media, Mediana y Moda: Clik Aqui
Si deseas puedes consultar un ejercicio resuelto Media, Mediana, Histograma: Click Aqui

HISTOGRAMAS Y POLIGONOS DE FRECUENCIA.
Son dos representaciones gráficas de las distribuciones de frecuencia. 1. Un HISTOGRAMA DE FRECUENCIA, consiste en una serie de rectángulos que tienen: a) Sus bases sobre el eje horizontal (eje X) con centros en las marcas de clases y longitud igual al tamaño de los intervalos de clase b) Alturas proporcionales a las frecuencias de clase 2. Un POLIGONO DE FRECUENCIA, es un gráfico de línea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el histograma
Ejercicio Resuelto:
LA DESVIACION TIPICA Y OTRAS MEDIDAS DE DISPERSION
El grado de dispersión de los datos númericos alrededor de un valor medio recibe el nombre de variación o dispersón de los datos. Entre las medidas de dispersión, tenemos: a) El Rango, b) la Desviación Media, c) Cuartiles, Deciles y Percentiles. D)La Desviación Típica
RANGO:
El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos. Ejemplo: El rango de los números 2, 3, 3, 5, 5, 5, 8, 10, 12 es: 10
DESVIACION MEDIA:
La Desviación Media (=DM), es un promedio de la sumatoria de las desviaciones de un conjunto de datos con respecto a su media
CUARTILES, DECILES, PERCENTILES:
Entre otras medidas de posición no central, se suele utilizar una serie de valores que dividen la muestra en tramos iguales: CUARTILES: Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, cada uno de estos tramos concentra el 25% de los resultados. DECILES: Son 9 valores que distribuyen la serie de datos, ordenada en forma creciente o decreciente, en diez tramos o partes iguales, en los que cada uno de ellos concentra el 10% de los resultados. PERCENTILES:Son 99 valores que distribuyen la serie de datos, ordenada en forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados Ejemplo:Vamos a calcular los cuartiles de una serie de datos referidos a la estatura de un grupo de alumnos. Los deciles y percentiles se calculan de una manera igual, aunque para ello haría falta distribuciones con mayor número de datos
Otenemos los datos, de un grupo de estudiantes

Luego los ordenamos en forma creciente y anotamos sus frecuencias ( veces en que se repiten las estaturas). Primero, sus FRECUENCIAS ABSOLUTAS (simples y acumuladas). Luego, sus FRECUENCIAS RELATIVAS (simples y acumuladas)

El Primer cuartil, es el valor 1.22 Cm, ya que por debajo de él se sitúa el 25% de la frecuencia, como se puede ver en la columna de la frecuencia relativa acumulada. El segundo cuartil, es el valor: 1.26 Cm, ya que entre este valor y el primer cuartil se situa otro 25% de la frecuencia, para un acumulado del 50% El tercer cuartil, es el valor: 1.28 Cm, ya que entre este valor y el segundo cuartil se sitúa otro 25% de la frecuencia, para un acumulado del 75%.
DESVIACIÓN TIPICA: Vaya a la ventana Pizarra, seleccione Estadist I. Resuelva el Problema No.1

Para datos agrupados, la Desviación Típica se calcula de la siguiente manera:

sábado, 23 de julio de 2016

Poisson

DISTRIBUCION DISCRETA DE PROBABILIDAD Distribucion de Poisson
Existen eventos que no ocurren como resultados de un número definido de pruebas de un experimento, sino en puntos aleatorios del tiempo o espacio en la que cada punto representa una ocurrencia del evento. Para eventos de este tipo, nos interesa sólo el número de ocurrencia del evento, no su falta de ocurrencia.
Características: En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc: - Nro. de autobuses que llegan al terminal durante cierta hora. - Nro. de errores de impresión en cada página de un libro. - Nro. de bacterias por cm2 de cultivo - Nro. de llamadas telefónicas a una central; por hora, minuto, etc. - Nro. de defectos de la superficie de una mesa, de un grupo de mercancías, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería:

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado.
PROPIEDADES DE LA DISTRIBUCION DE POISSON
Ejemplo: Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) 4 cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos? Solución: a)Los datos a usar son: b) En este caso estamos interesados en que se reciban 10 cheques sin fondos en dos días consecutivos. Ejemplo:
En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos.
Solución:
a) Si tenemos 0.2 imperfecciones en promedio por minuto, en 3 minutos tendremos en promedio:0.6 imperfeciones. Además estamos interesado en que aparezca 1 imperfección en 3 minutos
b) Si tenemos 0.2 imperfecciones en promedio por minuto, en 5 minutos tendremos en promedio: 1 imperfeción. Además estamos interesado en que aparezca al menos 2 imperfecciones en 5 minutos; es decir estamos interesados en que el número de éxitos sea: 2,3,4,5,6,7,...Para ello buscaríamos las imperfecciones menores a dos (x=0, x=1) y por diferencia (restando de uno)obtendríamos la probabilidad del número de éxitos mayor o igual a 2
c) Cuando más una (1)imperfección en 15 minutos. Aqui se refiere a que x sólo puede tomar dos valores: x=0 y x=1. Además si tenemos 0.2 imperfecciones en promedio por minuto; en 15 minutos tendremos en promedio: 3 imperfecciones
RELACION ENTRE LAS DISTRIBUCIONES BINOMIAL Y DE POISSON.
En la Distribución Binomial, si N es grande, mientras que la probabilidad p de ocurrencia de un suceso está cerca de cero, de modo que q =(1-p) está cerca de 1. En la práctica se puede considerar N igual grande si el número de repeticiones del experimento (ensayos)es mayor o igual a 50 (N=> 50)mientras que N*p es menor que 5. En tales casos la distribución binomial se aproxima mucho a la distribución de Poisson, tomando en cuenta que:
Ejemplo:
Un 10% de los tornillos producidos en un cierto proceso de fabricación resulta ser defectuoso. Hallar la probabilidad de que en una muestra de 50 tornillos elegidos al azar sean exactamente 2 los defectuosos. Resolverlo mediante: a) La distribución binomial, (b) Mediante aproximación de Poisson a la binomial.
Solución:
Datos:
N=50
p=10% (porcentaje de tornillos defectuosos)
q=1-p=0.90
x=2 (excatamente dos sean defectuosos)
Si lo deseas, puedes bajarte un archivo de ayuda en: Click Aqui

viernes, 22 de julio de 2016

Distribución Normal

Distribución Continua de Probabilidad
"Existen las mentiras, grandes mentiras, y ... estadísticas" B. Disraeli
La Distribución Normal, Se dice que una variable aleatoria tiene una Distribución Normal si es continua, si existen las constantes: μ (con un valor entre menos infinito y más infinito) y σ (con un valor mayor que cero), y si su función de densidad está dada por la siguiente expresión:

donde X es una variable aleatoria normal, μ es la media, σ es la desviación típica, π es aproximadamente igual a: 3.14159, y e es aproximadamente igual: 2.71828.

Función densidad de Probabilidad.

  • Dado que la variable aleatoria continua es definida sobre un rango continuo de valores (llamado el dominio de la variable), la gráfica de la función de densidad también será continua sobre ese rango.
  • El área limitada por la curva de la función de densidad y el eje de las x es igual a uno (=1).
  • La probabilidad que una variable aleatoria asuma un valor entre a y b es igual al área debajo la función de densidad, limitada por a y b.
Por ejemplo, considere la función de densidad de probabilidad mostrada en la siguiente gráfica. Suponga que deseamos conocer la probabilidad que la variable aleatoria X sea menor que o igual a a. La probabilidad que X sea menor o igual a a es igual al área bajo la curva limitada por menos infinito y la a. (como se indica por la zona sombreada)..
Nota: El área rayada en la gráfica representa la probabilidad de que la variable aleatoria X es menor o igual a la a. Esto es una probabilidad acumulativa. Sin embargo, la probabilidad de que X sea exactamente igual a la a, sería cero. Una variable continua puede tomar un número infinito de valores. La probabilidad que sea igual a un valor específico (tal como a ) es siempre cero.

La Curva Normal.

La gráfica de la distribución normal depende de dos factores - la media y la desviación típica-. La media de la distribución determina la ubicación del centro de la gráfica, y la desviación estándar determina la altura y amplitud de la gráfica. Cuando la desviación es grande, la curva es baja y amplia; cuando la desviación es pequeña, la curva es alta y estrecha. Toda distribución normal se asemeja a una curva simétrica de forma acampanada.
Probabilidad y la Curva Normal.
La distribución normal es una distribución continua de probabilidad. Esto tiene varias implicaciones para la probabilidad.
  • El área total bajo la curva normal es igual a uno (= 1).
  • La probabilidad que una variable aleatoria normal X sea igual a cualquier valor particular es cero (= 0 ).
  • La probabilidad que X sea igual o mayor a la a corresponde al área bajo la curva normal limitada por a y más infinito (como se indica por el área no sombreada en la siguiente figura ).
  • La probabilidad que X sea menor o igual que a está dada por el área bajo la curva normal limitada por a y menos infinito. (como está indicado por la zona sombreada en la siguiente figura).
Adicionalmente, cada curva normal (sin tomar en cuenta sus media o desviación típica) conforme a la siguiente "regla":
  • Cerca del 68% del área bajo la curva esta determinada por 1 una desviación tipica a partir de la media.
  • Cerca del 95% del área bajo la curva está determinada por 2 desviaciones típica a partir de la media.
  • Cerca del 99.7% del área bajo la curva caen dentro de 3 desviaciones típicas de la media.

Propiedades adicionales de la Normal a)Un cambio en el valor de μ desplaza toda la distribución normal, mientras que un cambio en el valor de σ simplemente altera su posición relativa con relación a una escala fija. Estos hechos indican que la Distribución Normal es realmente una familia de distribuciones. b)Un cambio lineal en la escala para una Distribución Normal, implica una nueva Distribución Normal; es decir, si X es una variable Normal, entonces: Y=a+bX, (para a diferente de cero), es también una variable normal. c)Si X1, X2, X3,...,Xn son variables normales independientes, entonces su suma, S, es también una variable normal. Además, debido a la independencia, la propiedad aditiva es válida tanto para la esperanza como para la varianza; es decir, la esperanza de S es la suma de las esperanzas de las n variables normales. Asimismo, la varianza de S es la suma de las varianzas de las n variables normales. d)Si la variable aleatoria X está normalmente distribuida con μ  y σ , entonces : z = ( X μ ) / σ está también normalmente distribuida. Esta transformación de X a Z, se le llama transformación Z tiene el efecto de reducir X a unidades en términos de desviaciones estándar. En otras palabras, dado un valor de X, el correspondiente valor de Z nos dice cuán lejos y en qué dirección está X de su media μ  en términos de su desviación estándar . Por ejemplo, Z=1.5 significa que el valor particular de X es 1.5 a la derecha de μ . De manera similar, Z = -2 significa que el valor particular de X es 2 σ a la izquierda de μ. Esta propiedad de una variable normal, nos permite calcular las probabilidades normales,
cualesquiera que sean los valores deμyσ, a partir de un solo cuadro de probabilidad para la
distribución normal estandarizada (=tipificada)
Ejemplo No: 1.
El promedio de luz de un bombillo manaufacturado por Acme Corporation, alcanza los 300 días con una desviación estándar de 50 dias. Asumiendo que la vida del bombillo está normalmente distribuida. ¿Cuál es la probabilidad que un bombillo de Acme dure al menos 365 días ?
Solución:
Dada la media de 300 días y una desviación estándar de 50 días, deseamos encontrar la probabilidad acumulada que la vida del bombillo sea menor o igual a 365 días. Así, conocemos los siguientes datos: * El valor de la variable aleatoria normal es de 365 días. * La media es igual a 300 días. * La desviación estándar es igual a 50 días. Introducimos estos valores en la calculadora de la Distribución Normal y calculamos la probabilidad acumulada. La respuesta es: P( X <= 365) = 0.90. Es decir, hay un 90 % de probabilidad de que el bombillo se quemará dentro de 365 días.
En caso de no tener una calculadora de éste tipo, acudimos a la Distribución Normal Estándar, un caso especial de la Distribución Normal. Es la distribución que ocurre cuando una variable aleatoria normal tiene media igual a cero y una desviación típica igual a uno.
La variable aleatoria normal de una distribución normal estándar es llamado un resultado típico o resultado z (tipificado). Cada variable aleatoria normal X puede ser transformada en un resultado tipificado, a través de la siguiente ecuación:
z = (X - μ) / σ
donde X es una variable aleatoria normal, μ es la media de X, y σ es la desviación estándar de X.
Tabla de la Distribucion Normal Estándar. Una tabla de la distribución normal estándar muestra la probabilidad acumulada asociada con un particular resultado z (valor tipificado). La columna z muestra el número tipificado y las otras dos columnas f(-z) y f(z) muestran la probabilidad acumulada desde menos infinito hasta el valor z, dependiendo si éste es negativo o positivo. Por ejemplo, una sección de la tabla normal estándar es reproducida abajo. Para encontrar la probabilidad acumulada de un valor z igual a: -1.31 buscamos por la primera columna el valor 1.31 luego nos desplazamos a la segunda columna f(-z) por ser un número negativo. La tabla muestra que la probabilidad de que una variable normal estándar sea menor que: -1.31 es de 0.0951; esto es: P(Z < -1.31) = 0.0951.

De hecho, se puede desear conocer la probabilidad entre un valor dado y más infinito. O se puede desear conocer la probabilidad que una variable aleatoria normal esté entre dos valores dados. Estas probabilidades son fáciles de calcular a partir de una tabla de distribución normal. De la siguiente manera:
*Sea: P(Z > a), la probabilidad que una variable normal estándar (= z) sea más grande que un valor dado (= a). Se obtiene mediante la siguiente fórmula:

La Distribución Normal como un Modelo de Medidas.

A menudo, fenómenos en el mundo real siguen una normal o se aproximan a una distribución normal. Esto permite a los investigadores a usar la distribución normal como un modelo para determinar las probabilidades asociadas con dichos fenómenos. Típicamente, el análisis involucra dos pasos: *Transformar los datos brutos. Usualmente los datos brutos no están expresados en unidades tipificadas Z . Se deben transformar a unidades Z usando la ecuación ya vista recientemente:
z = (X - μ) / σ.

*Encontrar la probabilidad. Una vez los datos han sido transformados en unidades tipificadas, se puede utilizar las tablas de las distribución normal estándar, calculadoras on line o manejar calculadoras gráficas para hallar las probabilidades asociadas con las unidades tipificadas Z.

Problema:

La media de los diámetros interiores de una muestra de 200 arandelas producidas por una máquina es de: 0.502 pulgadas y la desviación típica: 0.005 pulgadas. El propósito para el que se destinan estas arandelas permite una tolerancia máxima en el diámetro de: 0.496 hasta 0.508 pulgadas, de otro modo, las arandelas se consideran defectuosas. Determinar el porcentaje de arandelas defectuosas producidas por la máquina, suponiendo que los diámetros se distribuyen normalmente.

Solución:
El rango de tolerancia para que las arandelas sean aceptadas como buena, está dado por el rango: 0.496 hasta 0.508. Estas medidas debemos tipificarlas y dibujarlas como una distribución normal
Problema:
La media de los pesos de 500 estudiantes de la Universidad de Los Andes es de: 151 libras y la desviación típica: 15 libras. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan (a) entre 120 y 155 libras, (b) más de 185 libras.
Solución: