MANUAL DE R: 4.DISTRIBUCIONES DISCRETAS

4.1 Distribución Binomial:

Es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos.

Un experimento de Bernoulli se caracteriza porque solo son posibles dos resultados, exito (p) y fracaso (q=1-p).

Formula distribución binomial

Para hacer uso de la distribución binomial en R, disponemos de cuatro comandos pero los más representativos son las descritos a continuación:

dbinom(x, size, prob, log = F) #Devuelve resultados de la función de densidad.
pbinom(q,size, prob, lower.tail = T, log.p = F)#Devuelve resultados de la función de distribución acumulada.

A los comandos descritos anteriormente les podemos pasar los siguientes parámetros:

x, q: Vector de cuantiles.
p: Vector de probabilidades.
n: Número de observaciones.
size: Números de ensayos(debe ser cero o más).
prob: Probabilidad de éxito en cada ensayo.
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p se ofrecen como log(p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Ejemplo

Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutan de buena salud. Según las tablas actuales, la probabilidad de que una persona en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que, transcurridos 30 años, vivan:

Menos de 4 personas.

Nos están pidiendo hallar la probabilidad de que transcurridos 30 años vivan menos de 4 personas.

Para calcular esta probabilidad es necesario utilizar el comando pbinom con los parámetros indicados (x,n,p,lower.tail=T).

Identificamos los valores de x, n y p.

Numero de éxitos obtenidos, 0<=X<=3.

Numero de pruebas, n=5.

Probabilidad de éxito, p=2/3.

Después invocamos el comando con los valores deseados.

También podemos utilizar el comando pbinom() sin el parámetro lower.tail siempre y cuando la probabilidad a hallar sea menor o igual.

Por defecto, R asigna el valor TRUE a lower.tail=T.

Analicemos si al ejecutar el mismo comando sin el parámetro lower.tail obtenemos la misma solución.

Por lo visto, la solución en ambos casos es la misma.

Concluimos que la probabilidad de que transcurridos 30 años vivan menos de 4 personas es del 53.90%.

Al menos 3 personas.

En este caso utilizaremos el mismo comando pbinom() pero el valor que se le asigna al parámetro lower.tail va a ser FALSE porque nos calcula las probabilidades por encima de 2, es decir, P(X>2).

La probabilidad de que transcurridos 30 años vivan al menos 3 personas es del 79.01%.

Exactamente 2 personas.

Para calcular la probabilidad de P(X=2), se debe utilizar el comando dbinom() en cambio de pbinom() porque la probabilidad no es acumulada, este comando recibe 4 parámetros que son: numero de éxitos x, numero de ensayos n, probabilidad de éxito p y un ultimo parámetro log el cual debe permanecer en FALSE o en su defecto omitimos este parámetro.

La probabilidad de que transcurridos 30 años vivan exactamente 2 personas equivale al 16,46%.

4.2 Distribución de Poisson:

En estadística, la distribución de Poisson es una de las distribuciones de probabilidad discreta. Esta distribución se utiliza para calcular las posibilidades de un evento con la tasa media dada de valor (λ). Una variable aleatoria de Poisson (x) se refiere al número de éxitos en un experimento de Poisson.

Formula distribución Poisson

A continuación se enuncian las funciones que se pueden utilizar en R con sus respectivos parámetros para calcular distribuciones de Poisson:

dpois(x, lambda, log =F) #Devuelve resultados de la función de densidad.
ppois(q, lambda, lower.tail = T, log.p = F) #Devuelve resultados de la función de distribución acumulada.

Es característico de la distribución de poisson la frecuencia con la que ocurre un evento, conociendo las veces con las que se espera ocurra dicho evento en un intervalo de tiempo. En R, esta distribución puede ejecutarse con los siguientes parámetros dados:

x: Vector de ocurrencias de un evento. (Valor entero positivo).
q: Vector de ocurrencias de un evento.
p: Vector de probabilidades.
n: Números de valores aleatorios a devolver.
prob: Probabilidad de éxito en cada ensayo.
lambda: Vector de medias (valor no negativo).
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Ejemplo

Una prisión de máxima seguridad reporta que el numero de intentos de escape por mes sigue una distribución aproximadamente poisson con una media de 1,5 intentos/mes.

Calcular:

Probabilidad de tres intentos de escape durante el próximo mes.

Debemos calcular la probabilidad de x=3, P(X=3), sabiendo que la media de intentos de escape por mes equivale a 1,5. Al no ser acumulativa la probabilidad usaremos el comando dpois(x, lambda,log=F).

La probabilidad de tres intentos de escape durante el próximo mes es del 12,55%.

Probabilidad de al menos un intento de escape el próximo mes.

Teniendo en cuenta que la probabilidad a calcular es de frecuencia acumulada, se desarrollara a través del comando ppois() junto con los parámetros x (numero de intentos) , lambda (media intentos/mes), lower.tal (sentido de la desigualdad) y log.p (probabilidad de p devuelta como logaritmo de p).

Notese que podemos omitir el ultimo parámetro ya que por defecto es FALSE y como queríamos calcular P(X>=1), el parámetro lower.tail se hace igual a FALSE, por eso nuestro x empieza desde cero, esto quiere decir que se van a calcular las probabilidades de x>0.

La probabilidad de al menos un intento de escape el próximo mes es del 77,68%.

4.3 Distribución Binomial Negativa

Una distribución binomial negativa se reconoce porque suceden un numero de fracasos para la aparición de tantos éxitos. Es una derivación de la distribución geométrica y se diferencia con respecto a esta en la multiplicidad de éxitos presentados.

Formula distribución binomial negativa

Para hallar valores basados en la distribución binomial negativa, haremos uso de 2 funciones las cuales son:

dnbinom(x, size, prob, mu, log = F) #Devuelve resultados de la función de densidad.

pnbinom(q, size, prob, mu, lower.tail = T, log.p = F). #Devuelve resultados de la función de distribución acumulada.

Parámetros disponibles para pasar a las funciones descritas:

x: Vector de cuantiles (Valores enteros positivos). Corresponde a número de pruebas falladas.

q: Vector de cuantiles.

p: Vector de probabilidades.

n: Números de valores aleatorios a devolver.

prob: Probabilidad de éxito en cada ensayo.

size: Número total de ensayos. Debe ser estrictamente positivo.

mu: Parametrización alternativa por la media.

log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).

lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Ejemplo

Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que;

a) el sexto de estos dispositivos de medición sometidos a prueba sea el tercero en mostrar una desviación excesiva?

Como primer paso siempre debemos recopilar la información que nos dan en el problema: y=6 (dispositivos de medición) , r=3 (3 dispositivos que muestren desviación excesiva), p = 0,05 (desviación excesiva).

La solución de este punto debe llevarse a cabo aplicando el comando dnbinom(), pasando por alto los dos últimos parámetros de la función pues no son necesarios.

La probabilidad de que el sexto de los dispositivos sometidos a prueba sea el tercero en mostrar una desviación excesiva es del 0,11%.

b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el cuarto que no muestre una desviación excesiva?

Puede pasar que nos pidan hallar la probabilidad opuesta a la dada, como es el caso de este ejercicio, entonces es importante calcular la probabilidad de fracaso que es igual a q o (1-p) de las dos formas es valido denotar la probabilidad de fracaso.

Debemos agregar a nuestro listado de valores, q: 0.95 y calcular.

La probabilidad de que el séptimo dispositivo de medición sometido a prueba, sea el cuarto que no muestre una desviación excesiva es del 0,20%

Como vimos para la resolución de este ejercicio solo tuvimos en cuenta el comando dnbinom(), es por eso que, describiré el uso del comando pnbinom() detalladamente.

pnbinom() se utiliza cuando haya que calcular probabilidad acumulada y al igual que en las distribuciones binomial y poisson requiere del parametro lower.tail para definir el sentido de la desigualdad para las probabilidades, si es TRUE las probabilidades van a ser P(X<=x), de lo contrario sera P(X>x).

DISTRIBUCIONES CONTINUAS

4.4 Distribución Z o Distribución normal

Muchos de los fenómenos observados en el mundo real tienen una distribución de frecuencia relativa que se puede modelar en forma adecuada con una distribución de probabilidad normal.

Los parámetros de la función normal son μ y σ.

μ -> Parámetro de localización.

σ -> Parámetro de dispersión.

Formula Normalización

Siendo μ la media, σ desviación estándar y x la variable aleatoria.

Para hallar los valores de Z, tendrá como guía la tabla de probabilidades donde Z puede variar entre -3.4 y 3.4. Recuerde que una de las propiedades de la distribución normal es su simetría con respecto a la media

. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

Cuando requiera calcular distribución normal en R emplee las siguientes funciones:

dnorm(x, mean = 0, sd = 1, log = F) #Devuelve resultados de la función de densidad.
pnorm(q, mean = 0, sd = 1, lower.tail = T, log.p = F) #Devuelve resultados de la función de distribución acumulada.
qnorm(p, mean = 0, sd = 1, lower.tail = T, log.p = F) #Devuelve resultados de los cuantiles de la Normal.

Descripción de cada uno de los argumentos que reciben las funciones descritas:

x, q: Vector de cuantiles.
p: Vector de probabilidades.
n: Números de observaciones.
mean: Vector de medias. Por defecto, su valor es 0.
sd: Vector de desviación estándar. Por defecto, su valor es 1.
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Ejemplo

La estatura de los habitantes de una ciudad tiene una distribución normal con media igual a 1.72 metros y desviación estándar de 0.30 metros. Hallar:

a. La probabilidad de que la estatura se encuentre entre 1.6 y 1.95 metros.

Aquí empleamos el comando pnorm() porque la probabilidad es acumulada y como la probabilidad a calcular esta entre dos valores de x, a la probabilidad mayor le restamos la menor. La función recibió como parámetros x, media, desviación y por el ultimo el parametro lower.tail=T que puede omitirse ya que por defecto es TRUE.

Quiere decir que, la probabilidad de que la estatura se encuentre entre 1.6 y 1.95 metros es del 43.18%.

b. La probabilidad de que la estatura sea mayor o igual a 1.8 metros.

Es necesario indicarle a la función que la probabilidad no va a ser a la izquierda sino a la derecha de x, esto se hace a través del parámetro lower.tail=F.

La probabilidad de que la estatura sea mayor o igual a 1.8 metros es del 39.48%.

c. La probabilidad de que la estatura sea menor a 2.1 metros.

La probabilidad de que la estatura sea menor a 2.1 metros es del 89.73%.

Otra forma de calcular la probabilidad normal es dar el valor de Z a la función de la siguiente forma:

Para demostrar lo dicho, utilizamos el literal c) del ejemplo.

1. Normalizamos Z obteniendo como resultado 1.26, linea 3 ([1] 1.266667).

2. Luego pasamos el valor de Z a la función pnorm() junto con una media igual a 0 y una desviación estándar = 1.

Se observa que para P(X<=2.1) y P(Z<1.26) se obtuvieron los mismos resultados, esto indica que cualquiera de las dos formas es viable para calcular la probabilidad en la distribución normal.

Hallar valores de la variable para que cumpla con las condiciones requeridas.

Ejemplo

La variable aleatoria Y tiene una distribución normal con media de 2.55 y desviación estándar 0.36. Halle los valores de la variable que cumplen las siguientes condiciones:

a) P(Y<=k) = 0.95

El 95% de los casos la variable Y tiene un valor igual o inferior a 3.14.

b) P(Y>k) = 0.54

El 46% de los casos la variable Y tienen un valor superior a 2.51.

Como vemos la función ha cambiado, para resolver este tipo de problemas utilizamos la función qnorm() ya que conocemos el valor de la probabilidad. El orden en el cual deben pasarse los parámetros es: 1) probabilidad, 2) Media, 3)Desviación estándar y 4) la dirección de la cola de la distribución si lower.tail=T (X<=x) y si lower.tail=F (X>x).

4.5 Distribución T o Prueba T-student

La distribución t se utiliza en problemas que tienen que ver con inferencia acerca de la media de la población o para efectuar muestras comparativas, es decir, para determinar si las medias de dos muestras son significativamente distintas.

Formula distribución t

Características de la distribución t

En la mayoría de ocasiones no se conoce la desviación (σ) y por lo general se utiliza para muestras pequeñas (n<30).

Grados de libertad

Se podría definir como el número de valores que podemos seleccionar de forma arbitraria. Existe una distribución t distinta para cada un de los posibles grados de libertad. Ver tabla.

Representación Gráfica

De igual forma que la distribución z, la distribución t es simétrica y tiene forma de campana pero con respecto a t es menos apuntalada.

Para poder utilizar la distribución t en R contamos con estas funciones cuyos parámetros se listan después de estas:

Funciones

pt(q, df, ncp, lower.tail = T, log.p = F) #Devuelve resultados de la función de distribución acumulada.

qt(p, df, ncp, lower.tail = T, log.p = F) #Devuelve resultados de los cuantiles de la t-Student.

Parámetros

x, q: Vector de cuantiles.
p: Vector de probabilidades.
n: Números de observaciones.
df: Grados de libertad.
ncp: Parámetro que determina la centralidad de la gráfica t-Student. Si se omite, el estudio se realiza con la gráfica centralizada en 0.
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Ejemplo

Calcular la probabilidad de t=2.3 con 25 grados de libertad suponiendo que es a una cola.

Para dar solución al problema en R debemos usar el comando pt(), pasando como parámetros t = 2.3, grados de libertad = 25 y como es a una sola cola queremos hallar t>=2.3 entonces lower.tal=F.

La probabilidad para t>2.3 con 25 grados de libertad equivale a 1.5036.

Si por otro lado queremos hallar la probabilidad t a dos colas, con el mismo comando pt() hacemos lo siguiente:

Al ser simétrica podemos calcularla una sola vez y multiplicarla por dos o calcular cada probabilidad individualmente y sumarlas. La probabilidad de t entre -2.3 y 2.3 es 3.0073.

Encontrar el valor de t con un nivel de significancia del 95%.

Queremos encontrar el valor de t con un 2.5% en cada cola y para ello vamos a utilizar el comando qt().

Donde el primer parámetro equivale al valor de la probabilidad, el segundo los grados de libertad y por ultimo la dirección de la cola, que en este caso va a ser menor a 0.025.

Obtenemos como resultado que t es igual a -2.0595.

4.6 Intervalo de Confianza

Se Define como un rango de valores en el cual puede encontrarse el verdadero valor de un parámetro dada una probabilidad conocida como nivel de confianza (1-α).

Los factores que determinan el ancho de un intervalo de confianza son los siguientes:

El tamaño de la muestra, n.
La varianza de la población, usualmente σ es estimada por S.
El nivel de confianza.

Intervalo de confianza para la media

Cuando conocemos la desviación población y la muestra es mayor a 30, aplicamos Z:

Si la desviación estándar es desconocida y la muestra es inferior a 30, utilizamos t:

Error estándar de la media muestral

Se conoce como error estándar de la media muestral a la desviación estándar de la distribución de las medias muestrales.

En R, los intervalos de confianza se hallan por medio de la función t.test(x, alternative, mu = 0, paired, var.equal conf.level) donde:

x = Es el vector de datos.

alternative = Indica el tipo de contraste, “two.sided” significa a dos colas o “one.sided” a una cola.
mu= Indica el valor de la hipótesis nula.
paired = Indica si los datos son pareados o no lo son. (T o F).
var.equal = Se utiliza para indicar si estamos trabajando con los casos de igualdad o no de varianzas que solo se emplean en la comparación de dos poblaciones.
conf.level = Se indica el nivel de confianza para la prueba.

Ejemplo

Un fabricante ha inventado una nueva pólvora que fue probada en ocho proyectiles. Las velocidades resultantes en la boca del cañón, en pies por segundo, fueron las siguientes:

3005 2925 2935 2965 2995 3005 2937 2905

Encuentre un intervalo de de confianza del 95% para el verdadero promedio de velocidad μ para proyectiles de este tipo. Suponga que las velocidades en la boca del cañón están distribuidas normalmente en forma aproximada.

Para solucionar este problema con R, inicialmente creamos un vector de datos llamado velProyectiles, luego llamamos a la función t.testpasándole como parámetros el vector de datos y el nivel de confianza dado.

En la respuesta que genera el programa podemos identificar los grados de libertad (df=7) , en este caso fueron 7, la media de las velocidades que fue de 2959 y el intervalo de confianza que se ubica debajo del nivel de confianza (2926.32 , 2991.68).

Con una confianza del 95% se estima que las velocidades medias para proyectiles de este tipo se encuentran entre 2926 y 2991.

martes, 27 de mayo de 2014

4.DISTRIBUCIONES DISCRETAS