martes, 27 de mayo de 2014

1. INTRODUCCIÓN



R es un conjunto integrado de programas para manipulación de datos, cálculos y gráficos entre otras características dispone de:

  • Almacenamiento y manipulación efectiva de datos.
  • Operadores para cálculo sobre variables indexadas (Arrays), en particular matrices.
  • Herramientas para análisis de datos.
  • Posibilidades gráficas para análisis de datos, que funcionan directamente sobre pantalla o impresora.
  • Lenguaje de programación bien desarrollado, simple y efectivo, que incluye condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. 




2.INGRESO DE DATOS

2.1 Tipos de datos

R ofrece una gran variedad de tipos de datos, los cuales son:

  • Escalares: Abarca lo que son variables enteras, flotantes, String y booleanas.
  • Vector: Es un arreglo dimensional que contiene variables escalares.
  • Matriz: Contempla la definición de datos en varias dimensiones y las operaciones de matrices multiplicación, inversa, etc…

2.2 Asignación de una variable.

Para declarar una variable en R, se necesita definir un nombre seguido del signo igual que significa asignación junto con el valor que se desea tome la variable.
nombreVariable = valor de la variable. Declaración y asignación de una variable.

Ejemplo:

Identificamos el peso como una variable y le asignamos la cantidad de kilos.


2.3 Declaración de un vector.

Cuando se presenta el escenario donde tenemos varios datos del mismo tipo, por ejemplo cadenas de caracteres, R dispone de vectores que nos sirven para recopilar todos estos datos en un solo lugar, surcándolos dentro del mismo por un índice.   
    
nombreVector <- c(param1, param2, …., paramn). Creación de un vector
Es importante al declarar un vector tener en cuenta la sintaxis descrita anteriormente. Primero se escribe el nombre de la variable seguido del operador de asignación <-, después la función (), por último se agregan los parámetros (valores) dentro de los paréntesis separados por coma. 

2.4 Accediendo a los elementos de un vector





Acceso a un elemento del vector por su índice

Para tener acceso a alguno de los elementos del vector indicamos la posición precedido del nombre del vector como se muestra a continuación:
nombreVector[c(posición)]. Acceso a un elemento del vector
Es posible mostrar los valores en un rango del vector:
nombreVector[c(posiciónInicial:posicionFinal)] Elementos de un vector en un rango
Y también si queremos mostrar elementos del vector en distintas posiciones:
nombreVector[c(posicion1, posición 4)] Elementos en distintas posiciones
Ejemplo:
Iniciaremos un vector con valores del 1 al 10 de manera que sea más fácil de entender




La tercera instrucción muestra el elemento en la posición 1 del vector. 1. Luego se muestran los elementos del vector números desde la posición 2 hasta la 4. 2,3 y 4. En la última línea, el resultado que se muestra son los elementos en la posición 2, posición 4 y la posición 7 del vector números. 2,4 y 7.
2.5 Como cargar los datos desde un archivo .csv
R incluye dentro de sus opciones la importación de archivos externos, en este caso realizaremos la importación de un archivo .csv (comma separated values). Para ello es indispensable escribir la instrucción siguiente dentro de la línea de comandos:
nombreVector <- read.csv(“myRandomFile.csv”, header=TRUE) Lectura de archivos .csv      

De manera similar a la declaración de un vector,escribimos el nombre de la variable junto con los caracteres <- (menor y guion), a diferencia que ya no llamamos a la función c() sino a la función read.csv() que recibe como parámetros la ruta del archivo y el encabezado de las columnas. Cuando especificamos header = true, el programa sabe cuáles son los rótulos de título de las columnas del archivo fuente.

Archivo ejemplo.csv en el directorio C:\


Como era de esperarse los datos que se obtuvieron en el programa R coinciden con los valores descritos en el archivo ejemplo.csv, tomando consigo el titulo también.


3 MEDIDAS DE RESUMEN

R nos da la posibilidad de hallar los datos resumen de una muestra o un grupo de datos de una manera muy sencilla por medio del comando summary(). Luego de ejecutar este comando obtenemos el mínimo, el 1er cuartil, mediana, media, el 3er cuartil y el máximo.
Summary(nombreVector).  Comando Medidas resumen









Estos datos nos indican que:
La cantidad mínima de hijos por hogar es 1.
El 25% de las personas tiene 2 hijos. 
La mitad de las personas encuestadas tienen entre 3 y 4 hijos.
El numero promedio de hijos por hogar es 3.
El 75% tiene 4 hijos.
La cantidad máxima de hijos hallada en la muestra equivale a 6 hijos.
3.1 Media o Promedio
Para determinar la media en R, debemos considerar el uso del comando mean() con el cual calculamos el valor medio para un grupo de datos.
Ejemplo:
Se realizo una encuesta en la Universidad Nacional a 10 estudiantes donde se indagaba acerca de su edad. Las edades obtenidas fueron:
25,26,27,28,29,26,25,24,26,30







Descripción 
1. Creamos el vector edades junto con los datos obtenidos.
2. Utilizamos la función mean() asignándole como parámetro el vector edades.
3. Interpretamos el resultado. La edad media para el grupo de 10 estudiantes equivale a 27 años. 
3.2 Mínimo y Máximo
Representan los valores máximo y mínimo del conjunto de datos, conoceremos entre que valores se encuentra acotada la población a analizar.
Haremos uso de las funciones min() y max() para hallar estos valores. Partiremos del ejemplo anterior edades.







Descripción


1. Recordemos que anteriormente habíamos creado un vector de edades y calculamos la edad promedio.
2. Ahora vamos a determinar el valor máximo y mínimo del vector edades.
3. Para hallar el valor mínimo basta con escribir en la consola de comandos la función min(), que en este caso es min(edades).
4. Nuestra ultima instrucción servirá para determinar el valor máximo, max(edades).
Del grupo de estudiantes pudimos conocer quien tenia menos años, 24 años.
El estudiante de mayor edad del grupo tiene 30 años.
3.3 Mediana
Básicamente, la mediana nos indicara cual es el 50% de los datos. En R utilizaremos la función median() para llevar a cabo esta tarea.








Descripción


1. Del vector edades calcularemos la mediana.
2. Llamaremos a la función median() y le pasaremos como parámetro edades.
Por lo tanto, vemos que el 50% de los estudiantes tiene 26 años. 
3.4 Percentil
Otra de las prestaciones que tiene R es calcular los percentiles, podemos hallar el percentil 25, 75 y 50 los mas comunes








Este tipo de medida nos da un estimado de los datos por sectores, es decir, subdivide la población en partes iguales.
Descripción
1. La función quantile nos permite hallar porcentajes de forma individual o por grupos, como se puede observar la primera vez que hacemos uso de quantile recibe dos parametros, quantile(edades,0.25), el vector edades y el porcentaje que queremos conocer con respecto a los datos el 25%.
2. Luego aplicamos nuevamente el uso de la función quantile pero esta vez tenemos ideado calcular el 25% y 75%.
3. Debido a que la función intenta calcular dos porcentajes al mismo tiempo debemos seguir la siguiente notación:
Primero hacemos un llamado a la funcion quantile(), despues pasamos como parámetro el vector de edades y el arreglo de porcentajes a calcular.
Los resultados muestran que el 25% de los estudiantes tiene 25 años y el 75% tiene 28 años.
3.5 Rango
Da a conocer los valores extremos del conjunto de datos. El comando range() se encarga de esta operación.






Este comando agrupa el máximo y mínimo en uno solo, evitándonos cálculos extras e instrucciones.


El rango de edades esta entre 24 y 30 años.
3.6 Recorrido Intercuartilico
Repasemos que es el recorrido intercuartilico, no es mas que la diferencia entre el cuartil 3 y el cuartil 1. El comando IQR se utiliza para dicha función.






3.6 Varianza y Desviación Estándar
Son las medidas mas comunes de dispersión. En R podemos acceder a estas por medio de las funciones sd() y var() respectivamente.







4.DISTRIBUCIONES DISCRETAS

4.1 Distribución Binomial:
Es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos.
Un experimento de Bernoulli se caracteriza porque solo son posibles dos resultados, exito (p) y fracaso (q=1-p).
Formula distribución binomial
Para hacer uso de la distribución binomial en R, disponemos de cuatro comandos pero los más representativos son las descritos a continuación:

  • dbinom(x, size, prob, log = F)   #Devuelve resultados de la función de densidad.
  • pbinom(q,size, prob, lower.tail = T, log.p = F)#Devuelve resultados de la función de distribución acumulada.
A los comandos descritos anteriormente les podemos pasar los siguientes parámetros:

  • x, q: Vector de cuantiles.
  • p: Vector de probabilidades.
  • n: Número de observaciones.
  • size: Números de ensayos(debe ser cero o más).
  • prob: Probabilidad de éxito en cada ensayo.
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p se ofrecen como log(p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].
Ejemplo
Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutan de buena salud. Según las tablas actuales, la probabilidad de que una persona en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que, transcurridos 30 años, vivan:
Menos de 4 personas.
Nos están pidiendo hallar la probabilidad de que transcurridos 30 años vivan menos de 4 personas.
Para calcular esta probabilidad es necesario utilizar el comando pbinom con los  parámetros indicados (x,n,p,lower.tail=T).
Identificamos los valores de x, n y p.
Numero de éxitos obtenidos, 0<=X<=3.
Numero de pruebas, n=5.
Probabilidad de éxito, p=2/3.
Después invocamos el comando con los valores deseados. 
También podemos utilizar el comando pbinom() sin el parámetro lower.tail siempre y cuando la probabilidad a hallar sea menor o igual.
Por defecto, R asigna el valor TRUE a lower.tail=T.
Analicemos si al ejecutar el mismo comando sin el parámetro lower.tail obtenemos la misma solución.
Por lo visto, la solución en ambos casos es la misma.
Concluimos que la probabilidad de que transcurridos 30 años vivan menos de 4 personas es del 53.90%.
Al menos 3 personas.
En este caso utilizaremos el mismo comando pbinom() pero el valor que se le asigna al parámetro lower.tail  va a ser FALSE porque nos calcula las probabilidades por encima de 2, es decir, P(X>2). 
La probabilidad de que transcurridos 30 años vivan al menos 3 personas es del 79.01%.
Exactamente 2 personas.
Para calcular la probabilidad de P(X=2), se debe utilizar el comando dbinom() en cambio de pbinom() porque la probabilidad no es acumulada, este comando recibe 4 parámetros que son: numero de éxitos x, numero de ensayos n, probabilidad de éxito p y un ultimo parámetro log el cual debe permanecer en FALSE o en su defecto omitimos este parámetro.
La probabilidad de que transcurridos 30 años vivan exactamente 2 personas equivale al 16,46%.
4.2 Distribución de Poisson:
En estadística, la distribución de Poisson es una de las distribuciones de probabilidad discreta.  Esta distribución se utiliza para calcular las posibilidades de un evento con la tasa media dada de valor (λ). Una variable aleatoria de Poisson (x) se refiere al número de éxitos en un experimento de Poisson.
Formula distribución Poisson
A continuación se enuncian las funciones que se pueden utilizar en R con sus respectivos parámetros para calcular distribuciones de Poisson: 

  • dpois(x, lambda, log =F)  #Devuelve resultados de la función de densidad.
  • ppois(q, lambda, lower.tail = T, log.p = F)  #Devuelve resultados de la función de distribución acumulada.
Es característico de la distribución de poisson la frecuencia con la que ocurre un evento, conociendo las veces con las que se espera ocurra dicho evento en un intervalo de tiempo. En R, esta distribución puede ejecutarse con los siguientes parámetros dados:

  • x: Vector de ocurrencias de un evento. (Valor entero positivo).
  • q: Vector de ocurrencias de un evento.
  • p: Vector de probabilidades.
  • n: Números de valores aleatorios a devolver.
  • prob: Probabilidad de éxito en cada ensayo.
  • lambda: Vector de medias (valor no negativo).
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].
Ejemplo
Una prisión de máxima seguridad reporta que el numero de intentos de escape por mes sigue una distribución aproximadamente poisson con una media de 1,5 intentos/mes.
Calcular: 
Probabilidad de tres intentos de escape durante el próximo mes.
Debemos calcular la probabilidad de x=3, P(X=3), sabiendo que la media de intentos de escape por mes equivale a 1,5. Al no ser acumulativa la probabilidad usaremos el comando dpois(x, lambda,log=F).
La probabilidad de tres intentos de escape durante el próximo mes es del 12,55%.
Probabilidad de al menos un intento de escape el próximo mes.
Teniendo en cuenta que la probabilidad a calcular es de frecuencia acumulada, se desarrollara a través del comando ppois() junto con los parámetros x (numero de intentos) , lambda (media intentos/mes), lower.tal (sentido de la desigualdad) y log.p (probabilidad de p devuelta como logaritmo de p).
Notese que podemos omitir el ultimo parámetro ya que por defecto es FALSE y como queríamos calcular P(X>=1), el parámetro lower.tail se hace igual a FALSE, por eso nuestro x empieza desde cero, esto quiere decir que se van a calcular las probabilidades de x>0.
La probabilidad de al menos un intento de escape el próximo mes es del 77,68%.
4.3 Distribución Binomial Negativa
Una distribución binomial negativa se reconoce porque suceden un numero de fracasos para la aparición de tantos éxitos.  Es una derivación de la distribución geométrica y se diferencia con respecto a esta en la multiplicidad de éxitos presentados.
Formula distribución binomial negativa
Para hallar valores basados en la distribución binomial negativa, haremos uso de 2 funciones las cuales son:
dnbinom(x, size, prob, mu, log = F) #Devuelve resultados de la función de densidad.
pnbinom(q, size, prob, mu, lower.tail = T, log.p = F). #Devuelve resultados de la función de distribución acumulada.
Parámetros disponibles para pasar a las funciones descritas:
  • x: Vector de cuantiles (Valores enteros positivos). Corresponde a número de pruebas falladas.
  • q: Vector de cuantiles.
  • p: Vector de probabilidades.
  • n: Números de valores aleatorios a devolver.
  • prob: Probabilidad de éxito en cada ensayo.
  • size: Número total de ensayos. Debe ser estrictamente positivo.
  • mu: Parametrización alternativa por la media.
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].
Ejemplo
Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que;  
a) el sexto de estos dispositivos de medición sometidos a prueba sea el tercero en mostrar una desviación excesiva?
Como primer paso siempre debemos recopilar la información que nos dan en el problema: y=6 (dispositivos de medición) , r=3 (3 dispositivos que muestren desviación excesiva), p = 0,05 (desviación excesiva).
La solución de este punto debe llevarse a cabo aplicando el comando dnbinom(), pasando por alto los dos últimos parámetros de la función pues no son necesarios. 
La probabilidad de que el sexto de los dispositivos sometidos a prueba sea el tercero en mostrar una desviación excesiva es del 0,11%.
b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el cuarto que no muestre una desviación excesiva?
Puede pasar que nos pidan hallar la probabilidad opuesta a la dada, como es el caso de este ejercicio, entonces es importante calcular la probabilidad de fracaso que es igual a q o (1-p) de las dos formas es valido denotar la probabilidad de fracaso.
Debemos agregar a nuestro listado de valores, q: 0.95 y calcular.
La probabilidad de que el séptimo dispositivo de medición sometido a prueba, sea el cuarto que no muestre una desviación excesiva es del 0,20%
Como vimos para la resolución de este ejercicio solo tuvimos en cuenta el comando dnbinom(), es por eso que, describiré el uso del comando pnbinom() detalladamente.
pnbinom() se utiliza cuando haya que calcular probabilidad acumulada y al igual que en las distribuciones binomial y poisson requiere del parametro lower.tail para definir el sentido de la desigualdad para las probabilidades, si es TRUE las probabilidades van a ser P(X<=x), de lo contrario sera P(X>x).
DISTRIBUCIONES CONTINUAS
4.4 Distribución Z o Distribución normal
Muchos de los fenómenos observados en el mundo real tienen una distribución de frecuencia relativa que se puede modelar en forma adecuada con una distribución de probabilidad normal.
Los parámetros de la función normal son μ y σ.
μ -> Parámetro de localización.
σ -> Parámetro de dispersión.
Formula Normalización
Siendo μ la media, σ desviación estándar y x la variable aleatoria.
Para hallar los valores de Z, tendrá como guía la tabla de probabilidades donde Z puede variar entre -3.4 y 3.4. Recuerde que una de las propiedades de la distribución normal es su simetría con respecto a la media .  Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
Cuando requiera calcular distribución normal en R emplee las siguientes funciones: 

  • dnorm(x, mean = 0, sd = 1, log = F) #Devuelve resultados de la función de densidad.
  • pnorm(q, mean = 0, sd = 1, lower.tail = T, log.p = F) #Devuelve resultados de la función de distribución acumulada.
  • qnorm(p, mean = 0, sd = 1, lower.tail = T, log.p = F)  #Devuelve resultados de los cuantiles de la Normal.
Descripción de cada uno de los argumentos que reciben las funciones descritas:

  • x, q: Vector de cuantiles.
  • p: Vector de probabilidades.
  • n: Números de observaciones.
  • mean: Vector de medias. Por defecto, su valor es 0.
  • sd: Vector de desviación estándar. Por defecto, su valor es 1.
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].
Ejemplo
La estatura de los habitantes de una ciudad tiene una distribución normal con media igual a 1.72 metros y desviación estándar de 0.30 metros. Hallar:
a. La probabilidad de que la estatura se encuentre entre 1.6 y 1.95 metros.
Aquí empleamos el comando pnorm() porque la probabilidad es acumulada y como la probabilidad a calcular esta entre dos valores de x, a la probabilidad mayor le restamos la menor. La función recibió como parámetros x, media, desviación y por el ultimo el parametro lower.tail=T que puede omitirse ya que por defecto es TRUE.  
Quiere decir que, la probabilidad de que la estatura se encuentre entre 1.6 y 1.95 metros es del 43.18%.
b. La probabilidad de que la estatura sea mayor o igual a 1.8 metros.
Es necesario indicarle a la función que la probabilidad no va a ser a la izquierda sino a la derecha de x, esto se hace a través del parámetro lower.tail=F.
La probabilidad de que la estatura sea mayor o igual a 1.8 metros es del 39.48%.
c. La probabilidad de que la estatura sea menor a 2.1 metros.
La probabilidad de que la estatura sea menor a 2.1 metros es del 89.73%.
Otra forma de calcular la probabilidad normal es dar el valor de Z a la función de la siguiente forma:
Para demostrar lo dicho, utilizamos el literal c) del ejemplo.
1. Normalizamos Z obteniendo como resultado 1.26, linea 3 ([1] 1.266667).
2. Luego pasamos el valor de Z a la función pnorm() junto con una media igual a 0 y una desviación estándar = 1. 
Se observa que para P(X<=2.1) y P(Z<1.26) se obtuvieron los mismos resultados, esto indica que cualquiera de las dos formas es viable para calcular la probabilidad en la distribución normal.
Hallar valores de la variable para que cumpla con las condiciones requeridas.
 Ejemplo
La variable aleatoria Y tiene una distribución normal con media de 2.55 y desviación estándar 0.36. Halle los valores de la variable que cumplen las siguientes condiciones: 
a) P(Y<=k) = 0.95
El 95% de los casos la variable Y tiene un valor igual o inferior a 3.14.
b) P(Y>k) = 0.54
El 46% de los casos la variable Y tienen un valor superior a 2.51.
Como vemos la función ha cambiado, para resolver este tipo de problemas utilizamos la función qnorm() ya que conocemos el valor de la probabilidad. El orden en el cual deben pasarse los parámetros es: 1) probabilidad, 2) Media, 3)Desviación estándar y 4) la dirección de la cola de la distribución si lower.tail=T (X<=x) y si lower.tail=F (X>x).
4.5 Distribución T o Prueba T-student
La distribución t se utiliza en problemas que tienen que ver con inferencia acerca de la media de la población o para efectuar muestras comparativas, es decir, para determinar si las medias de dos muestras son significativamente distintas.  
Formula distribución t
Características de la distribución t
En la mayoría de ocasiones no se conoce la desviación (σ) y por lo general se utiliza para muestras pequeñas (n<30). 
Grados de libertad
Se podría definir como el número de valores que podemos seleccionar de forma arbitraria. Existe una distribución t distinta para cada un de los posibles grados de libertad. Ver tabla.
Representación Gráfica
De igual forma que la distribución z, la distribución t es simétrica y tiene forma de campana pero con respecto a t es menos apuntalada.
Para poder utilizar la distribución t en R contamos con estas funciones cuyos parámetros se listan después de estas:
Funciones
pt(q, df, ncp, lower.tail = T, log.p = F)  #Devuelve resultados de la función de distribución acumulada.
qt(p, df, ncp, lower.tail = T, log.p = F) #Devuelve resultados de los cuantiles de la t-Student.
Parámetros

  • x, q: Vector de cuantiles.
  • p: Vector de probabilidades.
  • n: Números de observaciones.
  • df: Grados de libertad.
  • ncp: Parámetro que determina la centralidad de la gráfica t-Student. Si se omite, el estudio se realiza con la gráfica centralizada en 0.
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].
Ejemplo
Calcular la probabilidad de t=2.3 con 25 grados de libertad suponiendo que es a una cola.
Para dar solución al problema en R debemos usar el comando pt(), pasando como parámetros t = 2.3, grados de libertad = 25 y como es a una sola cola queremos hallar t>=2.3 entonces lower.tal=F.
La probabilidad para t>2.3 con 25 grados de libertad equivale a 1.5036.
Si por otro lado queremos hallar la probabilidad t a dos colas, con el mismo comando pt() hacemos lo siguiente:
Al ser simétrica podemos calcularla una sola vez y multiplicarla por dos o calcular cada probabilidad individualmente y sumarlas. La probabilidad de t entre -2.3 y 2.3 es 3.0073.
Encontrar el valor de t con un nivel de significancia del 95%.
Queremos encontrar el valor de t con un 2.5% en cada cola y para ello vamos a utilizar el comando qt().
Donde el primer parámetro equivale al valor de la probabilidad, el segundo los grados de libertad y por ultimo la dirección de la cola, que en este caso va a ser menor a 0.025.
Obtenemos como resultado que t es igual a -2.0595.
4.6 Intervalo de Confianza
Se Define como un rango de valores en el cual puede encontrarse el verdadero valor de un parámetro dada una probabilidad conocida como nivel de confianza (1-α).
Los factores que determinan el ancho de un intervalo de confianza son los siguientes:

  1. El tamaño de la muestra, n.
  2. La varianza de la población, usualmente σ es estimada por S.
  3.  El nivel de confianza.
Intervalo de confianza para la media
Cuando conocemos la desviación población y la muestra es mayor a 30, aplicamos Z:
Si la desviación estándar es desconocida y la muestra es inferior a 30, utilizamos t:
Error estándar de la media muestral
Se conoce como error estándar de la media muestral a la desviación estándar de la distribución de las medias muestrales.
En R, los intervalos de confianza se hallan por medio de la función t.test(x, alternative, mu = 0, paired, var.equal conf.level) donde:
x = Es el vector de datos.

  • alternative = Indica el tipo de contraste, “two.sided” significa a dos colas o “one.sided” a una cola.
  • mu= Indica el valor de la hipótesis nula.
  • paired = Indica si los datos son pareados o no lo son. (T o F). 
  • var.equal = Se utiliza para indicar si estamos trabajando con los casos de igualdad o no de varianzas que solo se emplean en la comparación de dos poblaciones.
  • conf.level = Se indica el nivel de confianza para la prueba.
Ejemplo
Un fabricante ha inventado una nueva pólvora que fue probada en ocho proyectiles. Las velocidades resultantes en la boca del cañón, en pies por segundo, fueron las siguientes:
3005 2925 2935 2965 2995 3005 2937 2905
Encuentre un intervalo de de confianza del 95% para el verdadero promedio de velocidad μ para proyectiles de este tipo. Suponga que las velocidades en la boca del cañón están distribuidas normalmente en forma aproximada.
Para solucionar este problema con R, inicialmente creamos un vector de datos llamado velProyectiles, luego llamamos a la función t.testpasándole como parámetros el vector de datos y el nivel de confianza dado.
En la respuesta que genera el programa podemos identificar los grados de libertad (df=7) , en este caso fueron 7, la media de las velocidades que fue de 2959 y el intervalo de confianza que se ubica debajo del nivel de confianza (2926.32 , 2991.68).
Con una confianza del 95% se estima que las velocidades medias para proyectiles de este tipo se encuentran entre 2926 y 2991.