Introducción

En este documento se verán aspectos básicos del uso de R y RStudio.

Objetos

En la sección anterior se mencionó que el Environment muestra los objetos creados. En R se puede crear objetos y luego manipularlos. Por ejemplo, el gráfico 1.1 muestra el porcentaje de personas que apoyan a la democracia en cada país. Si queremos guardar el resultados de Uruguay (UY), podemos crear un objeto.

La siguiente línea de código crea un objeto llamado “UY” que almacena el número 80. Esto objeto se muestra en el Environment, tanto el nombre, como el valor que almacena.

UY = 80

Si quisiéramos calcular la diferencia en porcentaje entre Uruguay, el país que muestra el mayor apoyo a la democracia, y Haití, el que muestra el menor porcentaje, se puede calcular haciendo la resta del objeto menos el valor del porcentaje en Haití. Cuando se corre este código, RStudio nos muestra el resultado. Otra opción es crear un objeto HT que almacene el valor de 46.

UY - 46
## [1] 34

Los objetos en R no solo almacenan números, sino que también pueden guardar cadenas de caracteres.

El Barómetro de las Américas recoge información de casi todos los países de las Américas. La tabla siguiente muestra los países en los que se ha recogido información en alguna ronda.

Si queremos guardar el nombre de un país en un objeto, se puede nombrar al objeto “pais1” y escribir el nombre del país (que es una cadena de caracteres) entre comillas.

pais1 = "México"

Como se observa, el nombre del objeto no lleva tilde en la palabra “país”. Es posible crear un objeto con tildes, pero se recomienda no hacerlo pues puede crear problemas posteriores. La cadena de caracteres “México” sí incluye la tilde. Esto no representa ningún problema.

Vectores

Un vector es un objeto que contiene un conjunto de elementos, sean números o cadenas de caracteres, entre otros. Estos datos tienen que ser concatenados. Por este motivo, la función c(...) antecede a la serie de números.

Por ejemplo, podemos crear un vector que almacene todos los porcentajes del Gráfico 1.1.

apoyo = c(80, 73, 71, 69, 68, 67, 66, 63, 63, 63, 62, 61, 61, 57, 53, 52, 50, 50, 49, 46)

De manera similar, podemos crear un vector con los nombres (o siglas) de los países, entre comillas e incluidos en la función c(…).

pais = c("UY", "SV", "CR", "AR", "CL", "BR", "GY", "MX", "EC", "NI", "DO", "PN", "BO", "JA", "CO", "GT", "PY", "PE", "HN", "HT")

No es necesario seguir el mismo orden del gráfico; sin embargo, es recomendable por razones que se explicarán más abajo.

Se puede seleccionar elementos particulares de un vector usando […]. Por ejemplo, si queremos seleccionar el país de Argentina, tanto su nombre, como su porcentaje, se tiene que colocar entre corchetes la posición en la que se encuentra.

pais[4]
## [1] "AR"
apoyo[4]
## [1] 69

Funciones

Una función es un procedimiento que recibe un input y produce un output. Por ejemplo, la función Y = X^2, recibe un valor X cualquiera, por ejemplo 2, y devuelve un valor Y, en este caso 4. En R se tienen las funciones algebraicas, como raíz cuadrada o logaritmo. Por ejemplo, la función log(…) recibe un valor X y devuelve un valor Y igual al logaritmo de X.

sqrt(36) #por squared root
## [1] 6
log(20)
## [1] 2.995732

También se puede aplicar una función a un conjunto de datos, como los almacenados en un vector. Por ejemplo, si quisiéramos calcular la tasa de personas que apoya a la democracia por cada 1000 habitantes en todos los países, tendríamos que multiplicar el vector “apoyo” por 10. En este caso, la función de multiplicación se aplica a cada elemento del vector.

apoyo2 = apoyo*10
apoyo2
##  [1] 800 730 710 690 680 670 660 630 630 630 620 610 610 570 530 520 500 500 490
## [20] 460

Hay otras funciones que resultan más útiles para nuestros objetivos porque trabajan sobre un conjunto de valores, como los almacenados en un vector, calculando un valor único. Por ejemplo, si queremos calcular el apoyo a la democracia promedio en todos los países mostrados en el Gráfico 1.1 se puede usar la función mean(…).

mean(apoyo)
## [1] 61.2

Esta función recibe todos los valores de un vector, los suma y los divide entre el número de observaciones, mostrando la media.

Otra funciones muy usadas en estadística son la mediana, la desviación estándar, el mínimo, el máximo y la suma.

median(apoyo)
## [1] 62.5
sd(apoyo)
## [1] 9.070484
min(apoyo)
## [1] 46
max(apoyo)
## [1] 80
sum(apoyo)
## [1] 1224

El Gráfico 1.1 muestra los resultados para los países donde se tiene información. Sin embargo, en algunos casos un vector puede incluir un valor perdido. Por ejemplo, el gráfico no muestra información para Venezuela, país donde no se realizó trabajo de campo por motivos de seguridad. Si quisiéramos crear un vector que incluya este valor faltante (NA en el lenguaje R), se podría hacer así:

apoyo2 = c(apoyo, NA)
apoyo2
##  [1] 80 73 71 69 68 67 66 63 63 63 62 61 61 57 53 52 50 50 49 46 NA

En el procedimiento que hemos realizado hemos usado el mismo nombre “apoyo2”, por lo que hemos sobreescrito el vector con estos nuevos resultados. La cadena de número ahora incluye un valor final NA.

Algunas funciones no pueden calcular directamente su procedimiento en vectores que contienen valores NA. Por ejemplo, la función mean.

mean(apoyo2)
## [1] NA

El cálculo directo de la media del vector “apoyo2” nos devuelve un resultado NA. Para poder hacer el cálculo, indicándole a la función que no tome en cuenta este valor NA, se tiene que usar la especificación na.rm=True.

mean(apoyo2, na.rm=T)
## [1] 61.2

Paquetes

R es un proyecto colaborativo. Muchos desarrolladores producen nuevos paquetes que son administrados por el mismo proyecto de R. Estos paquetes pueden incluir muchas funciones que ayudan a manejar datos.

R tiene funciones nativas para importar bases de datos de diferentes formatos, como Excel, SPSS o Stata. Cada formato tiene una función específica, como read_csv o read_dta. Sin embargo, unos desarrolladores han producido un paquete llamado “rio” que incluye una función import que permite importar cualquier tipo de base de datos. Este paquete no viene instalado en la descarga básica de R, por lo que se tiene que instalar el paquete para poder usarlo.

Para instalar un paquete se usa el comando install.packages con el nombre del paquete que se quiere instalar entre comillas. En este caso hemos usado un # antes del código debido a que ya se tiene instalado el paquete. Para mostrar los comentarios o líneas de código que queremos mostrar, pero que no se corran, se pueden hacer con un # antes del comentario o código.

# install.packages("rio")

Una vez instalado, se tiene que activar el paquete para poder usar sus funciones. Esto se hace con el comando library. Una vez activado, se puede usar cualquier función de esta librería, como la función import. Para activar ya no se requiere comillas. Este procedimiento se puede verificar en el panel inferior derecho, en la pestaña “Packages”. El paquete “rio” aparece con un check.

library(rio)

Dataframes

Los dataframes son estructuras de datos rectangulares. Como convención, los dataframes tienen en sus columnas a los vectores (o variables) y en las filas a las observaciones. Para crear un dataframe se usa el comando data.frame(...).

Por ejemplo, podemos crear un dataframe que junte los datos del vector “pais” con los del vector “apoyo”. Estos dos vectores tienen que tener las mismas dimensiones. Vemos en el Environment que ambos tienen como dimensión [1:20]. Este dataframe se puede guardar en un objeto “apoyoAL”.

apoyoAL = data.frame(pais, apoyo)
apoyoAL
##    pais apoyo
## 1    UY    80
## 2    SV    73
## 3    CR    71
## 4    AR    69
## 5    CL    68
## 6    BR    67
## 7    GY    66
## 8    MX    63
## 9    EC    63
## 10   NI    63
## 11   DO    62
## 12   PN    61
## 13   BO    61
## 14   JA    57
## 15   CO    53
## 16   GT    52
## 17   PY    50
## 18   PE    50
## 19   HN    49
## 20   HT    46

Vemos que el objeto “apoyoAL” se ha guardado en una sección aparte del Environment que se llama “Data”. Este objeto tiene 20 observaciones (es decir, 20 filas o países) y dos variables (es decir, dos vectores o dos columnas). Se puede hacer click en este objeto y se puede ver la plancha de datos en una pestaña aparte.

Si se quisiera hacer un dataframe con los vectores “pais” y “apoyo2”, R nos daría un mensaje de error debido a que estos vectores tienen diferentes dimensiones.

Ahora, el vector “apoyo” forma parte de la base de datos “apoyoAL”. Para poder usar las funciones en un dataframe se debe especificar la columna de la que se quiere calcular la función. Por ejemplo, si ahora se quisiera calcular el promedio de apoyo a la democracia desde la base de datos “apoyoAL” se tiene que especificar la variable (o vector) con “$”.

mean(apoyoAL$apoyo)
## [1] 61.2

En general, cualquier base de datos es una estructura rectangular donde en las filas tenemos las observaciones y en las columnas, las variables, lo que cambia es el número de filas y de columnas.

Por ejemplo, una base de datos del Barómetro de las Américas de un país puede tener 1,500 observaciones (1,500 filas) y más de 100 variables (más de 100 columnas o vectores). En ese caso, cada observación corresponde a una persona que respondió la encuesta y una columna (o vector de datos) representa las respuestas de todos los entrevistados a una pregunta del cuestionario.

Es más, la base de datos conjunta (el merge de datos) es la base de datos de todos los países en una ronda. Esta base de datos puede tener más de 30 mil observaciones (es decir, todos los entrevistados en todos los países en una ronda determinada) y más de 100 columnas.

Más allá del tamaño de la base de datos, las columnas son vectores a los que se les puede aplicar funciones.

En la siguiente sección sobre importación de los datos del Barómetro de las Américas en RStudio se verá la manera de descargar una base de datos del proyecto y cargarla en RStudio.

Resumen

En este documento se han revisado los elementos básico de R, como objetos y vectores, y las funciones básicas que se pueden aplicar a estos objetos. También se ha revisado la manera de instalar librerías y de activarlas para poder usar sus funciones. Finalmente, se ha explicado la idea de un dataframe.

