Introducción

En este documento empezaremos con los aspectos básicos de cómo usar la base de datos del Barómetro de las Américas de LAPOP para fines estadísticos. En primer lugar, veremos aspectos básicos de cómo describir una variable mediante una tabla de distribución de frecuencias y cómo graficar esa variable mediante gráficos circulares o de barras. Para eso, vamos a usar los informes regionales “El pulso de la democracia”, con los resultados de la ronda 2021, disponible aquí, y con los resultados de la ronda 2018/19, disponible aquí.

Uno de los resultados más relevantes en la ronda 2021 presenta los resultados sobre apoyo a la democracia en la región. Para la ronda 2018/19, una de las secciones de este informe, reporta los datos sobre redes sociales y actitudes políticas. En esta sección, se presentan datos sobre el uso de internet y el uso de redes sociales, en general y por país. Con los datos del Barómetro de las Américas se puede saber el porcentaje de hogares con acceso a celulares, con acceso a internet, así como el porcentaje de personas que usa Whatsapp, Facebook o Twitter. En este documento vamos a repasar estos resultados.

Sobre la base de datos

Los datos que vamos a usar deben citarse de la siguiente manera: Fuente: Barómetro de las Américas por el Proyecto de Opinión Pública de América Latina (LAPOP), wwww.LapopSurveys.org. En este documento se carga nuevamente desde cero una base de datos recortada. Se recomienda nuevamente limpiar el Environment de los objetos usados en módulos anteriores.

Esta base de datos se encuentra alojada en el repositorio “materials_edu” de la cuenta de LAPOP en GitHub. Mediante la librería rio y el comando import se puede importar esta base de datos desde este repositorio. Además, se seleccionan los datos de países con códigos menores o iguales a 35, es decir, se eliminan las observaciones de Estados Unidos y Canadá.

library(rio)
lapop18 = import("https://raw.github.com/lapop-central/materials_edu/main/LAPOP_AB_Merge_2018_v1.0.sav")
lapop18 = subset(lapop18, pais<=35)

También cargamos la base de datos de la ronda 2021.

lapop21 = import("https://raw.github.com/lapop-central/materials_edu/main/lapop21.RData")
lapop21 = subset(lapop21, pais<=35)

Apoyo a la democracia

En el reporte de El Pulso de la Democracia 2021 se presenta los resultados del apoyo a la democracia por país. El gráfico 1.1 muestra el porcentaje de personas en cada país que apoya a la democracia en abstracto.

En los módulos anteriores se vio cómo recodificar la variable ING4, medida originalmente en una escala del 1 al 7, donde 1 significa “muy en desacuerdo” y 7 significa “muy de acuerdo”. Los valores entre 5 a 7 son recodificados como “1”, que identifica a aquellos que apoyan a la democracia. El resto se recodifica como “0”, aquellos que no apoyan a la democracia. Esta recodificación se guarda en una nueva variable “ing4rec”.

library(car)
lapop21$ing4rec = car::recode(lapop21$ing4, "1:4=0; 5:7=1")

En sentido estricto, esta variable no es numérica, a pesar que está definida en la base de datos como “dbl”, que es un tipo de variable numérica. Esta variable es de tipo cualitativo, nominal, que en R se define como factor. Para tener correctamente definida y etiquetada esta variable, se tiene que transformar. En primer lugar se define como factor con el comando as.factor.

lapop21$ing4rec = as.factor(lapop21$ing4rec)

Una variable de tipo factor puede tener etiquetas por cada código numérico. La definición de etiquetas tiene el objetivo que en cualquier tabla o gráfico no aparezca el código numérico, sino la etiqueta correspondiente. Esto se hace usando el comando levels. Luego, esta variable se puede describir con el comando table, que nos brinda las frecuencias absolutas por cada categoría de la variable.

levels(lapop21$ing4rec) = c("No", "Sí")
table(lapop21$ing4rec)
## 
##    No    Sí 
## 20523 36240

Describir la variable

Como vimos en el módulo sobre Manejo de Datos, se puede usar el comando prop.table para tener las frecuencias relativas y el comando round para mostrar solo un decimal.

round(prop.table(table(lapop21$ing4rec))*100, 1)
## 
##   No   Sí 
## 36.2 63.8

Este gráfico muestra los resultados de las 2 categorías definidas de la variable de apoyo a la democracia. Sin embargo, esta variable tiene valores perdidos. Para poder tener una tabla con los valores perdidos, se puede usar el comando table con la especificación useNA = "always".

round(prop.table(table(lapop21$ing4rec, useNA = "always"))*100, 1)
## 
##   No   Sí <NA> 
## 33.8 59.7  6.4

En esta tabla se ve que existe un 6.4% de casos perdidos del total de observaciones. La presentación de valores perdidos en tablas o gráficos depende del investigador. Aquí vamos a presentar los gráficos sobre los datos válidos.

Graficar la variable

Una variable de tipo “factor” se puede graficar de varias maneras. Una posibilidad es tener un gráfico circular. Se puede usar el comando pie que es parte de la sintaxis básica de R. Dentro de este comando se puede anidar el comando table para graficar estos valores.

pie(table(lapop21$ing4rec))

Este gráfico tiene algunas opciones de personalización. Por ejemplo, la especificación labels=… sirve para incluir el número de casos de cada sector y la especificación col=… sirve para definir los colores de los sectores.

pie(table(lapop21$ing4rec), labels=table(lapop21$ing4rec), col=1:2)

Otra opción es usar un gráfico de barras. Usando los comandos básicos de R, se puede usar el comando barplot.

barplot(prop.table(table(lapop21$ing4rec))*100, col=1:2)

Los comando de base de R tienen un nivel de personalización, pero existe una librería especializada para hacer gráficos llamada ggplot con más opciones gráficas. En esta serie de módulos vamos a usar esta librería.

Por ejemplo, para reproducir un gráfico de barras de la variable de apoyo a la democracia se llama a la librería ggplot2. Para graficar los datos de una variable de tipo factor, tenemos dos opciones: hacerlo desde la misma base de datos original o crear un nuevo objeto que guarde los resultados en una tabla.

En este ejemplo partiremos de la segunda opción por ser más simple. Lo primero que tenemos que hacer es guardar la tabla en un objeto, como un dataframe. Para esto usamos el comando as.data.frame donde anidamos el código para producir la tabla. Este comando crea dos columna, “Var1” que guarda las etiquetas y “Freq” que guarda el valor de los porcentajes.

tabla1 = as.data.frame(round(prop.table(table(lapop21$ing4rec))*100, 1))
tabla1
##   Var1 Freq
## 1   No 36.2
## 2   Sí 63.8

Luego, tenemos que definir son los datos que se van a usar con la especificación data=tabla1. Ojo, no usaremos la base de datos original “lapop21”, sino la “tabla1” donde hemos guardado los resultados.

El comando ggplot trabaja sumando capas. La especificación aes sirve para definir la “estética” del gráfico. Generalmente se usa para indicar qué variable se va a graficar en qué eje (x o y). También se puede usar la especificación fill= para definir los grupos que se van a generar. En este caso, en el eje X queremos las categorías “Sí” y “No” y en el eje Y, los datos de “Freq”.

Luego de especificar los datos y los ejes, se tiene que especificar el tipo de gráfico que se quiere realizar. Esto se hace con las geometrías (“geom_xxx”). Se define un gráfico de barras simple, usando el comando geom_bar(...), donde internamente especificamos stat="identity" para que este comando trabaje con los datos tal cual están en la tabla. También se define el ancho de la barra con la especificación width. Con la especificación labs se define las etiquetas de ejes y el “caption”. Finalmente, con la especificación coord_cartesian se define los límites del eje Y de 0 a 80. Se debe notar que el gráfico no presenta una columna para el porcentaje de valores perdidos. Presentar esta columna es opción del investigador.

library(ggplot2)
ggplot(data=tabla1, aes(x=Var1, y=Freq))+
  geom_bar(stat = "identity", width=0.5)+
  labs(x="Apoyo a la democracia", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2021")+
  coord_cartesian(ylim=c(0, 80))

Hasta aquí se ha presentado un gráfico de barras de la variable apoyo a la democracia para toda la muestra, que incluye a todos los países. El gráfico 1.1 muestra el porcentaje que apoya a la democracia por país. Este tipo de gráfico se verá más adelante.

Usuarios de redes sociales

Ahora se usará un ejemplo del reporte El Pulso de la Democracia de la ronda 2018/19. Se seguirá procedimientos similares a la sección anterior y se replicarán algunos gráficos del mismo reporte de esa ronda. Las variables con las que se trabajará son: SMEDIA1. ¿Tiene usted cuenta de Facebook?; SMEDIA4. ¿Tiene usted cuenta de Twitter?; SMEDIA7. ¿Tiene usted cuenta de Whatsapp?. Estas preguntas tienen como opciones de respuesta:

  1. No

Al momento de leer la base de datos en R, este programa importa las variables como “num”, que la mayoría de funciones en R trata como numéricas. Estas variables se tienen que convertir a variables de tipo “factor” con el comando as.factor, pues son variables categóricas. Esta nuevas variables las guardamos en el dataframe.

lapop18$smedia1r = as.factor(lapop18$smedia1)
lapop18$smedia4r = as.factor(lapop18$smedia4)
lapop18$smedia7r = as.factor(lapop18$smedia7)

Estas nuevas variables de tipo factor se tienen que etiquetar con el comando levels. Se usa un vector con las etiquetas concatenadas, usando el comando c().

levels(lapop18$smedia1r) = c("Sí", "No")
levels(lapop18$smedia4r) = c("Sí", "No")
levels(lapop18$smedia7r) = c("Sí", "No")

Calcular las variables de usuarios de redes sociales

Como vimos en un módulo anterior, se puede calcular nuevas variables con valores condicionales de otras variables usando el comando ifelse. De esta manera, se crea las variables de usuarios de redes sociales.

lapop18$fb_user = ifelse(lapop18$smedia1==1 & lapop18$smedia2<=4, 1, 0)
lapop18$tw_user = ifelse(lapop18$smedia4==1 & lapop18$smedia5<=4, 1, 0)
lapop18$wa_user = ifelse(lapop18$smedia7==1 & lapop18$smedia8<=4, 1, 0)

Describir las variables

Con las variables listas, ahora procedemos a hacer las tablas generales con el comando table. Se puede notar el uso de # como forma de hacer anotaciones, que no son código en R.

table(lapop18$smedia1r) #Facebook
## 
##    Sí    No 
## 15389 11573
table(lapop18$smedia4r) #Twitter
## 
##    Sí    No 
##  2363 24558
table(lapop18$smedia7r) #Whatsapp
## 
##    Sí    No 
## 17446  9569

Este comando table nos brinda las frecuencias absolutas (número de observaciones) por cada categoría de las variables (en este caso Sí y No). Para obtener las frecuencias relativas, usaremos el comando prop.table, donde se anida el comando anterior table.

prop.table(table(lapop18$smedia1r))
## 
##        Sí        No 
## 0.5707663 0.4292337
prop.table(table(lapop18$smedia4r))
## 
##         Sí         No 
## 0.08777534 0.91222466
prop.table(table(lapop18$smedia7r))
## 
##        Sí        No 
## 0.6457894 0.3542106

Sin embargo, el comando prop.table nos devuelve demasiados decimales y las frecuencias relativas en una escala de 0 a 1. Para redondear esta cifra usamos el comando round, que nos permite especificar el número de decimales que se quiere mostrar. Tanto el comando table, como prop.table se anidan dentro de este nuevo comando. En este caso se ha usado 3 decimales, para cuando se multiplique por 100, quede en forma de porcentaje con 1 decimal.

round(prop.table(table(lapop18$smedia1r)), 3)*100
## 
##   Sí   No 
## 57.1 42.9
round(prop.table(table(lapop18$smedia4r)), 3)*100
## 
##   Sí   No 
##  8.8 91.2
round(prop.table(table(lapop18$smedia7r)), 3)*100
## 
##   Sí   No 
## 64.6 35.4

No es práctico presentar 3 tablas cuando las variables tienen las mismas categorías de respuesta. Para fines de presentación podría ser mejor construir una sola tabla. Se puede guardar las tablas parciales en nuevos objetos con el operador <- y luego unirlas como filas con el comando rbind en un nuevo dataframe “tabla”, de tal manera que las respuestas a cada red social aparezcan en filas.

Facebook = round(prop.table(table(lapop18$smedia1r)), 3)*100
Twitter = round(prop.table(table(lapop18$smedia4r)), 3)*100
Whatsapp = round(prop.table(table(lapop18$smedia7r)), 3)*100
tabla2 = as.data.frame(rbind(Facebook, Twitter, Whatsapp))
tabla2
##            Sí   No
## Facebook 57.1 42.9
## Twitter   8.8 91.2
## Whatsapp 64.6 35.4

Para tener una mejor presentación de la tabla, se puede usar el comando kable del paquete knitr, usando la tabla construida anteriormente.

library(knitr)
knitr::kable(tabla2, format="markdown")
No
Facebook 57.1 42.9
Twitter 8.8 91.2
Whatsapp 64.6 35.4

Graficar las variables

En el Gráfico 3.1 del reporte se observa que se reportan estos datos mediante un gráfico de sectores circulares.

Se puede reproducir ese gráfico usando el comando pie que es parte de la sintaxis básica de R. Dentro de este comando se puede anidar el comando table para graficar estos valores.

pie(table(lapop18$smedia1r))

También se podría pensar en un gráfico de barras. Usando los comandos básicos de R, se puede usar el comando barplot.

barplot(prop.table(table(lapop18$smedia1r)))

Estos comandos gráficos tienen opciones para adecuar el gráfico, por ejemplo, para incluir los porcentajes y adecuar las escalas.

Pero, como mencionamos más arriba, para tener más opciones gráficas, usaremos el paquete ggplot para reproducir el gráfico circular y a lo largo de estos módulos.

Lo primero que tenemos que hacer es crear una tabla que guarde los datos que queremos graficar sobre los usuarios de Facebook. Recordemos que tenemos una tabla con estos resultados donde la primera fila muestra las etiquetas “Sí” y “No” y la segunda fila los porcentajes. Requerimos que las etiquetas estén como columnas y los porcentajes también. Para esto tenemos que transponer la tabla, que significa “darle la vuelta”. Luego, esta nueva tabla la guardamos como un dataframe con el comando as.data.frame que crea tres columnas “Var1” (sin interés), “Var2” con las etiquetas y Freq con los porcentajes.

Face = as.data.frame(t(Facebook))
Face
##   Var1 Var2 Freq
## 1    A   Sí 57.1
## 2    A   No 42.9

Con esta tabla podemos crear un gráfico de barras como el visto más arriba. Otro tipo de barras que se usa frecuentemente es del tipo de barras apiladas al 100%.

Vamos a crear una barra apilada con estos resultados. A diferencia del gráfico de barras convencional, las barras apiladas requieren que en la aes(x="", y=Freq, fill=Var2). Es decir, que no haya etiquetas en el eje X, que el eje Y muestre los porcentajes (guardados en “Freq”) y que la barra esté separada por las categorías (guardadas en “Var2”).

Se agrega una capa de texto, con la especificación geom_text. Dentro de esta especificación se determina una “estética” con la etiqueta del dato aes(label=...), donde se junta con el comando paste el dato del porcentaje “per” y el símbolo “%”, con un espacio (sep=...) entre ellos. Se establece el color de la fuente con color="...". Se ajusta a blanco para que contraste con los colores del gráfico circular. Con el comando hjust=... se ajusta la posición horizontal de este texto. El comando ggplot puede incluir varios “temas” para el gráfico. En este caso se ha usado theme_void() que indica un fondo vacío. Finalmente, con la especificación scale_fill_discrete(name=...) se puede cambiar el título de la leyenda para que no aparezca el nombre de la variable, sino una etiqueta más adecuada.

ggplot(data=Face, aes(x="", y=Freq, fill=Var2))+
  geom_bar(width=1, stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="white",
            position=position_stack(vjust=0.5), size=3)+
  theme_void()+
  scale_fill_discrete(name="¿Usa Facebook?")

Para crear un gráfico circular, no existe una “geometría” en ggplot. Sin embargo, para genera el gráfico circular, se tiene que agregar otro capa coord_polar, que transforma la barra a coordenadas polares, creando un gráfico circular. Todo el resto del código es similar al anterior.

ggplot(data=Face, aes(x="", y=Freq, fill=Var2))+
  geom_bar(width=1, stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="white",
            position=position_stack(vjust=0.5), size=3)+
  coord_polar("y")+
  theme_void()+
  scale_fill_discrete(name="¿Usa Facebook?")

Si quisiéramos regresar a hacer un gráfico de barras, podemos incluir el texto de los valores con geom_text, el título general del gráfico con title dentro de labs, los nombres de los ejes y el “caption”.

ggplot(Face, aes(x=Var2, y=Freq))+
  geom_bar(stat="identity",  width=0.5)+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="black", vjust=-0.5)+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       x="Usuario de Facebook", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  coord_cartesian(ylim=c(0, 60))

Resumen

En este documento se ha trabajado con variables categóricas nominales, como apoyo a la democracia o si usa o no usa redes sociales. Se ha presentando las formas de cómo describir en tablas de frecuencia y cómo graficar estas variables, mediante gráficos circulares o de barras.

Cálculos incluyendo el efecto de diseño

Estos últimos resultados de la ronda 2018/19 no son exactamente iguales a los del reporte pues LAPOP incluye el efecto del diseño muestral en sus cálculos. Según esta sintaxis, se encuentra que el 57.1% de entrevistados reporta ser usuario de Facebook, cuando en el reporte aparece 56.2%. Lo mismo con Twitter, que aquí se calcula en 8.8% y en el reporte 7.9%; y con Whatsapp que aquí aparece con 64.6% y en el reporte con 64.4%. Como se indicó en el documento sobre el uso de los factores de expansión usando los datos del Barómetro de las Américas (disponible aquí), hay varias maneras de reproducir los resultados incorporando el efecto de diseño. Una primera opción es usar el comando freq que permite la inclusión de una variable de factor de expansión, como “weight1500”. Se incluye la especificación plot=F para no producir los gráficos de barras.

library(descr)
descr::freq(lapop18$fb_user, lapop18$weight1500, plot = F)
## lapop18$fb_user 
##       Frequency Percent Valid Percent
## 0         11337  41.988         43.77
## 1         14564  53.939         56.23
## NA's       1100   4.073              
## Total     27000 100.000        100.00
descr::freq(lapop18$tw_user, lapop18$weight1500, plot = F)
## lapop18$tw_user 
##       Frequency Percent Valid Percent
## 0         23819  88.220        92.023
## 1          2065   7.647         7.977
## NA's       1116   4.133              
## Total     27000 100.000       100.000
descr::freq(lapop18$wa_user, lapop18$weight1500, plot = F)
## lapop18$wa_user 
##       Frequency Percent Valid Percent
## 0          9252  34.266         35.63
## 1         16714  61.903         64.37
## NA's       1035   3.832              
## Total     27000 100.000        100.00

Sin considerar el efecto de diseño, se tiene que 57.1% de entrevistados cuenta con una cuenta de Facebook. Este porcentaje varía a 55.2% si se incluye la variable de expansión, que es el valor que se muestra en el reporte. Estos resultados ponderados también se pueden guardar en objetos y luego graficar de la misma manera que se ha hecho con los resultados sin ponderar.

Para el caso de Facebook, la tabla se puede guardar como un dataframe, usando el comando as.data.frame. Esta tabla incluye datos que no requerimos, como la fila de NA´s y del total y como la columna de Percent. Estas filas y esta columna se borran usando la especificación [-c(3,4), -2].

Luego, se le cambia el nombre a las columnas para evitar el nombre “Valid Percent”. Se las nombre simplemente como “freq” y “per”. Esta columna “per” es la que tiene los datos que graficaremos. Finalmente, se añade una columna “lab” con las etiquetas de cada fila de resultados.

fb = as.data.frame(descr::freq(lapop18$fb_user, lapop18$weight1500, 
                               plot = F))
fb = fb[-c(3,4), -2]
colnames(fb) = c("freq", "per")
fb$lab = c("No", "Sí")
fb
##       freq      per lab
## 0 11336.69 43.77052  No
## 1 14563.60 56.22948  Sí

Con este nuevo dataframe podemos replicar los mismo códigos usados más arriba para hacer un gráfico de barras o un gráfico circular. El siguiente código muestra el gráfico de barras. Nótese que ahora se usa el dataframe “fb” y que en aes se especifica que en el eje X deben estar los datos de la columna “lab” y en el eje Y los datos de la columna “per”.

ggplot(data=fb, aes(x=lab, y=per))+
  geom_bar(stat="identity",  width=0.5)+
  geom_text(aes(label=paste(round(per, 1), "%", sep="")), 
            color="black", vjust=-0.5)+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       x="Usuario de Facebook", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  coord_cartesian(ylim=c(0, 60))

Esto mismo se puede hacer para crear un gráfico circular. Este gráfico reproduce los resultados hallados en el Gráfico 3.1 del reporte.

ggplot(data=fb, aes(x=2, y=per, fill=lab))+
  geom_bar(stat="identity")+
  geom_text(aes(label=paste(round(per, 1), "%", sep="")), color="white", 
            position=position_stack(vjust=0.5), size=3)+
  coord_polar("y")+
  theme_void()+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  scale_fill_discrete(name="¿Usa Facebook?")+
  xlim(0.5, 2.5)

La segunda opción para reproducir los datos del reporte exactamente es mediante el paquete survey. Como se indicó en esta sección, primero se tiene que definir el diseño muestral con el comando svydesign.

library(survey)
diseno18 = svydesign(ids = ~upm, strata = ~estratopri, 
                     weights = ~weight1500, nest=TRUE, data=lapop18)

Una vez creado los datos con el factor de expansión en el objeto “diseno18”, se puede usar los comandos nativos del paquete survey para realizar cálculos. Por ejemplo, para calcular la tabla de distribución de frecuencias se puede usar el comando svytable.

svytable(~fb_user, design=diseno18)
## fb_user
##        0        1 
## 11336.69 14563.60

Estas frecuencias se pueden anidar en el comando prop.table para calcular los porcentajes de usuarios de redes sociales. Estos resultados son iguales a los mostrados en los gráficos anteriores y a los que aparecen en el reporte.

Estos datos también se pueden guardar en un dataframe que se adapta para graficar, siguiendo el mismo procedimiento que en los gráficos anteriores.

prop.table(svytable(~fb_user, design=diseno18))
## fb_user
##         0         1 
## 0.4377052 0.5622948
prop.table(svytable(~tw_user, design=diseno18))
## tw_user
##          0          1 
## 0.92023002 0.07976998
prop.table(svytable(~wa_user, design=diseno18))
## wa_user
##         0         1 
## 0.3563091 0.6436909
---
title: "Estadística descriptiva usando el Barómetro de las Américas (1)"
output:
  html_document:
    toc: true
    toc_float: true
    collapsed: false
    number_sections: false
    toc_depth: 1
    code_download: true
    theme: flatly
    #code_folding: hide
editor_options: 
  markdown: 
    wrap: sentence
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(message=FALSE,warning=FALSE, cache=TRUE)
```

```{css color, echo=FALSE}
.columns {display: flex;}
h1 {color: #3366CC;}
```

# Introducción

En este documento empezaremos con los aspectos básicos de cómo usar la base de datos del Barómetro de las Américas de LAPOP para fines estadísticos.
En primer lugar, veremos aspectos básicos de cómo describir una variable mediante una tabla de distribución de frecuencias y cómo graficar esa variable mediante gráficos circulares o de barras.
Para eso, vamos a usar los informes regionales "El pulso de la democracia", con los resultados de la ronda 2021, disponible [aquí](https://www.vanderbilt.edu/lapop/ab2021/2021_LAPOP_AmericasBarometer_2021_Pulse_of_Democracy.pdf), y con los resultados de la ronda 2018/19, disponible [aquí](https://www.vanderbilt.edu/lapop/ab2018/2018-19_AmericasBarometer_Regional_Report_Spanish_W_03.27.20.pdfx).

Uno de los resultados más relevantes en la ronda 2021 presenta los resultados sobre apoyo a la democracia en la región.
Para la ronda 2018/19, una de las secciones de este informe, reporta los datos sobre redes sociales y actitudes políticas.
En esta sección, se presentan datos sobre el uso de internet y el uso de redes sociales, en general y por país.
Con los datos del Barómetro de las Américas se puede saber el porcentaje de hogares con acceso a celulares, con acceso a internet, así como el porcentaje de personas que usa Whatsapp, Facebook o Twitter.
En este documento vamos a repasar estos resultados.

# Sobre la base de datos

Los datos que vamos a usar deben citarse de la siguiente manera: Fuente: Barómetro de las Américas por el Proyecto de Opinión Pública de América Latina (LAPOP), wwww.LapopSurveys.org.
En este documento se carga nuevamente desde cero una base de datos recortada.
Se recomienda nuevamente limpiar el Environment de los objetos usados en módulos anteriores.

Esta base de datos se encuentra alojada en el repositorio "materials_edu" de la cuenta de LAPOP en GitHub.
Mediante la librería `rio` y el comando `import` se puede importar esta base de datos desde este repositorio.
Además, se seleccionan los datos de países con códigos menores o iguales a 35, es decir, se eliminan las observaciones de Estados Unidos y Canadá.

```{r base, message=FALSE, warning=FALSE}
library(rio)
lapop18 = import("https://raw.github.com/lapop-central/materials_edu/main/LAPOP_AB_Merge_2018_v1.0.sav")
lapop18 = subset(lapop18, pais<=35)
```

También cargamos la base de datos de la ronda 2021.

```{r base21}
lapop21 = import("https://raw.github.com/lapop-central/materials_edu/main/lapop21.RData")
lapop21 = subset(lapop21, pais<=35)
```

# Apoyo a la democracia

En el reporte de El Pulso de la Democracia 2021 se presenta los resultados del apoyo a la democracia por país.
El gráfico 1.1 muestra el porcentaje de personas en cada país que apoya a la democracia en abstracto.

![](Grafico1.1.png)

En los módulos anteriores se vio cómo recodificar la variable ING4, medida originalmente en una escala del 1 al 7, donde 1 significa "muy en desacuerdo" y 7 significa "muy de acuerdo".
Los valores entre 5 a 7 son recodificados como "1", que identifica a aquellos que apoyan a la democracia.
El resto se recodifica como "0", aquellos que no apoyan a la democracia.
Esta recodificación se guarda en una nueva variable "ing4rec".

```{r apoyo}
library(car)
lapop21$ing4rec = car::recode(lapop21$ing4, "1:4=0; 5:7=1")
```

En sentido estricto, esta variable no es numérica, a pesar que está definida en la base de datos como "dbl", que es un tipo de variable numérica.
Esta variable es de tipo cualitativo, nominal, que en R se define como factor.
Para tener correctamente definida y etiquetada esta variable, se tiene que transformar.
En primer lugar se define como factor con el comando `as.factor`.

```{r apoyo rec}
lapop21$ing4rec = as.factor(lapop21$ing4rec)
```

Una variable de tipo factor puede tener etiquetas por cada código numérico.
La definición de etiquetas tiene el objetivo que en cualquier tabla o gráfico no aparezca el código numérico, sino la etiqueta correspondiente.
Esto se hace usando el comando `levels`.
Luego, esta variable se puede describir con el comando `table`, que nos brinda las frecuencias absolutas por cada categoría de la variable.

```{r apoyo labels}
levels(lapop21$ing4rec) = c("No", "Sí")
table(lapop21$ing4rec)
```

## Describir la variable

Como vimos en el módulo sobre Manejo de Datos, se puede usar el comando `prop.table` para tener las frecuencias relativas y el comando `round` para mostrar solo un decimal.

```{r apoyo desc}
round(prop.table(table(lapop21$ing4rec))*100, 1)
```

Este gráfico muestra los resultados de las 2 categorías definidas de la variable de apoyo a la democracia.
Sin embargo, esta variable tiene valores perdidos.
Para poder tener una tabla con los valores perdidos, se puede usar el comando `table` con la especificación `useNA = "always"`.

```{r apoyo round}
round(prop.table(table(lapop21$ing4rec, useNA = "always"))*100, 1)
```

En esta tabla se ve que existe un 6.4% de casos perdidos del total de observaciones.
La presentación de valores perdidos en tablas o gráficos depende del investigador.
Aquí vamos a presentar los gráficos sobre los datos válidos.

## Graficar la variable

Una variable de tipo "factor" se puede graficar de varias maneras.
Una posibilidad es tener un gráfico circular.
Se puede usar el comando `pie` que es parte de la sintaxis básica de R.
Dentro de este comando se puede anidar el comando `table` para graficar estos valores.

```{r pie}
pie(table(lapop21$ing4rec))
```

Este gráfico tiene algunas opciones de personalización.
Por ejemplo, la especificación `labels=…` sirve para incluir el número de casos de cada sector y la especificación `col=…` sirve para definir los colores de los sectores.

```{r pie color}
pie(table(lapop21$ing4rec), labels=table(lapop21$ing4rec), col=1:2)
```

Otra opción es usar un gráfico de barras.
Usando los comandos básicos de R, se puede usar el comando `barplot`.

```{r barra}
barplot(prop.table(table(lapop21$ing4rec))*100, col=1:2)
```

Los comando de base de R tienen un nivel de personalización, pero existe una librería especializada para hacer gráficos llamada `ggplot` con más opciones gráficas.
En esta serie de módulos vamos a usar esta librería.

Por ejemplo, para reproducir un gráfico de barras de la variable de apoyo a la democracia se llama a la librería `ggplot2`.
Para graficar los datos de una variable de tipo factor, tenemos dos opciones: hacerlo desde la misma base de datos original o crear un nuevo objeto que guarde los resultados en una tabla.

En este ejemplo partiremos de la segunda opción por ser más simple.
Lo primero que tenemos que hacer es guardar la tabla en un objeto, como un dataframe.
Para esto usamos el comando `as.data.frame` donde anidamos el código para producir la tabla.
Este comando crea dos columna, "Var1" que guarda las etiquetas y "Freq" que guarda el valor de los porcentajes.

```{r tabla1}
tabla1 = as.data.frame(round(prop.table(table(lapop21$ing4rec))*100, 1))
tabla1
```

Luego, tenemos que definir son los datos que se van a usar con la especificación `data=tabla1`.
Ojo, no usaremos la base de datos original "lapop21", sino la "tabla1" donde hemos guardado los resultados.

El comando `ggplot` trabaja sumando capas.
La especificación `aes` sirve para definir la "estética" del gráfico.
Generalmente se usa para indicar qué variable se va a graficar en qué eje (x o y).
También se puede usar la especificación `fill=` para definir los grupos que se van a generar.
En este caso, en el eje X queremos las categorías "Sí" y "No" y en el eje Y, los datos de "Freq".

Luego de especificar los datos y los ejes, se tiene que especificar el tipo de gráfico que se quiere realizar.
Esto se hace con las geometrías ("geom_xxx").
Se define un gráfico de barras simple, usando el comando `geom_bar(...)`, donde internamente especificamos `stat="identity"` para que este comando trabaje con los datos tal cual están en la tabla.
También se define el ancho de la barra con la especificación `width`.
Con la especificación `labs` se define las etiquetas de ejes y el "caption".
Finalmente, con la especificación `coord_cartesian` se define los límites del eje Y de 0 a 80.
Se debe notar que el gráfico no presenta una columna para el porcentaje de valores perdidos.
Presentar esta columna es opción del investigador.

```{r gg tabla}
library(ggplot2)
ggplot(data=tabla1, aes(x=Var1, y=Freq))+
  geom_bar(stat = "identity", width=0.5)+
  labs(x="Apoyo a la democracia", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2021")+
  coord_cartesian(ylim=c(0, 80))
```

Hasta aquí se ha presentado un gráfico de barras de la variable apoyo a la democracia para toda la muestra, que incluye a todos los países.
El gráfico 1.1 muestra el porcentaje que apoya a la democracia por país.
Este tipo de gráfico se verá más adelante.

# Usuarios de redes sociales

Ahora se usará un ejemplo del reporte El Pulso de la Democracia de la ronda 2018/19.
Se seguirá procedimientos similares a la sección anterior y se replicarán algunos gráficos del mismo reporte de esa ronda.
Las variables con las que se trabajará son: SMEDIA1.
¿Tiene usted cuenta de Facebook?;
SMEDIA4.
¿Tiene usted cuenta de Twitter?;
SMEDIA7.
¿Tiene usted cuenta de Whatsapp?.
Estas preguntas tienen como opciones de respuesta:

1.  Sí

2.  No

Al momento de leer la base de datos en R, este programa importa las variables como "num", que la mayoría de funciones en R trata como numéricas.
Estas variables se tienen que convertir a variables de tipo "factor" con el comando `as.factor`, pues son variables categóricas.
Esta nuevas variables las guardamos en el dataframe.

```{r factor}
lapop18$smedia1r = as.factor(lapop18$smedia1)
lapop18$smedia4r = as.factor(lapop18$smedia4)
lapop18$smedia7r = as.factor(lapop18$smedia7)
```

Estas nuevas variables de tipo factor se tienen que etiquetar con el comando `levels`.
Se usa un vector con las etiquetas concatenadas, usando el comando `c()`.

```{r etiqueta}
levels(lapop18$smedia1r) = c("Sí", "No")
levels(lapop18$smedia4r) = c("Sí", "No")
levels(lapop18$smedia7r) = c("Sí", "No")
```

## Calcular las variables de usuarios de redes sociales

Como vimos en un módulo anterior, se puede calcular nuevas variables con valores condicionales de otras variables usando el comando `ifelse`.
De esta manera, se crea las variables de usuarios de redes sociales.

```{r usuario}
lapop18$fb_user = ifelse(lapop18$smedia1==1 & lapop18$smedia2<=4, 1, 0)
lapop18$tw_user = ifelse(lapop18$smedia4==1 & lapop18$smedia5<=4, 1, 0)
lapop18$wa_user = ifelse(lapop18$smedia7==1 & lapop18$smedia8<=4, 1, 0)
```

## Describir las variables

Con las variables listas, ahora procedemos a hacer las tablas generales con el comando `table`.
Se puede notar el uso de `#` como forma de hacer anotaciones, que no son código en R.

```{r tablas}
table(lapop18$smedia1r) #Facebook
table(lapop18$smedia4r) #Twitter
table(lapop18$smedia7r) #Whatsapp
```

Este comando `table` nos brinda las frecuencias absolutas (número de observaciones) por cada categoría de las variables (en este caso Sí y No).
Para obtener las frecuencias relativas, usaremos el comando `prop.table`, donde se anida el comando anterior `table`.

```{r proporciones}
prop.table(table(lapop18$smedia1r))
prop.table(table(lapop18$smedia4r))
prop.table(table(lapop18$smedia7r))
```

Sin embargo, el comando `prop.table` nos devuelve demasiados decimales y las frecuencias relativas en una escala de 0 a 1.
Para redondear esta cifra usamos el comando `round`, que nos permite especificar el número de decimales que se quiere mostrar.
Tanto el comando `table`, como `prop.table` se anidan dentro de este nuevo comando.
En este caso se ha usado 3 decimales, para cuando se multiplique por 100, quede en forma de porcentaje con 1 decimal.

```{r tabla}
round(prop.table(table(lapop18$smedia1r)), 3)*100
round(prop.table(table(lapop18$smedia4r)), 3)*100
round(prop.table(table(lapop18$smedia7r)), 3)*100
```

No es práctico presentar 3 tablas cuando las variables tienen las mismas categorías de respuesta.
Para fines de presentación podría ser mejor construir una sola tabla.
Se puede guardar las tablas parciales en nuevos objetos con el operador `<-` y luego unirlas como filas con el comando `rbind` en un nuevo dataframe "tabla", de tal manera que las respuestas a cada red social aparezcan en filas.

```{r tablajunta}
Facebook = round(prop.table(table(lapop18$smedia1r)), 3)*100
Twitter = round(prop.table(table(lapop18$smedia4r)), 3)*100
Whatsapp = round(prop.table(table(lapop18$smedia7r)), 3)*100
tabla2 = as.data.frame(rbind(Facebook, Twitter, Whatsapp))
tabla2
```

Para tener una mejor presentación de la tabla, se puede usar el comando `kable` del paquete `knitr`, usando la tabla construida anteriormente.

```{r tablamejorada, results='asis'}
library(knitr)
knitr::kable(tabla2, format="markdown")
```

## Graficar las variables

En el Gráfico 3.1 del reporte se observa que se reportan estos datos mediante un gráfico de sectores circulares.

![](Graf3.1.png){width="418"}

Se puede reproducir ese gráfico usando el comando `pie` que es parte de la sintaxis básica de R.
Dentro de este comando se puede anidar el comando `table` para graficar estos valores.

```{r pie2}
pie(table(lapop18$smedia1r))
```

También se podría pensar en un gráfico de barras.
Usando los comandos básicos de R, se puede usar el comando `barplot`.

```{r barras simple}
barplot(prop.table(table(lapop18$smedia1r)))
```

Estos comandos gráficos tienen opciones para adecuar el gráfico, por ejemplo, para incluir los porcentajes y adecuar las escalas.

Pero, como mencionamos más arriba, para tener más opciones gráficas, usaremos el paquete `ggplot` para reproducir el gráfico circular y a lo largo de estos módulos.

Lo primero que tenemos que hacer es crear una tabla que guarde los datos que queremos graficar sobre los usuarios de Facebook.
Recordemos que tenemos una tabla con estos resultados donde la primera fila muestra las etiquetas "Sí" y "No" y la segunda fila los porcentajes.
Requerimos que las etiquetas estén como columnas y los porcentajes también.
Para esto tenemos que transponer la tabla, que significa "darle la vuelta".
Luego, esta nueva tabla la guardamos como un dataframe con el comando `as.data.frame` que crea tres columnas "Var1" (sin interés), "Var2" con las etiquetas y Freq con los porcentajes.

```{r tabla Face}
Face = as.data.frame(t(Facebook))
Face
```

Con esta tabla podemos crear un gráfico de barras como el visto más arriba.
Otro tipo de barras que se usa frecuentemente es del tipo de barras apiladas al 100%.

Vamos a crear una barra apilada con estos resultados.
A diferencia del gráfico de barras convencional, las barras apiladas requieren que en la `aes(x="", y=Freq, fill=Var2)`.
Es decir, que no haya etiquetas en el eje X, que el eje Y muestre los porcentajes (guardados en "Freq") y que la barra esté separada por las categorías (guardadas en "Var2").

Se agrega una capa de texto, con la especificación `geom_text`.
Dentro de esta especificación se determina una "estética" con la etiqueta del dato `aes(label=...)`, donde se junta con el comando `paste` el dato del porcentaje "per" y el símbolo "%", con un espacio (`sep=...`) entre ellos.
Se establece el color de la fuente con `color="..."`.
Se ajusta a blanco para que contraste con los colores del gráfico circular.
Con el comando `hjust=...` se ajusta la posición horizontal de este texto.
El comando `ggplot` puede incluir varios "temas" para el gráfico.
En este caso se ha usado `theme_void()` que indica un fondo vacío.
Finalmente, con la especificación `scale_fill_discrete(name=...)` se puede cambiar el título de la leyenda para que no aparezca el nombre de la variable, sino una etiqueta más adecuada.

```{r gg apilada}
ggplot(data=Face, aes(x="", y=Freq, fill=Var2))+
  geom_bar(width=1, stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="white",
            position=position_stack(vjust=0.5), size=3)+
  theme_void()+
  scale_fill_discrete(name="¿Usa Facebook?")
```

Para crear un gráfico circular, no existe una "geometría" en `ggplot`.
Sin embargo, para genera el gráfico circular, se tiene que agregar otro capa `coord_polar`, que transforma la barra a coordenadas polares, creando un gráfico circular.
Todo el resto del código es similar al anterior.

```{r gg pie2}
ggplot(data=Face, aes(x="", y=Freq, fill=Var2))+
  geom_bar(width=1, stat="identity")+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="white",
            position=position_stack(vjust=0.5), size=3)+
  coord_polar("y")+
  theme_void()+
  scale_fill_discrete(name="¿Usa Facebook?")
```

Si quisiéramos regresar a hacer un gráfico de barras, podemos incluir el texto de los valores con `geom_text`, el título general del gráfico con `title` dentro de `labs`, los nombres de los ejes y el "caption".

```{r barra face}
ggplot(Face, aes(x=Var2, y=Freq))+
  geom_bar(stat="identity",  width=0.5)+
  geom_text(aes(label=paste(Freq, "%", sep="")), color="black", vjust=-0.5)+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       x="Usuario de Facebook", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  coord_cartesian(ylim=c(0, 60))
```

# Resumen

En este documento se ha trabajado con variables categóricas nominales, como apoyo a la democracia o si usa o no usa redes sociales.
Se ha presentando las formas de cómo describir en tablas de frecuencia y cómo graficar estas variables, mediante gráficos circulares o de barras.

# Cálculos incluyendo el efecto de diseño

Estos últimos resultados de la ronda 2018/19 no son exactamente iguales a los del reporte pues LAPOP incluye el efecto del diseño muestral en sus cálculos.
Según esta sintaxis, se encuentra que el 57.1% de entrevistados reporta ser usuario de Facebook, cuando en el reporte aparece 56.2%.
Lo mismo con Twitter, que aquí se calcula en 8.8% y en el reporte 7.9%; y con Whatsapp que aquí aparece con 64.6% y en el reporte con 64.4%.
Como se indicó en el documento sobre el uso de los factores de expansión usando los datos del Barómetro de las Américas (disponible [aquí](https://arturomaldonado.github.io/BarometroEdu_Web/Expansion.html)), hay varias maneras de reproducir los resultados incorporando el efecto de diseño.
Una primera opción es usar el comando `freq` que permite la inclusión de una variable de factor de expansión, como "weight1500".
Se incluye la especificación `plot=F` para no producir los gráficos de barras.

```{r descriptivos ponderados}
library(descr)
descr::freq(lapop18$fb_user, lapop18$weight1500, plot = F)
descr::freq(lapop18$tw_user, lapop18$weight1500, plot = F)
descr::freq(lapop18$wa_user, lapop18$weight1500, plot = F)
```

Sin considerar el efecto de diseño, se tiene que 57.1% de entrevistados cuenta con una cuenta de Facebook.
Este porcentaje varía a 55.2% si se incluye la variable de expansión, que es el valor que se muestra en el reporte.
Estos resultados ponderados también se pueden guardar en objetos y luego graficar de la misma manera que se ha hecho con los resultados sin ponderar.

Para el caso de Facebook, la tabla se puede guardar como un dataframe, usando el comando `as.data.frame`.
Esta tabla incluye datos que no requerimos, como la fila de NA´s y del total y como la columna de Percent.
Estas filas y esta columna se borran usando la especificación `[-c(3,4), -2]`.

Luego, se le cambia el nombre a las columnas para evitar el nombre "Valid Percent".
Se las nombre simplemente como "freq" y "per".
Esta columna "per" es la que tiene los datos que graficaremos.
Finalmente, se añade una columna "lab" con las etiquetas de cada fila de resultados.

```{r tabla fb}
fb = as.data.frame(descr::freq(lapop18$fb_user, lapop18$weight1500, 
                               plot = F))
fb = fb[-c(3,4), -2]
colnames(fb) = c("freq", "per")
fb$lab = c("No", "Sí")
fb
```

Con este nuevo dataframe podemos replicar los mismo códigos usados más arriba para hacer un gráfico de barras o un gráfico circular.
El siguiente código muestra el gráfico de barras.
Nótese que ahora se usa el dataframe "fb" y que en aes se especifica que en el eje X deben estar los datos de la columna "lab" y en el eje Y los datos de la columna "per".

```{r barras ponderadas}
ggplot(data=fb, aes(x=lab, y=per))+
  geom_bar(stat="identity",  width=0.5)+
  geom_text(aes(label=paste(round(per, 1), "%", sep="")), 
            color="black", vjust=-0.5)+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       x="Usuario de Facebook", y="Porcentaje", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  coord_cartesian(ylim=c(0, 60))
```

Esto mismo se puede hacer para crear un gráfico circular.
Este gráfico reproduce los resultados hallados en el Gráfico 3.1 del reporte.

```{r pie ponderado}
ggplot(data=fb, aes(x=2, y=per, fill=lab))+
  geom_bar(stat="identity")+
  geom_text(aes(label=paste(round(per, 1), "%", sep="")), color="white", 
            position=position_stack(vjust=0.5), size=3)+
  coord_polar("y")+
  theme_void()+
  labs(title="¿Qué tan frecuente se usan las redes sociales?", 
       caption="Barómetro de las Américas por LAPOP, 2018/19")+
  scale_fill_discrete(name="¿Usa Facebook?")+
  xlim(0.5, 2.5)
```

La segunda opción para reproducir los datos del reporte exactamente es mediante el paquete `survey`.
Como se indicó en esta [sección](https://arturomaldonado.github.io/BarometroEdu_Web/Expansion.html), primero se tiene que definir el diseño muestral con el comando `svydesign`.

```{r survey}
library(survey)
diseno18 = svydesign(ids = ~upm, strata = ~estratopri, 
                     weights = ~weight1500, nest=TRUE, data=lapop18)
```

Una vez creado los datos con el factor de expansión en el objeto "diseno18", se puede usar los comandos nativos del paquete `survey` para realizar cálculos.
Por ejemplo, para calcular la tabla de distribución de frecuencias se puede usar el comando `svytable`.

```{r svytable}
svytable(~fb_user, design=diseno18)
```

Estas frecuencias se pueden anidar en el comando `prop.table` para calcular los porcentajes de usuarios de redes sociales.
Estos resultados son iguales a los mostrados en los gráficos anteriores y a los que aparecen en el reporte.

Estos datos también se pueden guardar en un dataframe que se adapta para graficar, siguiendo el mismo procedimiento que en los gráficos anteriores.

```{r svytable prop}
prop.table(svytable(~fb_user, design=diseno18))
prop.table(svytable(~tw_user, design=diseno18))
prop.table(svytable(~wa_user, design=diseno18))
```
