Usaremos duas bases de dados reais para realização dessa prova.
As bases de dados serão retiradas de nosso repositório do GitHub e do site brasil.io.
Faça o download dos seguintes conjuntos de dados:
O uso do software R
é suficiente, mas não
necessário. Ou seja, você pode usar qualquer outro software que
estiver mais familiarizado, todavia, as dicas que serão dadas em algumas
questões abaixo, serão voltadas para os usuários do R
.
Por uma questão de organização, num crie seu projeto num diretório
por nome prova1
e organize seus dados assim (é só uma
sugestão):
/
prova1/
├── dados
│ ├── gapminder.csv-prouni.csv
│ └── cursos/
├── R
│ ├── script_gapminder.R
│ └── script_prouni.R/
├── img
│ └── titulo_intimacy.png-nome.Rmd └── prova_seu
dados/
, salve os datasets que
usaremos;R/
é opcional, mas pode servir para
scripts de testes; ou seja, você pode fazer os testes para
responder as questões separadamente. Então, assim que estiver satisfeito
com as respostas (dos códigos) pode inserí-los no arquivo principal
(.Rmd
)titulo_intimacy.png
deve estar salva
no diretório img/
. Também é aconselhável colocar nesse
diretório qualquer figura que for usar nas suas respostas (caso use
alguma fora dos códigos em R);prova_seu-nome.Rmd
é o arquivo principal.
Nele você faz a “compilação” com o knit
para
.html
. Você só me entregará o arquivo final, em
html
.Aluno: Coloque seu nome aqui! Data: (31/05/2023)
# importe os dados aqui (read_csv)
## importando os dados do Prouni
<- readr::read_csv("dados/cursos-prouni.csv")
notas_cursos <- readr::read_csv("dados/gapminder.csv") dados_gapminder
gapminder.csv
Questão 01. Responda aos itens abaixo, mostrando como chegou nas respostas.
Questão 02. Quantos países existem em cada
continente? Ou seja, após agrupar por continente
; exiba
(distintamtente) a variável pais
; e, conte-os.
Questão 03. Exclua o continente que possui a menor
quantidade de países e faça o gráfico de densidade
da
variável expectativa_de_via
, colocando uma transparência de
70% no argumento da densidade (alpha = 0.7
). Qual sua
interpretação para esse gráfico?
Questão 04. Vamos investigar o contraste entre a relação da expectativa de vida e o pib per capita durante um intervalo de 50 anos (1957 até 2007). Para tanto, construiremos um gráfico de pontos que possui algumas características: o tamanho do ponto relaciona-se ao tamanho da população; e, a cor do ponto realaciona-se com o continente.
Observe que, em 1957, há um país da Ásia que possui um alto pib per capita, embora possua uma expectativa de vida inferior aos 60 anos. Esse alto pib acabou por “aglutinar” os dos outros países. Então, para uma melhor percepção dessas diferenças, mudaremos a escala do PIB (usaremos a escala logarítima):
scale_x_log10()
à
camada do ggplot()
).Questão 05. As seguintes perguntas estão relacionadas ao continente Africano.
pais_menor
e o segundo de
pais_maior
. São os mesmos em 2007?pais_menor
e pais_maior
. Substitua os nomes
adequados e responda: os gráficos são semelhantes?|>
dados_gapminder filter(pais %in% c("pais_menor", "pais_maior")) |>
ggplot() +
aes(x = ano, y = expectativa_de_vida, color = pais, group = pais) +
geom_line() +
labs(
x = "",
y = ""
+
) theme_minimal()
Questão 06. No gráfico da questão anterior, do
pais_menor
, há uma queda vertiginosa, na década de 90, da
expectativa de vida. Pesquise sobre o que poderia ter ocasionado tal
queda.
cursos_prouni.csv
Questão 07 Para responder essa questão, complete
adequadamente o código abaixo, referente a construção de um
boxplot da varivável nota_integral_ampla
,
agrupadas pelo turno
(estamos considerando a variável
dados_cursos
, como sendo o dataset
cursos_prouni.csv
).
%>%
dados_cursos select(❓❓ , ❓❓) %>%
drop_na() %>%
ggplot() +
aes(x = ❓❓, y = ❓❓, fill = ❓❓) +
geom_boxplot(show.legend = FALSE) +
labs(
title = "Comparação das notas por turno",
x = "",
y = ""
+
) scale_fill_viridis_d() +
theme_minimal()
Questão 08. Qual a posição ocupa o estado da Bahia,
no que se refere à frequência absoluta da variável
uf_busca
, disposta de forma decrescente?
Questão 09. Quantos cursos foram identificados,
distintamente, na variável nome
?
Questão 10. Analise o código abaixo e execute-o
(estamos considerando a variável dados_curso
como sendo o
dataset cursos_prouni.csv
). O que você pode
concluir com respeito aos cursos exibidos, comparativamente? (cite, pelo
menos, duas características gráficas).
%>%
dados_cursos select(nome, nota_integral_ampla) %>%
drop_na() %>%
filter(nome == "Medicina" | nome == "Direito") %>%
ggplot() +
aes(nota_integral_ampla, nome, fill = nome) +
geom_density_ridges(show.legend = FALSE) +
scale_fill_viridis_d() +
labs(
title = "Comparação entre Medicina e Direito",
x = "",
y = ""
+
) theme_minimal()
contracheque.csv
,
resolva as questões referente a esse tópico e depois, no console, digite
rm(list = ls())
. Aí é só carregar um outro conjunto de
dados.rm(list = ls())
limpa a memória armazenada
até aquele momento pelas variáveis no R
.cv
, mais homogênea é a
distribuição do nota_integral_ampla
. Define-se: \[\text{cv} = \frac{\text{desvio padrão}}{média}
\cdot 100\] —|//
(o o)+-------------oOO----(_)-----oOO-----------------+
| ______ ______ |
| | ___ \ | ___ \ |
| | |_/ / ___ __ _ | |_/ / __ _____ ____ _ |
| | ___ \/ _ \ / _` | | __/ '__/ _ \ \ / / _` | |
| | |_/ / (_) | (_| | | | | | | (_) \ V / (_| | |
| \____/ \___/ \__,_| \_| |_| \___/ \_/ \__,_| |
| |
+------------------------------------------------+
|__|__|
|| ||
ooO Ooo