slides.Rmd

title: "R#5: data transformation"
author: "Laurent Modolo [laurent.modolo@ens-lyon.fr](mailto:laurent.modolo@ens-lyon.fr)"
date: "28 Nov 2019"
output:
  slidy_presentation:
    highlight: tango
  beamer_presentation:
    theme: metropolis
    slide_level: 3
    fig_caption: no
    df_print: tibble
    highlight: tango
    latex_engine: xelatex
knitr::opts_chunk$set(echo = FALSE)
library(tidyverse)
library(nycflights13)
library(tidyverse)
flights %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE))
flights %>%
  group_by(year, month, day) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE))
flights %>%
  group_by(dest)
flights %>%
  group_by(dest) %>%
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  )
flights %>%
  group_by(dest) %>%
  summarise(
    dist = mean(distance),
    delay = mean(arr_delay)
  )
flights %>%
  group_by(dest) %>%
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  )
flights %>%
  group_by(dest) %>%
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  ) %>%
  filter(count > 20, dest != "HNL")
flights %>%
  group_by(dest) %>%
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  ) %>%
  filter(count > 20, dest != "HNL") %>%
  ggplot(mapping = aes(x = dist, y = delay)) +
  geom_point(aes(size = count), alpha = 1/3) +
  geom_smooth(se = FALSE)
flights %>%
  group_by(dest) %>%
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  ) %>%
  filter(count > 20, dest != "HNL") %>%
  ggplot(mapping = aes(x = dist, y = delay)) +
  geom_point(aes(size = count), alpha = 1/3) +
  geom_smooth(se = FALSE)
flights %>%
  group_by(year, month, day) %>%
  ungroup() %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE))
flights %>%
  mutate(
    canceled = is.na(dep_time) | is.na(arr_time)
  ) %>%
  filter(canceled) %>%
  mutate(wday = strftime(time_hour,'%A')) %>%
  group_by(wday) %>%
  summarise(
    cancel_day = n()
  ) %>%
  ggplot(mapping = aes(x = fct_reorder(wday, cancel_day), y = cancel_day)) +
  geom_col()
flights %>%
  mutate(
    canceled = is.na(dep_time) | is.na(arr_time)
  ) %>%
  mutate(wday = strftime(time_hour,'%A')) %>%
  group_by(wday) %>%
  summarise(
    cancel_day = n()
  ) %>%
  ggplot(mapping = aes(x = wday, y = cancel_day)) +
  geom_col()
flights %>%
  group_by(carrier) %>%
  summarise(
    carrier_delay = mean(arr_delay, na.rm = T)
  ) %>%
  mutate(carrier = fct_reorder(carrier, carrier_delay)) %>%
  ggplot(mapping = aes(x = carrier, y = carrier_delay)) +
  geom_col(alpha = 0.5)
flights %>%
  group_by(carrier) %>%
  summarise(
    carrier_delay = mean(arr_delay, na.rm = T)
  ) %>%
  mutate(carrier = fct_reorder(carrier, carrier_delay)) %>%
  ggplot(mapping = aes(x = carrier, y = carrier_delay)) +
  geom_col(alpha = 0.5)
flights %>%
  group_by(dest, year) %>%
  filter(n() > 10000) %>%
  filter(arr_delay > 0) %>%
  mutate(prop_delay = arr_delay / sum(arr_delay)) %>%
  select(year:day, dest, arr_delay, prop_delay)
flights %>%
  group_by(hour) %>%
  summarise(
    mean_delay = mean(arr_delay, na.rm = T),
    sd_delay = sd(arr_delay, na.rm = T),
  ) %>%
  ggplot() +
  geom_errorbar(mapping = aes(
    x = hour,
    ymax = mean_delay + sd_delay,
    ymin = mean_delay - sd_delay)) +
  geom_point(mapping = aes(
    x = hour,
    y = mean_delay,
  ))