02-tutorial.Rmd

title: "Simulation tutorial"
output: rmarkdown::html_vignette
vignette: >
  %\VignetteIndexEntry{Simulation tutorial}
  %\VignetteEngine{knitr::rmarkdown}
  %\VignetteEncoding{UTF-8}
knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>"
)
library(HTRfit)
library(reshape2)
## -- public data embedded in HTRfit
pub_data_fn <- system.file("extdata", "rna_pub_data.tsv", package = "HTRfit")
pub_data <- read.table(file = pub_data_fn, header = TRUE)
rownames(pub_data) <- pub_data$gene_id
pub_data$gene_id <- NULL
pub_metadata_fn <- system.file("extdata", "rna_pub_metadata.tsv", package = "HTRfit")
pub_metadata <- read.table(file = pub_metadata_fn,  header = TRUE)

## -- 6713 genes & 40 samples
dim(pub_data)
# -- prepare data &  fit a model
data2fit = prepareData2fit(countMatrix = pub_data,
                           metadata = pub_metadata,
                           normalization = 'MRN',
                           response_name = "kij")
l_tmb <- fitModelParallel(
            formula = kij ~ genotype + environment + genotype:environment,
            data = data2fit,
            group_by = "geneID",
            family = glmmTMB::nbinom2(link = "log"),
            n.cores = 8)

## -- Select best fit base on AIC results
l_genes <- identifyTopFit(l_tmb)
## -- extract results for best genes
tidy_pub_fit <- tidy_results(l_tmb[l_genes])
## -- hidded in vignette
## -- allows to not evaluate previous chunk (a bit long)
tidy_pub_fn <- system.file("extdata", "tidy_pub_results.tsv", package = "HTRfit")
tidy_pub_fit <- read.table(file = tidy_pub_fn,  header = TRUE)
dispersion_pub_fn <-  system.file("extdata", "pub_dispersion.tsv", package = "HTRfit")
dispersion_pub <- read.table(file = dispersion_pub_fn,  header = TRUE)$x
# -- Obtain the parameters
all_beta_pub <- reshape2::dcast(tidy_pub_fit, formula = ID ~ term, value.var = "estimate")
columns_env <-  c("environmentenv2","environmentenv3", "environmentenv4" )
beta_env <- rowMeans(all_beta_pub[, columns_env])
columns_interaction <-  c("genotype2:environmentenv2","genotype2:environmentenv3", "genotype2:environmentenv4" )
beta_interaction <- rowMeans( all_beta_pub[ , columns_interaction] )
# -- Group the parameters
grouped_beta_pub <- data.frame( betaG = all_beta_pub$genotype2,
                                betaE = beta_env,
                                betaGxE = beta_interaction )

# -- Obtain statistics for the parameters
beta0_pub = all_beta_pub$`(Intercept)`
## -- public effect standard deviation
sapply(grouped_beta_pub, sd)
dispersion_pub  <- glance_tmb(l_tmb)$dispersion
## -- design to simulate
N_GENES <- 100
MIN_REPLICATES <- 5
MAX_REPLICATES <- 5
SEQ_DEPTH <- 5e6

## -- init effects to simulate
input_var_list <- init_variable( name = "genotype", mu = 0, sd = 2.18, level = 2) %>%
                            init_variable( name = "environment", mu = 0, sd = 0.57, level = 4 ) %>%
                            add_interaction(between_var = c("genotype", "environment"), mu = 0 , sd = 1.018)

## -- simulate RNAseq data
mock_data <- mock_rnaseq(input_var_list,
                         n_genes = N_GENES,
                         min_replicates  = MIN_REPLICATES,
                         max_replicates = MAX_REPLICATES,
                         basal_expression = beta0_pub,
                         sequencing_depth = SEQ_DEPTH,
                         dispersion = dispersion_pub,
                         normal_distr = 'univariate' ) ## for fix effect

## -- prepare data & fit a model with mixed effect
data2fit = prepareData2fit(countMatrix = mock_data$counts,
                           metadata =  mock_data$metadata,
                           normalization = 'MRN',
                           response_name = "kij")
l_tmb <- fitModelParallel(
          formula = kij ~ genotype + environment + genotype:environment,
          data = data2fit,
          group_by = "geneID",
          family = glmmTMB::nbinom2(link = "log"),
          n.cores = 1,
          control = glmmTMB::glmmTMBControl(optCtrl=list(iter.max=1e5, eval.max=1e5)))


## -- eval params for Wald test
ln_FC_threshold <- 0.67
alternative_hypothesis <- "greaterAbs"

## -- remove genes with very low AIC
l_genes <- identifyTopFit(l_tmb)

## -- evaluation
resSimu <- evaluation_report( list_tmb = l_tmb,
                              list_genes = l_genes
                              mock_obj = mock_data,
                              coeff_threshold = ln_FC_threshold,
                              alt_hypothesis = alternative_hypothesis )

## -- Model params
resSimu$identity$params
## -- Dispersion params
resSimu$identity$dispersion
## -- ROC curve
resSimu$roc$params
## -- precision recall by params
resSimu$precision_recall$params
## -- precision-recall curve
resSimu$performances$byparams
## -- design to simulate
N_GENES <- 100
MIN_REPLICATES <- 5
MAX_REPLICATES <- 5
SEQ_DEPTH <- 5e6

## -- init effects to simulate
input_var_list <- init_variable( name = "genotype", mu = 0, sd = 2.18, level = 2) %>%
                  init_variable( name = "environment", mu = 0, sd = 0.57, level = 4 ) %>%
                  add_interaction(between_var = c("genotype", "environment"), mu = 0 , sd = 3)

## -- simulate RNAseq data
mock_data <- mock_rnaseq(input_var_list,
                         n_genes = N_GENES,
                         min_replicates  = MIN_REPLICATES,
                         max_replicates = MAX_REPLICATES,
                         basal_expression = beta0_pub,
                         sequencing_depth = SEQ_DEPTH,
                         dispersion = dispersion_pub,
                         normal_distr = 'univariate' ) ## for fix effect

## -- prepare data & fit a model with mixed effect
data2fit = prepareData2fit(countMatrix = mock_data$counts,
                           metadata =  mock_data$metadata,
                           normalization = 'MRN',
                           response_name = "kij")
l_tmb <- fitModelParallel(
          formula = kij ~ genotype + environment + genotype:environment,
          data = data2fit,
          group_by = "geneID",
          family = glmmTMB::nbinom2(link = "log"),
          n.cores = 1,
          control = glmmTMB::glmmTMBControl(optCtrl=list(iter.max=1e5, eval.max=1e5)))

## -- eval params for Wald test
ln_FC_threshold <- 0.67
alternative_hypothesis <- "greaterAbs"

## -- remove genes with very low AIC
l_genes <- identifyTopFit(l_tmb)

## -- evaluation
resSimu <- evaluation_report( list_tmb = l_tmb,
                              list_genes = l_genes
                              mock_obj = mock_data,
                              coeff_threshold = ln_FC_threshold,
                              alt_hypothesis = alternative_hypothesis)
## -- Model params
resSimu$identity$params
## -- design to simulate
N_GENES <- 100
MIN_REPLICATES <- 5
MAX_REPLICATES <- 5
SEQ_DEPTH <- 5e6

## -- init effects to simulate
input_var_list <- init_variable( name = "genotype", mu = 0, sd = 2.18, level = 2) %>%
                  init_variable( name = "environment", mu = 0, sd = 0.57, level = 4 ) %>%
                  add_interaction(between_var = c("genotype", "environment"), mu = 0 , sd = 0) ## sd = 0

## -- simulate RNAseq data
mock_data <- mock_rnaseq(input_var_list,
                         n_genes = N_GENES,
                         min_replicates  = MIN_REPLICATES,
                         max_replicates = MAX_REPLICATES,
                         basal_expression = beta0_pub,
                         sequencing_depth = SEQ_DEPTH,
                         dispersion = dispersion_pub,
                         normal_distr = 'univariate' ) ## for fix effect

## -- prepare data & fit a model with mixed effect
data2fit = prepareData2fit(countMatrix = mock_data$counts,
                           metadata =  mock_data$metadata,
                           normalization = 'MRN',
                           response_name = "kij")
l_tmb <- fitModelParallel(
          formula = kij ~ genotype + environment + genotype:environment,
          data = data2fit,
          group_by = "geneID",
          family = glmmTMB::nbinom2(link = "log"),
          n.cores = 1,
          control = glmmTMB::glmmTMBControl(optCtrl=list(iter.max=1e5, eval.max=1e5)))

## -- eval params for Wald test
ln_FC_threshold <- 0.67
alternative_hypothesis <- "greaterAbs"

## -- remove genes with very low AIC
l_genes <- identifyTopFit(l_tmb)

## -- evaluation
resSimu <- evaluation_report( list_tmb = l_tmb,
                              list_genes = l_genes
                              mock_obj = mock_data,
                              coeff_threshold = ln_FC_threshold,
                              alt_hypothesis = alternative_hypothesis)
## -- Model params
resSimu$identity$params