Tutos/ateliers

ATELIER 1 : La production de documents reproductibles avec Rmarkdown et Quarto

Intervenant : Eric Marcon eric.marcon@agroparistech.fr

Lieu : salle réunion Aigoual (B2) à l'entrée du campus CNRS

Format : hybride

Description :

    •   Rédiger avec RMarkdown : principes et application rapide
   •   Utiliser des modèles pour produire des documents HTML et PDF (accessoirement, Word) : le package memoiR https://ericmarcon.github.io/memoiR/
   •   Utiliser l’intégration continue sur GitHub pour automatiser les calculs et la publication : exemple d’article https://ericmarcon.github.io/JTE-22-105/ et de livre https://github.com/EricMarcon/MesuresBioDiv2
   •   Présentation des techniques avancées : gestion des langues, données confidentielles dans un projet public, calculs longs.
   •   Discussion sur Quarto comme successeur de bookdown.

___________________________________________________________________________

ATELIER 2 - L’IA générative : grands concepts et applications en écologie.

Intervenant : Nicolas Dibot nicolas.dibot@cefe.cnrs.fr

Lieu : grande salle réunion du CEFE

Format : en présentiel, à distance, à définir

Description :

Cette séance est principalement à destination de personnes ayant déjà des bases, même simples, en deep learning/machine learning, mais sera aussi construite pour être accessible à des personnes n’en ayant jamais fait.

Nous commencerons par une partie théorique :
1.   Notions générales sur le deep learning et l’IA générative
2.   Focus sur les GANs (Generative adversarial networks)
Ensuite, suivra une partie plus appliquée. Il n’y aura néanmoins pas de travaux pratiques à proprement parler. En effet, les modèles dont nous discuterons nécessitent des temps d’entraînement et des ressources computationnelles qui ne sont pas compatibles avec le format de la séance.
1.   Exemples d’applications en écologie
2.   Illustration détaillée avec mes travaux sur les modifications de portraits de mandrills (Mandrillus sphinx) avec StyleGAN3 pour des expérimentations en écologie comportementale visuelle.
3.   Démonstration du fonctionnement des scripts python

___________________________________________________________________________

ATELIER 3 : L’inférence bayésienne comme outil pluridisciplinaire pour l’écologie, l’éthologie et les neurosciences.

Format : à distance

Lieu : amphithéâtre de la délégation régionale du CNRS

Intervenant : Didier Mauuary dm@bluebat.org

Description :

Cet atelier consiste à :

1. présenter les bases de l'inférence bayésienne (la fameuse règle de Bayes) à partir d'expériences de neurosciences cognitives et des nombreuses applications de l'inférence bayésienne,

2. expliciter comment on applique l'inférence bayésienne aux cas suivants :
- estimation d'une densité de population (en prenant l'exemple la grande Noctule) : l'inférence bayésienne devient ainsi un cadre théorique plus général pour les méthodes plutôt connues sous le nom de "distance sampling",
- traiter les données de bioacoustiques en mode low data : l'inférence bayésienne permet, dans certains cas, et selon une démarche hypothético-déductive de retrouver, comme algorithmes optimaux, des réseaux de neurones !

Programme :
- Introduction à la règle de Bayes avec un exercice de neurosciences cognitives à base de cacahuètes.
- La théorie de la décision statistique,
- Les modèles pour les enregistreurs sonores et de localisation dans l’espace,
- Les modèles de répartition statistique des gites dans un habitat,
- Les modèles de contacts (piégage sonore) entre les capteurs et les chauve-souris qui sortent des gites (occupés) au crépuscule selon une loi de poisson,
- L’inversion des modèles bout à bout pour estimer une densité de population (densité d’occupation de gites) à partir des contacts capteurs.

___________________________________________________________________________

ATELIER 4 - runMCMCbtadjust : Démonstration d’un package R pour faciliter l’utilisation de « Monte-Carlo Markov Chains » (MCMC) en statistique Bayésienne

Intervenant : Frédéric Gosselin frederic.gosselin@inrae.fr

Lieu : petite salle de réunion du CEFE

Format : en présentiel, ou en hybride, à définir

Description :

I here present a new R package called runMCMCbtadjust (https://cran.r-project.org/web/packages/runMCMCbtadjust/) that can help R users of MCMC models having a more efficient, quality oriented use of these types of models while saving analyst’s and potentially computer time. Indeed, the aim of the package is to run a Markov Chain Monte Carlo (MCMC) for a specified Bayesian model while adjusting automatically the burn-in and thinning parameters to meet pre-specified targets in terms of MCMC convergence and number of effective values of MCMC outputs. This is done in only one call to the function in the package that repeatedly calls the MCMC until criteria for convergence and number of effective values are met. The package has four main advantages:
(i) it saves the analyst’s programming time since he/she does not have to repeatedly diagnose and re-run MCMCs until desired levels of convergence and number of effective values are reached;
(ii) it allows a minimal, normalized quality control of MCMC outputs by allowing to meet pre-specified levels in terms of convergence and number of quasi-independent values;
(iii) it may save computer’s time when compared to cases where we have to restart the MCMC from the beginning if it has not converged or reached the specified number of effective values;
(iv) it can be applied with different MCMC R languages - at present greta, NIMBLE and JAGS. This comes with two positive consequences in practice: first, allowing the user a more rigorous comparison between the three Bayesian fitting languages in terms of comparability of inference and of MCMC efficiency - especially in terms of CPU time per effective value; second, making it easier to develop the same Bayesian model with these different languages, which is to our experience welcome in practical cases, since these different languages have advantages over the other ones that vary from one context to the other.
In this demonstration (first part) /training (second part), I will start by recalling the requirements of convergence & low autocorrelation of outputs for the good use of MCMC outputs. I will then demonstrate the use of the package on the same model under Jags, greta and Nimble and show how to use different samplers proposed by Nimble. We will end up with some exercises and discussion. Attendees can come with their Nimble/jags/greta model that we will try to launch with runMCMCbtadjust. Other exercises will be proposed as well.
Installation: those interested by the training part (trying the package on their own based on the proposed exercises) should install the following packages : runMCMCbtadjust – as well as suggested packages: coda, ggmcmc, rstan, nimble (>= 1.0.0), nimbleAPT, nimbleHMC; if using jags: rjags or runjags; if using greta: greta, R6, tensorflow.
,
___________________________________________________________________________

ATELIER 5 : Présentation et lancement de l’IRN LiStat International Research Network in Life Statistics

Animateur : Nicolas Bez nicolas.bez@ird.fr

Lieu : salle réunion Cévennes (B1) à l'entrée du campus CNRS

Format : en présentiel

Description :

L'IRN LiStat vise à créer un réseau de scientifiques basé sur le partenariat de l'IRD et dédié au développement d'approches statistiques pour l'écologie et les sciences de la vie. L’initiative répond à un besoin fort et général de relever les défis urgents liés au changement climatique et à la crise de la biodiversité, entre autres. L’initiative est aussi transversale au sein de l'IRD puisqu'elle concerne des scientifiques de plusieurs commissions scientifiques (CSS), départements et UMR. Le réseau s'appuie et s'appuiera sur le GDR EcoStat. Afin d'assurer une action sur le long terme auquel le réseau aspire à juste titre, le projet envisage de se développer avec un volet formation permettant de diffuser les compétences statistiques auprès de grands acteurs académiques des Suds. Le réseau LiStat favorisera :
- la maîtrise des approches statistiques en sciences de la vie et en écologie,
- l'analyse des données, les modèles statistiques et les prédictions,
- une contribution aux études sur les enjeux mondiaux concernant la biodiversité, la santé et les écosystèmes exploités,
- l'émergence parmi les partenaires du Sud d'un réseau communautaire de partage des compétences et d’expériences,
- la science ouverte comme pratique standard,
- un renforcement des capacités sur le long terme,
- les échanges Sud-Sud et Sud-Nord.

___________________________________________________________________________

ATELIER 6 : Autour des modèles de distribution jointe d'espèces : les approches SCGLR, TRP et webSDM.

Intervenants : J. Gibaud, F. Mortier frederic.mortier@cirad.fr, J. Peyhardi, S. Si Moussi ; avec la participation de X. Bry, C. Trottier et G. Toulemonde

Lieu : amphithéâtre Balard

Format : présentiel

Description :

Les modèles de distribution jointe d'espèces (JSDM) forment une famille de modèle multivarié qui permet d’étudier simultanément l’abondance de toutes les espèces d'une communauté. Ce tutoriel a pour objectif de présenter d’un point de vue statistique ce cadre d’analyse en se focalisant plus précisément sur trois familles de régression : (i) la régression linéaire généralisée sur composantes supervisées (SCGLR), (ii) la régression polya sur arbre (TPR) et (iii) la régression linéaire généralisée prenant en compte les relations trophiques entre les espèces (webSDM). SCGLR a pour objectif de modéliser plusieurs espèces, dont les distributions appartiennent à la famille exponentielle (e.g. comptage-Poisson, présence/absence-Bernoulli...) en tirant partie de l'information contenue dans de nombreuses variables explicatives souvent redondantes. Son extension permet de tenir compte à la fois des dépendances entre espèces, et entre. L’approche TPR quant à elle offre une modélisation alternative nouvelle aux JSDM classiquement développé pour des données de comptage. Sa spécificité repose en partie sur la définition d’une structure d’arbre de partionnement (phylogénétique, fonctionnelle ou biotique). De nombreuses lois usuelles sont directement utilisables et disponibles dans la plupart des logiciels statistiques ce qui rend ce cadre facilement applicable. Enfin, l’approche webSDM qui permet de modéliser la distribution des espèces en tenant compte des relations trophiques connues. Cette approche repose sur les modèles d’équations structurelles dans le cadre GLM et offre, elle aussi, une grande flexibilité.
Programme :
1.     Cadre statistique des JSDM,
2.     La régression linéaire généralisé sur composantes supervisée
3.     La régression Polya sur arbre
4.     La régression structurelle et relation trophique
5.     Problèmes ouverts (extrêmes, zéro-inflation….)

Vie privée | Accessibilité