PREAMBULES

Plus de 80% de l’analyse des données consiste à bien importer et préparer les données pour faire une analyse statistique.

Un bon plan de collecte et d’analyse est nécessaire. C’est dommage de se donner la peine de collecter des données chèrement acquises en ferme et ensuite de ne pas les utiliser à leur plein potentiel!!!

Le modèle statistique le plus puissant et compliqué ne peut pas pallier à une base de données mal organisée et mal planifiée.

CE TUTORIEL N’EST EN AUCUN CAS UN SUBSTITUT À UN COURS D’ÉPIDEMIOLOGIE OU DE STATISTIQUES, C’EST JUSTE UN OUTIL PRÉSENTÉ DANS LE BUT DE L’UTILISER À DIFFÉRENTES FINS INCLUANT LA DESCRIPTION, VISUALISATION ET L’ANALYSE D’UNE BASE DE DONNÉES (BD).

CE TUTORIEL REQUIERT AUSSI UN MINIMUM DE CONNAISSANCE SUR COMMENT EXECUTER UN CODE SOUS R ET RSTUDIO

Ce travail est un travail en progression, donc n’hésitez pas si il y a des coquilles ou problèmes à me les signaler pour que je les corrige

1. Objectifs de la leçon 1 et préambule

1.1 OBJECTIFS

Le but de l’ensemble du lab d’aujourd’hui est d’être capable : de comprendre comment R fonctionne avec un programme de base d’importer une base de données en format excel ou texte, voir en partant de rien (combinaison de listes).

Dans une seconde étape, nous nous efforcerons de comprendre les notions grammaticales du paquet dplyr de la suite tidyverse qui sont ce que R a de mieux et de plus intuitif dans la manipulation des données vs le codage C++ (ancien codage de R plus oldschool et plus orienté mathématiques).

Je ne suis pas statisticien donc d’emblée je me décharge de toute responsabilité concernant l’usage fait de ce tutoriel. Je l’ai monté pour qu’il soit le plus pratico-pratique et orienté vers la résolution de problèmes de recherche en sciences cliniques vétérinaires et pour les étudiants post-gradués sous ma direction/co-direction.

Pour tout complément d’information sur la gestion des données dans R avec la grammaire du tidyverse, une excellente source de connaissance est le livre du programment Hadley Wickham (R for data science) accessible en ligne.

C’est un livre sacré de tous ceux qui aiment le langage de la suite tidyverse (dont je suis ;-) ). Il utilise des termes simples qui ont pour but de limiter le plus possible les écritures matricielles.

NB: tidy = ranger

1.2 Pourquoi R?

Pour de nombreuses raisons: la première c’est parce que c’est gratuit donc peu importe ce qui arrive à l’avenir, une fois qu’on l’a on n’a pas besoin de payer pour garder la main (pas besoin d’être un universitaire pour l’utiliser).

Donc c’est un investissement en temps qui vaut la peine…

Ensuite c’est un logiciel qui permet par différents paquets/packages d’interagir avec d’autres logiciels (pour les fréquentistes (MLWin, Stata,… ) et les bayésiens (OpenBUGS, Stan…)) sans parler du deep learning, Python et autres…

Enfin, le potentiel des graphiques sur R et sa simplicité par le langage gg (grammar of graphics) dans le paquet ggplot2 sont des avantages indéniables pour communiquer les résultats. Ce qu’on peut faire n’a pas (ou presque) de limites (ex voir les possibilités). En le couplant avec gg_animate ou ggplotly on peut même faire des animations qui sont encore plus spectaculaires lors de présentations!!!

Souvent on utilise des modèles complexes que l’on doit faire comprendre à un public varié (incluant un auditoire non scientifique tel que des producteurs, propriétaires, intervenants variés):

Souvenez-vous: une image vaut 1000 mots! Par un graphique bien choisi, on peut faire passer des messages beaucoup plus efficacement que par du texte et l’explication de modèles statistiques savantes!!!.

Si vous avez R et une connexion internet: vous y arriverez! Dans la majorité des cas qui nous intéressent en médecine vétérinaire pour quelqu’un ayant de l’intérêt en recherche clinique, ce que nous utilisons constitue rarement une nouveauté en terme d’analyse statistique (désolé si vous pensez révolutionner le monde).

Il y a vraisemblablement dans le monde Run paquet, un morceau de code ou chunk que quelqu’un a déjà utilisé et qui peut vous être utile vs partir de rien (un peu comme dans tous les logiciels utilisant des codes)… Cela peut aussi être une personne ou un ancien étudiant du lab qui a fait des analyses similaires (et vous pourrez aussi être cette personne qui communique à un novice (ou à votre équipe de supervision!) son programme utilisé pour sa résidence, MSc ou PhD).

Enfin avec R on ouvre la porte à d’autres interfaces comme RMarkdown qui permet de générer des fichiers html (comme cette leçon du jour qui est toute écrite et codée sur R), pdf, diaporama, livres ou Shiny des applications en ligne…