8 septembre 2015

R : vers l’avenir des statistiques


Data & techno Voir toutes nos actualités

La récente acquisition par Microsoft de la société « Revolution Analytics » (fournisseur commercial de logiciels et services pour R) confirme la tendance grandissant ces dernières années faisant de R le langage le plus utilisé au monde pour les statistiques et l’analyse prédictive.

Tendance également confirmée par l’index TIOBE (= mesure de popularité des langages de programmation) selon lequel R, notamment pour son utilisation dans le domaine du big data, a connu une ascension fulgurante : il a atteint la 12ème place de ce classement en décembre dernier (alors qu’il n’était que 38ème en décembre 2013).
Par ailleurs, la liste des entreprises faisant confiance à R pour leurs divers besoins en analyses de données s’allonge d’année en année et comprend notamment en 2014 : Facebook, Google, Twitter, The New York Times et même des organismes bancaires tels que ANZ Bank ou Crédit Suisse.

Cette tendance s’explique avant tout par le fait que R, grâce à sa gratuité et à sa philosophie Open Source, comprend de nombreux contributeurs réactifs et motivés. Ainsi, ces contributeurs enrichissent régulièrement l’univers R de « packages » développés au fur et à mesure des nouveaux besoins, nouvelles méthodologies statistiques et nouveaux outils, notamment de gestion des données.
On pourra citer notamment le fait que R a su suivre les tendances actuelles du monde des données en permettant par exemple de récupérer et analyser des tweets, de créer des interfaces et applications web de suivis statistiques ou encore de réaliser des analyses directement sur le cloud.

R est donc en constante évolution et a su se développer pour devenir aujourd’hui l’outil incontournable que tout statisticien, analyste de données ou encore « data scientist » doit avoir dans son trousseau. Ainsi, il n’est pas malvenu de dire que R se positionne déja en tant que référence de demain et gageons d’ailleurs qu’il n’a pas encore fini de nous surprendre !

[L’avis de la rédactrice]
J’utilise régulièrement R pour des analyses statistiques “classiques” (régression, AFC, typologie, …) et profite des nombreux packages existants pour ne pas avoir à tout reécrire par moi-même. Cependant, quand une fonction d’analyse statistique ne me permet pas d’obtenir exactement le résultat souhaité (un graphique très personnalisé par exemple), le fait que l’ensemble du code R soit en libre accès me permet d’enrichir la fonction existante et de modifier juste les quelques éléments souhaités pour avoir un résultat totalement conforme à mes attentes.

Egalement, j’utilise aussi R directement en tant que langage de programmation afin de créer des fonctions d’analyses statistiques ad’hoc pour des besoins spécifiques, tels que par exemple l’implémentation d’une méthode d’analyse des études de trade-off CBC.

Un autre point fort de R, de mon point de vue, est sa grande communauté disponible pour apporter son aide via divers médias (mailing listes, forums, blogs, …), à laquelle je participe activement en étant modératrice du forum dédié à R sur le site Developpez.com (= la plus grande communauté internationale des professionnels en informatique de langue française).

En conclusion, je dirais que les principaux points forts de R sont sa gratuité (non négligeable malgré tout), sa communauté active, son double usage en tant qu’outil statistique ET langage de programmation et enfin sa vistesse d’évolution afin de s’adapter constamment aux nouveautés du milieu des statistiques et de la donnée.

-> Et vous, qu’en pensez-vous ? Etes-vous encore refactR ou voyez-vous R comme un atout à développer rapidement ?