La Data Science Expliquée

12 Episodes

Reverse

Mesurer la performance avec les métriques

2021-11-2107:02

La tâche finale dans la construction d'un modèle de machine learning est l'évaluation avec les métriques telles que la précision, le rappel et la f-mesure. Des graphiques exploitant ces métriques existent et pour les amateurs de tableaux de nombres, les matrices de confusion existent également. Vous vous familiarisez aussi avec les notions de vrais positifs, faux positifs, vrais négatifs et faux négatifs dans ce podcast. Matrice de confusion : https://fr.wikipedia.org/wiki/Matrice_de_confusion Précision-rappel : https://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel Courbe ROC : https://fr.wikipedia.org/wiki/Courbe_ROC Représentations graphiques (scikit-learn.org) : Matrice de confusion = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-confusionmatrixdisplay Courbe Précision-rappel = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-precisionrecalldisplay Courbe ROC = https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_display_object_visualization.html#create-roccurvedisplay

La validation croisée

2021-11-2003:08

On peut très bien obtenir un bon score de notre algorithme mais est-il vraiment aussi bon dans la réalité ? La validation permet de répondre à cette question en utilisant des méthodes bien spécifiques pour les jeux d'apprentissage et de test. Différents algorithmes seront présentés ainsi que leur utilisation spécifique aux situations. Validation croisée (Wikipédia) : https://fr.wikipedia.org/wiki/Validation_crois%C3%A9e

Regarder vers l'avenir et vers le feature engineering

2021-11-1906:16

Feature engineering, cette méthode permettant de traiter les jeu de données est considérer comme l'avenir des data scientist. Face à une montée croissante de l'automatisation, le feature engineering restera le domaine où l'humain fait toute la différence. Découvrez comment dans ce podcast ! Exemple de feature engineering en Python : https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html

XGBoost ou booster un arbre

2021-11-1804:52

Parlons aujourd'hui de XGBoost, algorithme d'arbre de décision mondialement connu et créé initialement en 2014 par Tianqi Chen. Il s'illustre par une méthode bien particulièrement pour produire autant de succès. Mais intéressons nous aussi aux arbres, forêt de décisions et aux renforcement par gradient. XGBoost (Wikipedia) : https://en.wikipedia.org/wiki/XGBoost XGBoost (site officiel) : https://xgboost.ai/

Exporter et miniaturiser

2021-11-1703:28

Après avoir produit un algorithme de machine learning, pour le mettre en production il faut pouvoir l'intégrer à des machines moins puissantes. impossible de le ré-entraîner sur celles-ci mais fort heureusement il existe des solutions. Le physicien Erwin Schrödinger se demandait : "comment peut-on expliquer à l'aide de la physique et de la chimie le événements qui se produisent dans l'espace et dans le temps dans les limites spatiales d'un organisme vivant ?" et moi je vais tenter de vous expliquer ce phénomène appliqué au machine learning : comment intégrer des algorithmes conçus sur supercalculateurs dans nos téléphones ? TensorFlow : https://www.tensorflow.org/ TensorFlow Lite : https://www.tensorflow.org/lite/ Core ML : https://developer.apple.com/documentation/coreml PMML : http://dmg.org/pmml/v4-4-1/GeneralStructure.html pickle : https://docs.python.org/3/library/pickle.html

FaceID : une fonction au goût de révolution

2021-11-1603:50

Comment fonctionne la technologie FaceID d'Apple ? A travers un décryptage du fonctionnement issu de brevets, j'essaie de répondre à cette question par mes compétences afin de vous donner un regard technique sur cette technologie, que j'estime révolutionnaire. Brevet de FaceID : https://patents.google.com/patent/US8384997B2/en?oq=US8384997 Apple sur la confidentialité de FaceID : https://support.apple.com/fr-fr/HT208108

Le clustering

2021-11-1508:50

Clustering fait référence aux mot que vous connaissez bien tous maintenant : cluster. Aujourd'hui partez à la découverte du clustering, une méthode très utile en science des données. J'évoquerai ses différentes formes et pourquoi il est utile de faire du clustering. K-moyennes : https://fr.wikipedia.org/wiki/K-moyennes DBSCAN : https://fr.wikipedia.org/wiki/DBSCAN Scikit-learn : https://scikit-learn.org/stable/ Scipy : https://scipy.org/

Algorithmes révélateurs de notre société

2021-11-1304:43

On entend de plus en plus parler des algorithmes sexistes ou racistes. Mais est-il bon de pointer du doigt les algorithmes ou faut-il savoir introspecter la société pour trouver la vérité ? Réponse dans ce podcast ! Enquête ISM Corum : https://dares.travail-emploi.gouv.fr/publications/discrimination-a-l-embauche-selon-l-origine-que-nous-apprend-le-testing-aupres

La machine bat son plein et l'humain

2021-06-2403:49

Les machines progressent et arrivent à égaler des humains dans certains domaines. Quelles en sont les conséquences ? Que pouvons nous faire ? Je vais prendre l'exemple d'un algorithme développé par Google qui permet d'égaler et même surpasser leurs ingénieurs. J'y développerai aussi une réflexion sur la place qu'auront les machines dans le futur ainsi que sur l'éthique de cette politique. Lien vers l'article de Nature (paywall) : https://www.nature.com/articles/d41586-021-01515-9

Machine Learning éthique

2021-06-1502:07

Twitter a pris la décision récemment de rendre ses algorithmes plus éthiques. Pourquoi il est important d'avoir cette vision dès aujourd'hui ? Et quelles sont les conséquences si on n'agit pas avec éthiques concernant les algorithmes ? J'en discute et y réponds dans ce troisième podcast de la Data Science Expliquée Billet de blog de Twitter : https://blog.twitter.com/en_us/topics/company/2021/introducing-responsible-machine-learning-initiative

"Intelligence" Artificielle

2021-04-1002:26

Le mot Intelligence Artificielle est partout et utilisé à outrance. Dans ce court podcast, je vous explique en quoi le mot "Intelligence Artificielle" est erroné ainsi que mes réflexions concernant un nouveau terme, plus juste, pour remplacer "Intelligence Artificielle".

Le Machine Learning

2020-12-3008:18

J'aborde dans ce premier épisode le Machine Learning, partie intégrante de la science des données. Vous aurez une vision de la création d'un modèle de Machine Learning ainsi qu'un peu d'histoire.

#box-pro-ellipsis-176657733853867{-webkit-line-clamp:2;}La Data Science Expliquée