Big data, datascience et données ouvertes

Comment les données ont de la valeur

pour le cours dédié à l'Open Data voir ici

Pour le plan du dossier voir ici

Data is the new Soil

Pourquoi utiliser des données ?

La définition polysémique du terme Big Data

Datascience

Un projet en entier : Jocas

Mettre en place un sujet d'exploitation des données

L'ouverture des données

Alexis Eidelman

Alexis Eidelman

10 ans d'expertises dans la données

Un parcours dans les services statistiques publiques

Avec un passage à la direction du numérique

Le cours

Aujourd'hui et demain, puis lundi prochain

évaluation : dossier léger et/ou évaluation en fin de cours

Plan dossier

Le cours

Avoir une culture générale de la donnée (Open Data, machine learning, big data, etc.)

Comprendre l'intelligence artificielle pour l'exploiter en sécurité

Mettre en place des projets autours des données dans un environnement innovant

Big Data

Un nouveau monde

La course aux V

9V...

12 V !

Le boom des données

Mais le terme Big Data dépasse largement le cadre technique

90% des données ont été produites ces deux dernières années

alors que jusque là, les données étaient principalement produites par les organismes publics

Un changement de paradigme

Des questions éthiques multiples :

Suis-je maître de mes données ?

Peut-on faire confiance à l'intelligence artificielle ?

Les décisions fondées sur des algorithmes sont-elles éthiques ?

Mythe du big data

On peut innover, utiliser la force des données sans forcément qu'elles soient "big"

et c'est même rarement le cas...

« Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it… »

Datascience, machine learning, intelligence artificielle

Y voir plus clair

L'intelligence artificielle

Un pan de recherche (science cognitive)

devenu un objet médiatique

du fait de ses résultats et de son intérêt économique

succès dû en grande partie à l'essor des données

L'apprentissage automatique

Le machine learning

un nom explicite

Datascience

La science des données

Le machine learning mais pas seulement

Il y a en fait plusieurs pans de la datascience et plusieurs sortes de datascientits

Datascientist

Someone that knows more statistics than a developer and more computer science than a statistician

Il y a des datascientists-informaticiens et des datascientists-statisticiens

Exemple d'activités d'un datascientist

  • Informatique
    • Architecte big data
    • Scraping
  • Statistique : analyse de données variées
    • Réseaux
    • Images (et son)
    • Texte
  • Statistique : avec une finalité opérationnelle
    • Détection de fraudes
    • Recommandation
    • Prédictif
  • La Data Visualisation

Un mélange de compétence

Le Machine Learning

Quelle différence avec la statistique ?

exemple : Faire baisser l'insalubrité des bâtiments

Quelles données pour cibler les inspections ?

Historique des inspections par immeuble, caractéristiques des immeubles, etc.

Statistique
Économétrie
Machine Learning
Contexte des données Données rares et coûteuse Big Data
Objectif Produire un savoir Aide une décision particulière
Comment se fait la conviction Mathématiques, loi des grands nombres.
Explications des résultats
Validation sur test
"Regarde, ça marche"
Comment améliorer ? Faire grossir l'échantillon Ajouter des variables
Critique des résultats Est-ce représentatif ? Est-ce toujours valable ?
Forces de la démarche Robustesse
Compréhension
Peut répondre à plusieurs questions
Performance inégalée
Epouse mieux les données
action -> donnée -> information -> savoir -> action

Une autre différence de taille

Data + Programme => Output

Data + Output => Programme

Un syndrôme de la boite noire

L'intelligence artificielle

Le machine learning n'est qu'une sous-partie de l'intelligence artificielle

mais elle a pris le dessus, scientifiquement et surtout médiatiquement