pour le cours dédié à l'Open Data voir ici
Pourquoi utiliser des données ?
La définition polysémique du terme Big Data
Datascience
Un projet en entier : Jocas
Mettre en place un sujet d'exploitation des données
L'ouverture des données
10 ans d'expertises dans la données
Un parcours dans les services statistiques publiques
Avec un passage à la direction du numérique
Aujourd'hui et demain, puis lundi prochain
évaluation : dossier léger et/ou évaluation en fin de cours
Plan dossierAvoir une culture générale de la donnée (Open Data, machine learning, big data, etc.)
Comprendre l'intelligence artificielle pour l'exploiter en sécurité
Mettre en place des projets autours des données dans un environnement innovant
Mais le terme Big Data dépasse largement le cadre technique
90% des données ont été produites ces deux dernières années
alors que jusque là, les données étaient principalement produites par les organismes publics
Un changement de paradigme
Suis-je maître de mes données ?
Peut-on faire confiance à l'intelligence artificielle ?
Les décisions fondées sur des algorithmes sont-elles éthiques ?
On peut innover, utiliser la force des données sans forcément qu'elles soient "big"
et c'est même rarement le cas...
« Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it… »
devenu un objet médiatique
du fait de ses résultats et de son intérêt économique
succès dû en grande partie à l'essor des données
un nom explicite
Le machine learning mais pas seulement
Il y a en fait plusieurs pans de la datascience et plusieurs sortes de datascientits
Datascientist
Someone that knows more statistics than a developer and more computer science than a statistician
Il y a des datascientists-informaticiens et des datascientists-statisticiens
Quelles données pour cibler les inspections ?
Historique des inspections par immeuble, caractéristiques des immeubles, etc.
Statistique Économétrie | Machine Learning | |
---|---|---|
Contexte des données | Données rares et coûteuse | Big Data |
Objectif | Produire un savoir | Aide une décision particulière |
Comment se fait la conviction | Mathématiques, loi des grands nombres. Explications des résultats | Validation sur test "Regarde, ça marche" |
Comment améliorer ? | Faire grossir l'échantillon | Ajouter des variables |
Critique des résultats | Est-ce représentatif ? | Est-ce toujours valable ? |
Forces de la démarche |
Robustesse Compréhension Peut répondre à plusieurs questions |
Performance inégalée Epouse mieux les données |
Data + Programme => Output
Data + Output => Programme
Le machine learning n'est qu'une sous-partie de l'intelligence artificielle
mais elle a pris le dessus, scientifiquement et surtout médiatiquement