Post on 24-Sep-2020
Sciences des Données: enjeux, opportunités et défis
Nozha BoujemaaDirectrice de Recherche InriaConseillère du PDG d’Inria en Big DataMembre du “Board Of Directors” de BDVA
Décembre 2013AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Introduction
Emergence of Big Data Technologies
Convergence of three factors:
• Data Tsunami
• Affordable/Powerful Computing Facilities, including open-
source software framework)
• Advanced Machine Learning algorithms and paradigms, mainly • Advanced Machine Learning algorithms and paradigms, mainly
« Deep Learning » registering significant performance gain
(about 15% wrt SoA techniques since 2 years)
These are enablers for Artificial Intelligence (AI) capabilities
From « Data Analytics » to « Cognitive Systems »
- 3N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Focus of data analytics is changing –From description of past to decision support
Valu
e a
nd c
om
ple
xity
Inform
Analyze
Act
DescriptiveDiagnostic
Predictive
Prescriptive
Valu
e a
nd c
om
ple
xity
Descriptive
Examples
– Plant operation report
– Fault report
What happened?
– Alarm management
– Root cause identification
Why did it happen?
– Power consumption prediction
– Fault prediction
What will happen?
– Operation point optimization
– Load balancing
What shall we do?
Gartner 2013 - N. Gauss/Siemens - 2015
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Transformation numérique centrée-données La recherche et l'innovation par les données ont permis le
développement d’une économie entièrement nouvelle qui bouleverse le fonctionnement de nos organisations
Tout est centré sur « la donnée »• Science de la donnée• Économie de la donnée• Propriété de la donnée• Organisation de la société
- 5
• Organisation de la société
Les acteurs historiques d’un métier n’ont plus la garantie de le rester: transport, assurance, véhicule connecté, hôtellerie
Les algorithmes et les données sont partout!
Un prérequis: la dualité données-algorithmes
Un verrou: la confiance !
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Applications envisagées et croissance prévueQuelques domaines d’application phares:
• Marketing digital/CRM, analyse de traces pour ciblage
publicitaire, recommandations
• Industrie 4.0 et Urbanisation: maintenance prédictive (véhicule
connecté, etc), logistique, « Smart Cities », « Smart
Factories », « Smart-Home », Energie
• Santé: aide au diagnostic médical, épidémiologie, etc• Santé: aide au diagnostic médical, épidémiologie, etc
• Environnement: Observation de la Terre, optimisation des
ressources naturelles, Biodiversité
• Sécurité: détection de signaux faibles
• Finance, Assurance
• Plateformes de services en ligne: achat
- 6N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
ChallengesChallenges
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
5 Pilars for Data Science*1- Data Management: unstructured and semi-structured
Semantic interoperability of heterogeneous sources and representations,
Data quality, Data provenance,
2- Data Processing Architecture :
Scalability, Decentralization (Cloud/Fog etc), Low-energy consumption
3- Data Analytics:
Semantic Analysis, Content Validation, Predictive/Presciptive Analytics
4- Data Protection:
Privacy-enhancing models and techniques, Robusteness against
reversibility
5- Data Visualization:
Interactive visual analytics, Collaborative, Cross-platform data frameworks
* Inspired by BDVA SRIA technical priorities
- 8N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science1- Progressive user-centric analytics
• What – Having analytics technology targeting the user
needs and expectations, allowing the user to drive the
analytics process effortlessly
real-time analytics and decision making
interactive mining, learning, visualization
- 9
On-line learning with few examples
user modeling and user intention models
• Why – Seamless cooperation between the machine and
the analysts will facilitate the adoption of big data
technology and the semantic effectiveness
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science2- Processing Architecture & Big Data,
Optimized Architecture for energy consumption reduction
Utilization within Embedded-Systems
Less dependent to remote computing facilities (Cloud/Data
Centers)Centers)
Specialized Processors, GAFAM still pioneers: Google first
announced such optimized architecture for TensorFlow (Its
Open-Source Machine Learning Library) => Not for sale!
- 10N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science3- Responsible/Ethical Data Management and Analytics
• Asymmetry of information between citizens and public authorities on one hand and private companies on the other hand with respect to collection and processing of personal data.
• This asymmetry creates a mistrust: fueled by hidden data • This asymmetry creates a mistrust: fueled by hidden data usages, dissemination practices escaping the control of individuals, business models based on data over-collection – the whole framed by an obsolete regulation.
• Consensus is emerging to develop methods and Tools to build Trust & Transparency for Data and Algorithms fostering accountability and loyalty
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science3- Responsible/Ethical Data Management and Analytics
1. Trust and Transparency of data (Provenance): What
information/data was used and where does it come from?
Governance of data chain, who owns what, who can
make value of what?make value of what?
2. Trust and Transparency of data used and produced by
algorithms (Control) : What data comes in and out of
algorithms which are used in the big data pipeline?
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science3- Responsible/Ethical Data Management and Analytics3- Trust and Transparency of computer-aided decision-
making process (decision responsibility): What are the
different criteria/steps/settings that have led to the specific
decision in order to understand the global path for the
reasoning?reasoning?
“How can I trust Machine Learning prediction?” it
happens to build the model of the pattern context
rather the pattern itself
Decision explanation and tractability
Robustness to bias/diversion/corruption
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science3- Responsible/Ethical Data Management and Analytics
• Consultation récente menée par le CGE missionné par le cabinet d’Axelle Lemaire (loi pour la république numérique)
=> Plateforme de test des algorithmes en vue de leur régulation/gouvernance, endiscussion
• Très peu de travaux en France et en Europe sur le sujet. Un des aspects a été abordé dans le projet CNIL-Inria Mobiliticsété abordé dans le projet CNIL-Inria Mobilitics
• « Best practices » dans un groupe franco-allemand (AFNOR/DIN)
• « Data Transparency Lab » depuis 1 an (MIT, Telefonica et Mozilla au board+ Inria et Columbia en cours). Il est envisagé qu’Inria organise DTL’2017 à Paris
--- Concernant la Blockchain* : techno énergivore et ne passe pas à l’échelle pour l’instant => prudence déploiement selon cas d’usages (*Tiers de confiance ou confiance répartie)
- 14N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Transparency tools of data & algorithms is essential for trust and appropriation in Big Data technologies
Tools to empower the citizen
Challenges for Data Science3- Responsible/Ethical Data Management and Analytics
- 15
Tools to empower the citizen
Tolls for the regulator for law application (avoid discrimination, foster: fairness, neutrality, accountability etc)
Transparency competitive advantage?
N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
Challenges for Data Science4- AOB
• Interdisciplinary Issues: Data-Driven Digital Transformation
present not only Technological Challenges but also from
other perspectives such as Data Economy, Law, Ethics, etc
totally interdependent nowadays in all sectors
Before hand: lots to do with joint mathematics and computer science Before hand: lots to do with joint mathematics and computer science
investigations
• Skills & Interdisciplinary Training
• Standardisation/Best Practices: AFNOR/DIN, ISO, BSI,
NIST, IEEE … coordination on the way
- 16N. Boujemaa - AllEnvi – Rencontres Scientifiques – 4 Juillet 2016
http://www.plantnet-project.org/
Une initiative de science citoyennedédiée à l’identification des plantes
et auet ausuivi de la biodiversité végétale
Responsables:Boujemaa N. (Inria)
Barthélémy D. (Cirad, Inra)
Joly A. (Resp. Sc., Inria)Bonnet P. (Coord., Cirad)
• Climate change is arguably the biggest environmental challenge to agricultural production and food security that we currently face
It has and will have a major social and economic impact over the coming decades
© Greenpeace / Beltra
• Dramatic increase of world
population : 6 billions of people in 2010
(“1 billion with undernourishment!”)
=> 9 billions in 2050
Increase in food demand
New, sustainable sustainable ways of production
(more and better)
Produce differently
(most of thepopulation inTowns)
Impact on biodiversity and environmentInvasive introduced species are related to
human activities :
In the UK, it is estimated that Japanese knotweed (introduced in the late 19th century)cost 165 million €/year to the community
unicellular toxic algae in Norway (with 8.2 million €/year)
Water Hyacinth in Spain (3.4 million €/year)
…
35% of the global food production depends on pollinators activity(estimated at 153 billions €/year).
At the world level, weeds induce a loss of 35% in yields (FAO report).
Bringing together wild vs cultivated biodiversity, and agronomical vsenvironmental research and knowledge
Contexte scientifique et technologique
L’identification des plantes reste un verrou majeurpour l’accumulation et la diffusion de connaissancessur les plantes
Aussi bien pour les professionnels que les amateurs,et cela d’autant plus dans les régions Tropicales etMéditerranéennesMéditerranéennes
Avec le développement des réseaux sociaux, des capteurs mobiles et des sciences participatives, de nouvelles formes d’intéractions science / société deviennent possibles
Mots-clés: Biodiversité, Informatique, Echange et fouille de données, Validation des données, Nomadisme numérique, Contenus multimédias, Recherche d’information, Science citoyenne.
Accurate knowledge of plants is essential for sustainable agriculture and biodiversity conservation
Botanical data are: decentralized and heterogeneous complex (un-structured tags, empirical measurements,…)
sparse and incomplete huge & unknown number of species “long tail distribution” (1 record per species !)
# data# data
# species
22
Data
Plant identification
Collaborative Information Systems, basedon Crowdsourcing multimedia
Multimedia IR & Identification Tools& Mobile tech.
Pl@ntNet-mobile apps
Maurice / Antilles / Andes / Af. tropicale
300 000 images
Pls milliers d’espèces
France / Oc. Indien / Guyane / Af. du Nord
235 000 images
6 100 espèces
Version publique
Image sharing and retrieval app for plant identification Shared observations (Creative Commons)
Pl@ntNet Workflow
?
Web
IdentiPlante
Collaborative validation and
annotation
Response
Contribution
Joly & al., 2015 Look inside the Pl@ntNet experience. Multimedia Systems
Deeplearning
QuerySearch
Indexation
Maestro / IKONA / SnoopIm
PictoFlora
Response
Fouille dedonnées visuelles
Cercle vertueux
L’approche: un workflow innovant basé sur l’agrégation de
données par la masse, et la mise en place d’une boucle
rétroactive positive.
Scalable CBIR based on high-dimensional data hashing [A. Joly et al., 2011-2015] LifeClef challenges, [A. Joly et al., 2011-2015]
Collaborative annotation tools & citizen sciences initiatives [P. Bonnet, H. Goëau et al., 2013-2015]
Gamified crowdsourcing, [M. Servajean, 2016?]
Plant identification mobile apps, [H. Goëau et al., 2013-2014]
Large communauté d’usagers
1,82 M users / 11,5 M sessions2,6 K utilisateurs/jour été 20146-11 K utilisateurs/jour été 2015
10-50 K utilisateurs/jour 2016
150 Pays
26
Thank you for your attention
Nozha.Boujemaa@inria.fr
- 27N. Boujemaa - Syntec Numérique - Matinée Big Data - 16 Juin 2016