Myriad Livre Blanc Machine Learning · 2019. 7. 16. · Stratégie SEA (Search Engine...
Transcript of Myriad Livre Blanc Machine Learning · 2019. 7. 16. · Stratégie SEA (Search Engine...
2
Glossaire
Big Data: Le Journal Officiel du 22 août 2014 préconise d’utiliser en français lemotmégadonnées. Ilendonneladéfinitionsuivante :donnéesstructuréesounon,dont letrèsgrandvolumerequiertdesoutilsd’analyseadaptés.
Datamanagement platform (DMP): appeléeen françaisplateformedegestiondesdonnées,ellesertàaccumuleretàclasserlesdonnéesdesinternautesinteragissantavecunsitewebpourensuitepermettredemieuxciblerlespublicitésenligne.
Deep Learning: ou apprentissage profond. Famille de méthodes de Machine Learning,permettantunapprentissageautomatiquedifférentparniveaudedétail,enutilisantdesréseauxdeneuronesartificiels.
Hadoop:Plateformed’analysedédiéeà l’analysedesBigData,utilisantune techniqueditedestockageetdecalculdistribués.
InternetofThings(IoT):ouinternetdesobjets(objetsconnectés).Cetteexpressionreprésentel’extension du réseau internet à des objets (souvent des capteurs) ou des lieux. Les donnéestransmises par ces objets doivent ensuite être analysées et corrélées à d’autres données,notammentàl’aideduMachineLearning.
SmallData:Iln’ypasdedéfinitionofficiellepourlesSmallData.C’estplutôtenoppositionauxBig Data, les «petites» données qui concernent la vie de tous les jours de l’entreprise (ex:donnéesdesticketsdecaisse,nombredeclientsayantpénétrédanslemagasin...)etsouventnonexploitées par les entreprises.Dès lors que ces données sont exploitées et que leur utilité estavérée,cespetitesdonnéesdevenues«intelligentes»sontsouventappeléesSmartDatas.
StratégieSEA(SearchEngineAdvertisement):ouréférencementpayant,elleconsisteàlamiseenplacederéponsespayantesdanslespagesderésultatsd’unmoteurderecherche.
Sommaire
p.3:Introduction
p.5:LemoteurduMachineLearning,sonfonctionnement
p.7:LespilotesduMachineLearning,lesDataScientistsp.8:LecarburantduMachineLearning,lesdonnées
p.10:LefuselageduMachineLearning,ledesignstratégiquep.11:Lesmissionsoucasd’applicationduMachineLearning
p.12:Focussurunemission,l’assurancecrédit
p.15:Focussurd’autresmissions,maintenanceprédictive,segmentationclients,systèmesderecommandation
3
Introduction
L’expressionde«MachineLearning»,ouenfrançais,apprentissageautomatique,
aussi appelée «analyse prédictive» ou parfois «intelligence artificielle» connaîtaujourd’hui un développement très important, tant dans le monde des entreprisesqu’auprèsdugrandpublic.
DécollagedesProjetsAnalytiquesd’uneentreprise
LeMachine Learning est en effet ce qui donne de la valeur aux données etpermetde fairedécoller lesprojetsBigDatadesentreprises. LeMachineLearningdésigneunetechniqueinformatiquequipermetd’obtenirdesprédictionsàpartirdedonnéesbrutes.Cettedéfinitionpeutparaître floueetmystérieuse,mais loinde lamagie, il y a derrière cette technique, de puissants outils statistiques. Leurexplication permet alors d’en comprendre tout l’intérêt ainsi que lamanière de lemettreenœuvredanslecontextedechaqueentreprise.
4
Nousallonsexposerdanscelivreblanc:
• cequ’estprécisémentleMachineLearning,
• sespossibilités,
• seslimites,àtraversplusieurscasd’applications:
Ø laprédictiondesprixdansl’immobilier,Ø letraitementdesdemandesderemboursementdansl’assurancecrédit,
Ø lamaintenanceprédictivedansl’industrie,Ø lasegmentationclients,
Ø lessystèmesdepersonnalisationetrecommandation.
Ces cas d’application montrent notamment comment le Machine Learning peutvenirapporterdelavaleurauxapplicationsbusinessettirerverslehauttoutelastratégiedigitaled’uneentreprise.
McKinseyQuarterly,Juin2015Une douzaine de banques européennes ont récemment remplacé leursapproches statistiques traditionnelles par des techniques de MachineLearning, notamment par des nouveaux systèmes de recommandation.Danscertainsdomaines,ellesontobtenu,grâceàcesnouvellestechniques,des résultats impressionnants, comme une hausse de 10% de vente denouveauxproduits, 20%d’économies en dépenses d’investissement,unehaussedetrésoreriede20%etunebaissede20%dedésabonnements.
5
Le moteur du Machine Learning
Issu d’idées plus anciennes, le Machine Learning a réellement commencé à sedévelopper dans les années 1990 sur des «small data», limité par les capacités destockageetde calculde l’informatiquede l’époque.Depuis la findes années2000,onassiste à une explosion de son utilisation combinée aux techniques de BigData, pourprédiretoutesorted’informationsvitalesauxentreprisesetapporterainsidelavaleuràleursdonnées. LeBigDatapermet en effet dedémultiplier la puissanceprédictiveduMachineLearning.
Prenons l’exemple de l’immobilier. A partir des caractéristiques d’une maison(surface, nombre de chambres, de salles de bain, jardin, vue, année de construction,localisation…),onsouhaiteprédireparleMachineLearningquelserasonprixdevente,demanièrebienplusprécisequejusteavecleprixdumètrecarré.
DéfinitionPouralleràl’essentiel,leMachineLearningconsisteenlacombinaisondel’efficacitédes modèles statistiques à décrire la réalité avec la puissance de traitement etd’automatisationdel’Informatique.
C’est la seule équation à retenir de ce livre blanc! Ainsi le Machine Learningdéveloppedesalgorithmesquivontapprendredemanièreautomatiséedesmodèlesstatistiques à partir de données d’apprentissage. Ceci peut se faire de manièresupervisée,non supervisée, par renforcement… Il y a beaucoupdeméthodesmaisnous allons nous concentrer sur un des mécanismes de base qui concernel’apprentissagesupervisé.
6
On fournit donc à la machine une base de données des ventes de maisons
réaliséesdanslarégioncible(potentiellementdesmilliersdevente),quicontientpourchaquemaisontoutessescaractéristiques(potentiellementdescentaines)ainsiquelesprixdeventeréellementenregistrés.
ID Prix de vente
Surface habitable
Nb de chambres
Nb de salles bain
Année de construction
Localisation
Maison1 201000 63 2 1 1965 CV Maison2 569000 120 5 2 1986 B
…………. Lamachineconsidèreitérativementchaquemaisondelabasededonnées:
1. elleenextraitlescaractéristiques,2. ellelesfaitpasserdansunmodèledeMachineLearning,iciappeléRégression,3. lemodèlepréditalorsunprixdeventepourcettemaison.4. Lamachinecompareleprixpréditavecleprixréel(danslabasededonnées).5. Elle ajuste en conséquence les coefficients décrivant le modèle de Machine
Learning (Régression) grâce à un algorithme spécial pour améliorer cettecomparaison.
LemodèledeMachineLearning,viasescoefficients,évoluedoncitérativement,àchaquefoisqu’unemaisondelabasededonnéeestanalysée.Alafin,ilestoptimisépourquelacomparaison des prix prédits avec les prix réels sur toute la base de données desmaisons soit lameilleurepossible.Onditque lamachineaappris lemodèle, enétantsuperviséecarlesréponses(prixdeventeréels)luiétaientfournies.Acemoment-là,onpeutfourniràlamachinedescaractéristiquesdemaisonsdontonneconnaîtpasleprixdevente,etlemodèlepermetalorsdeleprédire.
7
Les pilotes du Machine Learning
Examinons maintenant le profil de ceux qui construisent des modèles de MachineLearning.AcôtédesdeuxautresprofilstechniquesmisenjeuparleprocessusBigData-lesDataStrategistsetlesDataArchitects-leDataScientistdéfinit,metenplaceetpilotele modèle de Machine Learning pertinent sur une plateforme d’analyse mise à sadisposition.Voiciledétaildescompétencesqu’ildoitmaîtriser.
PositionnéauprèsdesMétiers,leDataScientistexploite,analyseetévaluelarichessedes données existantes pour établir des scénarios Machine Learning permettant decomprendreetd’anticiperdefutursleviersmétiersouopérationnels.
• IldoitcomprendrelesaspectsetcontraintesMétiersdesdonnéesqu’ilmanipulepourenextrairedesanalysespleinementutilesauclient.
• Ildoitsavoirmanipuler lesdonnéesàanalyser,c’est-à-direposséderdebonnesconnaissancesETL-extraction,transformation,chargement(loadenanglais)-etpouvoir assurer un nettoyage méthodique des données pour une utilisationoptimaleduMachineLearning.
• Ildoitmaîtriser les théoriesmathématiquesetstatistiquesquisous-tendent lesmodèlesdeMachineLearningqu’ilmetenœuvre,afind’enconnaîtreaumieuxlapertinenceetleslimites.
• Le Machine Learning étant le procédé d’apprentissage de la machine, le DataScientistmetenœuvresesmodèlesaumoyendecodeinformatique.Ildoitdoncmaîtriserleslangagesinformatiquesetleslibrairiesassociéesquiluipermettrontdecodersesalgorithmessurdifférentstypesdeplateformesanalytiques.
• Enfin, l’analyse des données permet l’aide à la décision. Le Data Scientist doitdonc posséder de fortes compétences en visualisation des données ainsi qu’enprésentation des résultats de ses analyses. Pour faire passer un message demanièreoptimale,lesmeilleurespratiquesdevisualisationmènentàl’intégrerauseind’unehistoire(storytelling)quipermetd’engommerlecôtétechniqueetdelepersonnaliser.
Dualitéd’unDataScientist:MathématiquesetInformatique
8
Le carburant du Machine Learning
Commenousl’avonsvuci-dessus,lamachineingèrelesdonnéespourenextraire
des caractéristiques qui vont être directement corrélées à la valeur à prédire. Lesdonnées correspondent donc au carburant faisant fonctionner unmodèle deMachineLearning.Ainsi,lapertinencedescaractéristiques,leurqualitéetleurquantitésontdescritères déterminants pour la précision des prédictions dumodèle. C’est pourquoi leMachine Learning est souvent considéré dans une démarche globale d’architecture etd’analyse Big Data (c’est notamment l’approche de Myriad!), que nous allonsbrièvementdécrire.
Etape stratégie: Le processus Big Data commence par une réflexionstratégique de l’entreprise concernant l’utilité et la valeur que va apporterl’analyse prédictive à son business. De cette réflexion, qui peut être
accompagnée par des experts, découle une identification des sources de donnéespertinentes pour l’algorithme de Machine Learning, internes ou externes, leur type(structuréounon),leurimportancerelative,leurdifficultéetcoûtderécupération.CettephaseestdirigéeparleDataStrategistdontnousparleronsci-dessous.
Etapearchitecture:Compte-tenudelastratégiedéfinie,ondessinealorsunearchitecture de base de données, support des analyses à effectuer pourl’entrepriseclient.Cettearchitecturecomprend:
- ledesigndelaplateformed’analyseHadoopetdestockage(dansleCloud/onPremise)entenantcomptedesbesoinsducliententermedesécurité,d’accèsetdegouvernancedesdonnées,
- l’extractiondesdonnéesbrutesàpartirdessourcesidentifiées,- lenettoyageautomatiqueetlechargementdecesdonnéessurlaplateforme,
- lapriseencomptedesrésultatsd’analysedansdesoutilsdereportingetdevisualisationpourl’aideàladécisionduclient.
9
Cetteétape,réaliséeparleDataArchitect,estcrucialeàlafoispourlaqualitédesdonnées utilisées par le modèle de Machine Learning – le nettoyage des donnéescorrespondant au raffinage du carburant du modèle - mais aussi pour permettre unfonctionnementrapideetoptimisédesalgorithmesutiliséssurlaplateformeanalytique.L’étaped’architecturecorrespondainsiauraffinageducarburantetà lamiseenplaced’unsystèmed’injectionrapidepourlemoteurqu’estleMachineLearning.
Etape analyse: Une fois la plateforme construite, le pilote, ou Data Scientist,dontnousavonsétudiéleprofilci-dessus,peutalorstesterdifférentsmodèlesde
MachineLearningpourl’analysesouhaitéeparl’entrepriseetdéployerleplusadaptéetefficient.
10
Le fuselage du Machine Learning
Ilresteunaspectquenousavonsbrièvementabordéenparlantdesdonnées:lamise en œuvre du Machine Learning au niveau de la stratégie de votre entreprise,commepierreangulaired’unprojetBigData.Nousneparlonsplusicid’architectureoudechoixdemodèleetd’algorithmes,maisplutôtdedesignetd’approchestratégique.Ilexistebienévidemmentplusieurschoixdans l’approchestratégiquedemiseenœuvreduMachineLearning:onpeutopterpourungrosporteurcommeunlogicield’analyseavec des algorithmes préenregistrés ou pour un modèle avec design sur-mesure parrapport à lamission demandée (cf encadré ci-dessous). Cela dépend bien entendudubesoindel’entreprise.
Comme le commandant d’escadrille, leData Strategist établit le plan de vol pour lamission, gère les interactions avec les autresmissions, ainsi qu’avec les pilotes et le TopManagement de l’entreprise. Il doit avoir unetrès bonne capacité d’adaptation et uneconnaissanceMétierspour comprendre tous lesenjeux de lamission et pouvoir les traduire entermes techniques ou opérationnels pour lespilotes.Sonrôleestcapitaldans l’approchesur-mesureduMachineLearning:ilchoisitledesignstratégiqueduMachineLearningdontontbesoinvosmétiers,quelesDataScientistsvontensuitedéclineretutiliser.
LeDataStrategistdoitêtreconscientdespossibilités comme des limites du MachineLearning et de ses pilotes. Il doit notamment trouver un compromis entre laperformancedesalgorithmesetlacomplexitédeleurmiseenœuvre.Illustronsceciparunexemple.L’entrepriseNetflixaoffertunprixd’unmilliondedollarsen2006pourdiminuer l’erreurde leurmodèledeMachineLearningde10%.Cela a été réalisé en2009, mais le modèle gagnant fut finalement trop compliqué à implémenter enproduction et surtout il fut impossible d’assurer sa maintenance opérationnelle, etdoncilnefutpasutilisé.VoiciunedeslimitesduMachineLearning,concernantsamiseenproduction,quedoitparfaitementmaîtriserleDataStrategist.
Approchesur-mesure
Le design sur-mesure de l’algorithmede Machine Learning en fonction durésultat souhaité ou de la missiondemandée est un atout stratégique.C’est un principe général de laPhysiquequelemodèlemathématiquedoit s’adapter à la réalité qu’il doitdécrire, et non l’inverse. Pour lesdonnées, le principe reste le même:l’algorithmedoit s’adapterau résultatsouhaité et aux données fournies, etnon l’inverse. Ainsi, suivant la qualitédes données (fiabilité des sources,nettoyageet filtrage,standardisation),l’architecturedéjàexistante,lesprofilsdeData Scientists disponibles pour lamission, les contraintes légales etsécuritaires, les attentes des métiers,se met en place un profil de missiontrèsspécifiqueetadapté:c’estauDataStrategistdeledéterminer.
11
Les missions du Machine Learning: Cas d’applications
LeMachineLearningpermet,àpartirdedonnées,deprédire,dediagnostiquerouderecommanderautomatiquementtoutcequiintéresseuneentreprise.C’estdoncunetechniquetransversale,quis’appliqueàdetrèsnombreuxdomaines,etdonttouslescasd’usagen’ontpas encore été trouvés, loinde là. Enunmot, leMachineLearningpeutemmener l’entreprise qui l’adopte au plus haut degré de l’analytique et remplirprécisémentlesmissionsquiluisontassignées.Voyonsiciquelquescasd’application.
Finance – Assurance • Modélisationd’indicateurséconomiques• Personnalisationdel’expérienceclient• Evaluationdelasolvabilitéde
l’emprunteur• Détectiondefraudes• Analysedemarchéetbenchmarking
Marketing digital • Segmentationclientsauseinde
DMP(datamanagementplatform)• Analysemulticanal• Scoringdesprospects• OptimisationdestratégiesSEA
(GoogleAdWords)
Industrie
• Maintenanceprédictivesurlesdonnéesd’objetsconnectés(IoT)
• Déterminationetajustementdeprix
• Prévisiondesstocks• Relationsclients(CRM)• Surveillancedelaréputationsur
internet
E-commerce
• Analysedepaniers• Personnalisationderecommandations
produits• Analysedesentimentsurlesréseaux
sociaux• Evaluationdelasatisfactionclient• Ventesadditionnellesetventescroisées
Ressources humaines
• Automatisationderecherchedeprofils(avecleNaturalLanguageProcessing)
• Evaluationdesrisquesdedéparts• Optimisationdumarketingde
recrutement
Energie, transport, luxe, telecom…
12
Focus sur une mission: le cas de l’assurance-crédit
PourmieuxcomprendrelavaleurajoutéeduMachineLearning, focalisons-noussurunretourd’expériencedanslecasdel’assurancecrédit.
Enjeuxinitiauxduclient:
L’assurance XCC1, de crédit à la consommation, rembourse lecréditde l’emprunteurdans lescassuivants:décès, invaliditéoupertede travail, suivant le contrat établi avec l’emprunteur. Or depuisl’applicationdelaloiHamonen2015,lemarchédel’assurancecréditestsoumis à une forte pression concurrentielle due aux facilités pourl’emprunteurdechangerd’assurancecréditnotammentpendant lapremièreannéedesonemprunt. Danscecontexte, l’assuranceXCCdevaitfairefaceàunfortenjeuconcernantledélai des demandes de remboursement. En moyenne, un emprunteur faisant unedemandede remboursementvoyait sondossier traitéen5mois.Ceci engendraitbienévidemmentunefrustrationduclient,cequisereflétaitenparticuliersurinternet.Unrapideauditinternepermitdedéterminerlesgrandescausesdecetétatdefait:
1. Unemauvaisegestiondelarécupérationdesdonnées(formulaires,certificats,…)aumomentdesdemandesderemboursement.
2. Desdonnéesnoncentralisées,notammententre lesdonnéesclients récupéréesaumomentdelasignatureducontrat,etcellesdesdemandesderemboursement.Ceciengendreunepertedetempspour lesagentsd’assurancedevant traiter ledossier.
3. Des effectifs réduits demoitié par rapport à un traitement optimal. Les agentsd’assuranceprécitésfontalorsfaceàunesurchargedetravailetdestress,cequiaugmente mécaniquement les délais de traitement mais aussi les erreurs detraitement.
Faceàcesenjeux,l’assuranceXCCauraitpuopterpourlasolutionclassique,àsavoirledoublement de ses effectifs d’agents dédiés au traitement des demandes deremboursement.Mais elle lui a préféré un projet Big Data exploitant la puissance duMachineLearning.
1XCC:nomfactice
13
Afindedéterminerleretoursurinvestissementdelapartiecentraledeceprojet,à savoir l’automatisation du traitement des demandes de remboursement par leMachine Learning (algorithme de Classification), l’entrepriseMyriad a réalisé un PoC(test) sur un échantillon des données de l’assurance XCC. Nous présentons ici lesrésultats,trèsparlants,decePoC.
RésultatsduPoC2:
Deux scénarios d’automatisation de traitement des demandes deremboursementontétédéterminés:
• le premier focalisé sur l’accélération des remboursements, où on impose unpourcentagedeplusde75%d’automatisation;
• le second sur une réduction optimale des coûts, et qui obtient alors uneautomatisationde55%desdemandesderemboursement.
Ilestànoterquelescoûtsdetraitementmensuelsprennentencomptelecoûtsalarialdes effectifs dédiés à la vérificationmanuelle des demandes de remboursement ainsique le coûtdûauxerreursde traitement (remboursements indus).Voici le tableaudebordobtenupourcesdeuxscénarios(vertetbleu),encomparaisonaveclasolutionsansMachineLearningdedoublementdeseffectifs(rouge):
2Leschiffresdesrésultatsontétémodifiéspourl’anonymatdel’assuranceXCC.Cependantlesperformances(délais,pourcentagesderéductiondescoûts,d’accélérationdetraitement)sontcellesquiontétéréalisées.
14
Cetexempledel’assurancecréditmontrequ’avecuncoûtdemiseenplacefaibledevantlescoûtsdetraitementmensuel,leMachineLearningpeutaiderl’assuranceXCCdansl’automatisationdutraitementdesesdemandesderemboursementenaméliorantsesstatistiquesdefaçonimpressionnante:26%deréductiondescoûts,etdiminutiondesdélaisdemoitié.
Scénario1:
Onremarquequ’enimposantuneforteaccélarationdutraitementdesdemandesderemboursement (scénario 1), on diminue les délaismoyens de remboursement demanière drastique, à7 jours. Le coût de traitementmensuel, réduit de 20% parrapportaudoublementdeseffectifs,incluealorsunetrèsfaiblepartdueauxeffectifs(vérification manuelle de seulement 20% des dossiers), mais il y a une partieimportante due à l’erreur statistique de l’algorithme. Cette erreur pourrait êtreréduite significativement, ainsi que les coûts, en ajoutant en amont une phase denettoyage des données, non incluse dans ce PoC. En effet, environ un tiers desdonnéesn’étaitpasexploitablepourcausededonnéemanquante,nonstandard…
Scénario2:Le deuxième scénario s’est concentré sur une optimisation des coûts, avecnotamment une réduction de 26% de ces coûts par rapport au scénario dedoublementdeseffectifs etundélaimoyende traitementde14 jours. L’erreurdetraitement est alors proche de celle du scénario initial, bien que celle-ci puisseencore être réduite par un nettoyage des données comme mentionné ci-dessus.Comme55%desdossierssonttraitésautomatiquement,ilreste45%devérificationsmanuelles.Cecidonneuneffectifprochedeceluiduscénarioinitial,maisaveccettefois-ciunechargedetravailoptimaleetnonpasdouble.
15
Focus sur d’autres missions
AprèsavoirvudemanièreapprofondielaméthodologiedemiseenplaceduMachineLearningdanslecadredel’assurancecrédit,ainsiquelesrésultatschiffrésquecelaproduit,nousallonsétudierdemanièreplussynthétiqued’autrescasd’usagedontnousnedécrironsquelapartiespécifique.Maintenance prédictive
Dans le secteur de l’industrie, l’utilisation du MachineLearningvientà segénéraliserpour lamaintenanceprédictive.On connecte des dizaines de capteurs sur la chaîne deproductionmesurantlesdifférentssignauxpertinentsrelatifsaubonfonctionnementdelachaîne.
Puis l’utilisation de l’historique des données de cette chaîne de production, etnotammentde sonétatde fonctionnement,permetd’entraînerunmodèledeMachineLearningappeléRégression.Celui-cipeutensuite:
• diagnostiquerentempsréell’étatdefonctionnementdelachaînedeproduction,• analyserlesrisquesfutursdedéfaillancetechniqueetidentifiersurquellepièce,• déterminerenconséquenceunplandemaintenanceprédictivedelamachine
enminimisantsontempsd’arrêt. Segmentation clients
Lasegmentationdesclientsestunélémentclédumarketingdans lesecteurducommerce électronique: elle permet de regrouper dans diverses catégories desconsommateurs aux comportements similaires et d’analyser ces comportementspourensuiteoptimiserlesrecommandationsdesproduits,lescampagnesmarketing,etainsilesventesdel’entreprise.
Cette segmentation clients peut se faire auseind’uneplateformedegestiondedonnées(DMP)ou avec des algorithmes spécifiques adaptés auclient. Le modèle général de Machine Learningutilisé s’appelle le Clustering, qui est un exempled’apprentissage non supervisé, contrairement auxmodèles(Classification,Régression)quenousavonsvusci-dessus.
Dans l’espace multi-dimensionnel de toutesles caractéristiquesdes consommateurs (par exemple, la fréquencedes achats, leprixmoyen des achats, la réactivité face aux produits recommandés, l’appartenance auprogramme de fidélité, les informations démographiques comme lieu, âge, sexe…potentiellement des centaines de caractéristiques), chaque consommateur estreprésenté par un vecteur. Une distance adaptée au type de segmentation vouluepermetalorsderegrouperlesvecteurs«proches»,d’obtenirdescatégo-riesdeconsommateursetd’analysertoutesleurscaractéristiquescommunes.
16
Système de personnalisation et recommandation
D’autrestechniquesdeMachineLearningsontutiliséesdanslecasdessystèmesde recommandation ou de personnalisation par l’industrie, l’e-commerce, le luxe, lagrandedistribution…ainsiqueparlesréseauxsociauxcommeLinkedInetFacebook.Cestechniques avancées se nomment filtrage collaboratif ou factorisation de matrices. Atitred’illustration,voyonscomment fonctionne le filtragecollaboratifdans lecasde larecommandationdeproduits.
Danscequ’onappelleunematricedeco-occurrence,onrepèretouteslespaires
de produits qui sont fréquemment achetés ensemble. Puis, par un algorithmestatistique,onendéduitunedistanceentre lesproduitscodantcetteappétenceàêtreachetés ensemble. La machine détermine alors, pour chaque consommateur ayantacheté un produit particulier, quel serait le produit le plus pertinent à luirecommander,c’est-à-direceluiminimisantladistanceavecleproduitdéjàacheté.
Certainesgrandesmarquesdee-commerceontainsipuaméliorerleursventesde
30% en utilisant des systèmes de recommandation faisant notamment intervenir dufiltragecollaboratif.
Parexemple,unegrandechaîneaméricainedesupermarchésadécouvertenutilisantcette technique de filtrage collaboratif une corrélation importante, mais contre-intuitiveaupremierabord,entrelesbièresetlescouches-culottes.Aprèsanalyse,cettechaîne s’est aperçue que ces produits étaient achetés ensemble par de jeunes pèresrevenant de leur travail le soir, et a donc réordonnancé ses étalages pour que lescouchesetlesbièressoientprésentéesdansdesrayonsvoisins.
17
A propos de l’auteur
AxeldeGoursacestdirecteurdesopérationsdeMyriad.Aprèsavoirétédiplômédel'EcolePolytechniqueetdel'EcoleNormaleSupérieuredeParis,ilasoutenuen2009unethèsededoctoratenMathématiquesetPhysiqueauxUniversitésdeParis-Sudetde Münster (Allemagne). Puis, il a obtenu un poste de manager de projets derechercheàl'UniversitéCatholiquedeLouvainetauFondNationaldelaRecherchescientifique (FNRS, Belgique) en Mathématiques et applications. Passionné descienceetdetechnologie,ilestégalementunchercheurinternationalementreconnuetunexpertenMachineLearning.IldirigemaintenantledépartementopérationneldeMyriad,sesDatascientists,architectsetstrategists.
MyriadestunesociétédeservicequiassureleconseiletledéploiementdesolutionsBig Data. Myriad offre aux Entreprises une véritable expertise dans les domainesanalytiques, de Science des Données et d’Architecture. Aujourd’hui, les sociétésreconnaissentqu’ilestnécessairedes’affranchird’uneorganisationdesdonnéesensilospourenrévéler lavaleur.Celasupposedemettreenplaceunesourceuniquepour les données de l’entreprise, qu’elles soient ou non structurées. MyriadaccompagnesesclientsdanslecadredeleurtransformationversleBigDataetleurfournituneassistanceglobalepourl’implémentationdecettetransformation,allantd’unestratégiededonnéesclaireauMachineetDeepLearning.
Saspécificitérésideà la foisdansuneapprochesur-mesure,dehautniveautechnique, mais aussi résolument orientée business, ainsi que sur une méthodeprogressiveclaire“Découvrir/Concevoir/Déployer”,quipermetàsesclientsd’avoirlecontrôletotaldeleursinitiativesBigData.PourassurerlamaîtrisedesCoûtsetduROI,uneapprocheprogressivebaséesurdes casd’utilisations réelsdéfinispar lesmétiers est essentielle pour Myriad. Cette approche est un élément clé pourcomprendre le business de ses clients, leur permettre de rester à la pointe etélaborerunecartenumériquequitransformeleursdonnéesenunvéritableavantagecompétitifdurable.