Comment hacker Google en exploitant la data SEO ?
Transcript of Comment hacker Google en exploitant la data SEO ?
#oncrawl
Comment Hacker
grâce à la Data SEO
Une leçon de séduction 3.0
#oncrawl #SEO #hack
J’adore quand un Algo arrive à ses limites…
ERLE
ALBERTONCUSTOMER
SUcCESS manager10 ans de dev / 5 ans de SEO dont 2
ans en tant que responsable SEO des
boutiques en ligne Orange et Sosh
spécialiste schema.orgseo monk
ONCRAWL
TRAinER
customer climax & GOOD IDEAS
#oncrawl
www.oncrawl.comwww.oncrawl.com
We help Ecommerce & Online media take
better SEO decisions and grow their revenues
By providing access to the Most Advanced SEO Software
Semantic
SEO Crawler
Comprehensive
Log Analyser
API & Platform
to combined all
website’s data
WINNER 2017
+350 Happy Customers
#oncrawl #SEO #hack
• Hacker et éthique
• Ce que Google n’est pas
• Key insights and KPI de Google
• Les composants de l’algo de Visibilité
• Hacker le crawler de Google
• Partage de la data d’OnCrawl
• Conclusions
• 6 idées de hacks
Algo de la conférence
Ce sont des hackers qui ont créé l'Internet
Ce sont des hackers qui font
tourner […] le World Wide Web
Éric S. Raymond
#oncrawl #SEO #hack
• L'accès aux ordinateurs doit être universel et sans limitations
• Ainsi que tout ce qui peut permettre de comprendre comment le monde fonctionne
• Il ne faut pas hésiter à se retrousser les manches pour surmonter les difficultés
• Toute information doit être libre
• Se méfier de l'autorité — encourager la décentralisation
• Les hackers doivent être jugés selon leurs hacks, et non selon de faux critères
• On peut créer l'art et le beau à l'aide d'un ordinateur
• Les ordinateurs peuvent améliorer notre vie
L’éthique des hackers
#oncrawl #SEO #hack
• Project Loon : https://x.company/intl/fr_fr/loon/
• Youtube
• OnCrawl Crawler & Log Analysis : http://www.oncrawl.com/oncrawl-free-plan/
• Wikipédia, wikiData
• Google Quality Ratters Guidelines : https://.../searchqualityevaluatorguidelines.pdf
• Vous êtes tous des hackers !
• DeepMind Gallery : https://deepdreamgenerator.com/
• Votre smartphone est votre meilleure ami
La réalité des Internets
Ce que Google n’est pas !
#oncrawl #SEO #hack
L’intelligence Artificielle, reste que du code source
Il ne pense pas…
Il n’est pas conscient d’agir
Il n’est pas intrinsèquement intelligent
Il n’est pas terminé
Il n’est pas sans failles
#oncrawl #SEO #hack
• Un index colossal : 60 Trillions Pages (2016)
• Une base de connaissance vérifiée
Knowledge Graph + Knowledge Vault + WikiData
• Un espion des comportements humains avec Chrome et Android
• Des algorithmes qui doivent passer à l’échelle
• Un gouffre à électricité
GOOGLE KPI & KEY INSIGHTS
Google n’est pas philanthrope, il doit optimiser ses
couts de traitement
L’IA DeepMind a permis à Google
d’améliorer son efficacité énergétique de
15%
#oncrawl #SEO #hack
Tout le monde cherche la visibilité
Les composants de la méthode Google
#oncrawl #SEO #hack
Crawl
1 32
RankIndex
Les 3 étapes de l’algo à Hacker
• tps de réponse
• qualité technique
• maillage et popularité interne
• Utilisation des nouvelles technos
dédiées au mobile
• taille du contenu
• fraicheur du contenu
• Richesse du contenu
• Qualité du contenu
• Enrichissement sémantique
schema.org
• nombre de click depuis la
SERP
• popularité externe
• engagement et
expérience utilisateur
#oncrawl #SEO #hack
Quelles données prendre en compte pour opérer le Hack ?
Human Behaviours
Depuis les SERPS :
• expressions et les tendances
• volume de recherche
• taux de click par position
• taux de retour sur la SERP (Bounce Rate)
• recherche du nom de domaine
Sur le site :
• temps de visite
• nombre de pages consultées
• nombre de clicks, scroll, interactions
Machine Analysis
Depuis le Web :
• nombre et qualité des liens externes
• nombre de partages/likes
Sur le sites :
• temps de chargement
• nombre d’erreur (404,503,…)
• profondeur des pages
• fréquence de rafraichissement des contenus
• nombres de mots
• qualité sémantique HTML & texte
• maillage interne
• Near Duplicate Content
Les spiders de Google explorent les sites
en grâce au Fetch des codes source
#oncrawl #SEO #hack
Le Crawl de Google est un ensemble d’étapes simples qu’il opère de
manière récursive pour chaque site
Son objectif est de remplir son index de façon exhaustive et le plus
précisément possible
Chaque crawl est avant tout un dépilage d’une liste d’url à aller fetcher
pour vérifier leur mise à jour
Cette liste d’url est conçue à l’avance et doit être optimisée pour ne pas
fetcher des documents de moindre importance
Comment fonctionne le crawl de Google
https://www.google.com/search/howsearchworks/crawling-indexing/
#oncrawl #SEO #hack
Mais…
il ne peut pas tout crawler...
c’est trop gros… ça coute cher…
il doit faire des choix… à vous de faciliter ses choix...
Crawler le Web ça coute un max !
#oncrawl #SEO #hack
Les brevets liés a la notion de Crawl
• US 8666964 B1 : Managing items in crawl schedule
• US 8707312 B1 : Document reuse in a search engine crawler
• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from websites
• US 7305610 B1 : Distributed crawling of hyperlinked documents
• US 8407204 B2 : Minimizing visibility of stale content in web searching including
revisine web crawl intervals of documents
• US 8386459 B1 : Scheduling a recrawl
• US 8042112 B1 : Scheduler for search engine crawler
A priori, la planification du crawl ca compte beaucoup !
#oncrawl #SEO #hack
Le HACK du Crawl – Tps de chargement et Sanity
1. utiliser des CDN et des serveurs de Cache
2. traquer les erreurs reçues par Google
3. placer des raccourcit vers vos pages importantes – maillage
4. maitriser la profondeur des pages avec un crawl régulier
5. réduire le poids des ressources et utiliser des HTTP 304
Budget de Crawl : ressources que Google dépense par visite - basé sur les capacités du server
#oncrawl #SEO #hack
Traquer Google lors de sa visite – l’analyse de Logs
A chaque fois qu’un visiteur passe sur une page il laisse des traces dans des fichiers de logs
Google est un visiteur (presque) comme un autre il laisse ses traces et nous les analysons simplement
#oncrawl #SEO #hack
Traquer Google lors de sa visite – l’analyse de Logs
Cela permet de connaitre les freins à la dépense de Google $$$ sur votre sites
Quelles sections sont les plus consultées, appréciée, simple à crawler
#oncrawl #SEO #hack
Plus on a de données
plus les modèles s’affinent
#oncrawl #SEO #hack
Page Speed first
Google test en permanence la capacité d’un site à répondre rapidement, la qualité de
l’architecture et du code impact fortement le crédit accordé par Google
A l’heure des révolutions mobile c’est un facteur essentiel à l’évaluation de la qualité d’un site :
sa capacité à répondre rapidement – surtout pour les mobiles et l’index mobile first
#oncrawl #SEO #hack
Maillage interne et répartition du InRank
Les pages qui génèrent des visites
sont les pages les plus « hautes »
dans l’architecture
Plus les pages sont profondes, moins
Google les visites !
#oncrawl #SEO #hack
Google n’aime pas creuser trop profond
#oncrawl #SEO #hack
Google les pages riches en contenu
#oncrawl #SEO #hack
Mes pages importantes sont elles bien placées ?
Les pages importantes (ROI) sont forcément accessibles en quelques clicks depuis la home page
A vous de manipuler votre site
pour séduire les Algos de Google
#oncrawl #SEO #hack
• Analyser la data accessible :
Google Suggest, Google Search Console API, LOGS
• réduire ses dépenses :
lever les freins à l’exploration et optimiser son parcours
• Nourrir son appétit :
données sémantiques, contenu importants et précis
• Suivre metrics importantes :
croisement des données de Crawl et Logs
Conclusions : Comment hacker Google
#oncrawl #SEO #hack
• exploration sémantique avec ses données KW,CTR, Impression de GSC API
puis Google Suggest au carré pour créer des pages intéressantes
• optimiser le Crawl frequency en détectant les anomalies avec l’API d’OnCrawl
• automatiser la croissance, la fraicheur et l’exposition de son contenu
=> APIs Cloud Natural Language, Cloud Translation et SociallyMap
• Scraper Google shopping et extraire les données du Knowledge vault
=> créer des entités nommées et des ontologies
• plans de site et pages Hub dynamiques pour réduire la profondeur des pages ROIstes
• utiliser Google Spreadsheet pour agréger toutes les données des APIs
6 idées pour hacker Google
#oncrawl #SEO #hack
Des questions ?
#oncrawl #SEO #hack
1 mois d’abonnement OnCrawl Advanced
offert avec le code WEB2DAY