AUDITUL SISTEMELOR INFORMATICE Ec. Ioana Florentina CHIŞ ...
Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea...
Transcript of Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea...
![Page 1: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/1.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Dezvoltarea sistemelor Web
(re)găsirea resurselor Web
🕸de la motoare de căutare și SEO la date structurate
![Page 2: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/2.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
“A well-defined problem is half solved.”
Michael Osborne
![Page 3: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/3.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Ce activități realizează un motor de căutare?
![Page 4: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/4.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scop:localizarea resurselor existente pe Web
![Page 5: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/5.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scop:localizarea resurselor existente pe Web
conținut textual
documente Web, știri, comentarii, cod-sursă,însemnări în cadrul aplicațiilor Web sociale etc.
![Page 6: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/6.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scop:localizarea resurselor existente pe Web
conținut multimedia
imagini (fotografii, diagrame, ilustrații), audio, video, prezentări,… (în formă fizică și/sau electronică
– gratuite ori comerciale)
![Page 7: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/7.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scop:localizarea resurselor existente pe Web
entități
persoane, organizații, evenimente, cunoaștere (cărți, software), de interes personal/social
(bunuri reale/digitale – produse și/sau servicii),…
![Page 8: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/8.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Tipuri de căutări – maniera tradițională:
pe bază de indecși
explorare a Web-ului (crawling) +prelucrarea conținutului textual (indexing)
Lycos – 1994 (Carnegie Mellon University)AltaVista – 1995 (Digital Equipment Corporation)
![Page 9: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/9.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Tipuri de căutări – maniera tradițională:
pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)
Yahoo! – Yet Another Hierarchical Officious Oracle1994 (Stanford)
Jerry and David’s guide to the World Wide Web
![Page 10: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/10.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Tipuri de căutări – maniera tradițională:
hibrideindecși + taxonomiiportal Web
Excite – 1994 (inițial Architext – Stanford)
![Page 11: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/11.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Tipuri de căutări – maniera tradițională:
pe baza legăturilor hipertext(hyperlink analysis)
Google – 1996 (inițial BackRub – Stanford)
vezi și S. Buraga, „Căutarea resurselor Web” (2016)www.slideshare.net/busaco/sabin-buraga-cutarea-resurselor-web
![Page 12: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/12.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului
(user information-seeking)
![Page 13: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/13.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
scop
căutarea oricărei resurse existente
![Page 14: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/14.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
viteză
rezultatele să fie disponibile imediat
direcție de interes major: real-time Web search
![Page 15: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/15.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
disponibilitate
actualizarea permanentă(orice modificare să fie indexată „instantaneu”)
![Page 16: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/16.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
„reamintire” – recall
găsirea tuturor resurselor relevantepentru o cerere dată
![Page 17: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/17.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
precizie
rezultatul conține doar resurse relevante
prezent: recurgerea la tehnici din inteligența artificială
![Page 18: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/18.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Caracteristici ale unui motor de căutare ideal
categorisire eficientă – ranking
cele mai relevante resurse Websunt plasate primele
![Page 19: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/19.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Care sunt principalele componenteale unui motor de căutare?
![Page 20: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/20.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
coRobot Webextrage informații
Index (catalog)stochează – în mod persistent – (meta)date
despre resursele existente pe Web
Mecanism de evaluare (ranking)pe baza cererii utilizatorului,
oferă răspunsuri – de dorit, utile
![Page 21: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/21.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
structura generică a unui motor de căutare (Chakrabarti, 2003)
![Page 22: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/22.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Preluarea + indexarea resurselor se pot realiza:
automat – via roboți Webmanual – recurgând la experți umani
hibrid
![Page 23: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/23.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Preluarea și indexarea resurselor
strategii:natura datelor/relațiilor (data/relation mining)
detectarea subiectului conținutului (topic distillation)
meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje)
căutare socială (tag-uri, anturaj, aplicații Web sociale)
context (e.g., localizare geografică, timp, dispozitiv)
profil al utilizatorului – personalizare(e.g., istoric al căutărilor, preferințe lingvistice)
![Page 24: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/24.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Am putea recurge la extragerea automatăa datelor expuse pe Web?
![Page 25: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/25.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Roboți
programe ce traversează automat Web-ul,cu scopul de a extrage date
spiders, crawlers, Web bots
robot Web navigator Web
![Page 26: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/26.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Roboți
pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele
(documentele) desemnate de legăturile existenteîn cadrul reprezentării
![Page 27: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/27.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Roboți
pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele
(documentele) desemnate de legăturile existenteîn cadrul reprezentării
acțiuni: extrage de date, copiere, agregare de conținut, monitorizare, realizare a unui rezumat etc.
![Page 28: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/28.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Operarea în foc rapid (rapid-fire)
trafic de rețea
supraîncărcarea serverelor Webdenial of service
![Page 29: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/29.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
![Page 30: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/30.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
necesitatea specificării timpului de revizitare a situluide către robotul Web
<meta name="Revisit-After" content="30 Days" />
![Page 31: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/31.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Exploatarea (ne)controlată de către utilizatori
atacuri „brute”
![Page 32: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/32.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Intrarea în „găurile negre”
![Page 33: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/33.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: pericole
Accesarea unor date nerelevante
![Page 34: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/34.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
uzual, va fi folosit câmpul User-Agent
din antetul unei cereri HTTP
![Page 35: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/35.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: identificare
Ai motoarelor de căutare majore
Baidu – Baiduspider: www.baidu.com/search/spider.html
Bing – Bingbot, BingPreview, AdIxBotwww.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0
DuckDuckGo – duckduckgo.com/duckduckbot
Google – APIs-Google, AdSense, AdsBot, Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video,…
support.google.com/webmasters/answer/1061943
Yahoo! – Slurp: help.yahoo.com/help/us/ysearch/slurp
Yandex – YandexBot, YandexImages etc.:yandex.com/support/webmaster/robot-workings/check-yandex-robots.html
![Page 36: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/36.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: identificare
Specializați
e.g., validarea codului HTML, scurtarea lungimiiURL-urilor, scanare de vulnerabilități, statistici,
arhivarea conținutului disponibil pe Web,…
exemplificări: ChangeDetection, citeseerxbot, Distill,Feedity, Heritrix (folosit de archive.org),
extensii Nagios, Scrapy, W3C Validator
![Page 37: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/37.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: identificare
Personali
rulați de utilizatori
exemplificare: software de „oglindire” (copiere) a conținutului unui (fragment de) sit Web
aplicații notorii disponibile în regim deschis:curl – curl.haxx.se/ wget – www.gnu.org/software/wget/
![Page 38: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/38.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
roboți: identificare
Roboți (potențial) malefici
pot cauza breșe de securitate, exploatând diverse vulnerabilități ale siturilor/aplicațiilor Web
exemple tipice: JS/PHP/SQL/link injection, atacuri XSS (Cross-Site Scripting)
www.botreports.com/badbots/
![Page 39: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/39.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
66.249.65.173 - - [09/Nov/2019:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
93.158.178.188 - - [09/Nov/2019:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
66.249.65.70 - - [09/Nov/2019:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
180.76.5.101 - - [09/Nov/2019:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
98.137.206.250 - - [09/Nov/2019:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
157.55.39.73 - - [09/Nov/2019:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
208.115.111.71 - - [09/Nov/2019:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"
63.249.66.212 - - [09/Nov/2019:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"
66.249.65.70 - - [09/Nov/2019:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"
157.55.39.177 - - [09/Nov/2019:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
136.243.9.23 - - [09/Nov/2019:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"
cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)
![Page 40: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/40.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
statistici + detalii:www.botsvsbrowsers.org
![Page 41: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/41.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?
![Page 42: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/42.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Orice robot trebuie să respectestandardul de excludere
„inhibă” vizitarea anumitor zone (secțiuni) ale unui sit Web
în rădăcina unui domeniu Web se poate plasa fișierul robots.txt
www.robotstxt.org/robotstxt.html
![Page 43: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/43.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
# https://developer.mozilla.org/robots.txt
User-agent: * # toți roboții
Crawl-delay: 5 # 5 sec. între cereri
Sitemap: https://developer.mozilla.org/sitemap.xml
Disallow: /admin/ # căi ce nu trebuie vizitate
Disallow: /*/dashboards/*
Disallow: /*docs/feeds
...
fișierul robots.txt poate cuprinde extensii recunoscute doar de un anumit crawler Web
cazul Google: developers.google.com/search/reference/robots_txt
![Page 44: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/44.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
de studiat câteva exemple reale de fișiere robots.txt:www.amazon.com/robots.txt
www.facebook.com/robots.txt
github.com/robots.txt
www.google.com/robots.txt
User-agent: *
Disallow: /user/*
Disallow: /addtocart*
Disallow: /proces_comanda
Disallow: /cart/*
Disallow: /checkout
Disallow: /imagini/*
Disallow: /images/*
Disallow: /compare/*
Disallow: /thank-you$
Disallow: /cat-*/pid-*/ord-*/p-*
Disallow: /adauga-review
Disallow: /adauga-intrebare
Disallow: /header-cart
Disallow: /header-wl
Disallow: /product_get_recommandations/*
Disallow: /get_back_to_search_url
Disallow: /search-tools/*
Disallow: /ajax_live_products
Disallow: /box_user_history
Disallow: /gr_box_bottom_landing/*
Disallow: /site_ajax_ads
Allow: /*/*/*all-products
User-agent: 008
Disallow: /
![Page 45: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/45.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Orice robot trebuie să respectestandardul de excludere
evitarea indexării conținutului:
<meta name="robots" content="noindex, nofollow" />
![Page 46: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/46.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: căutarea
Activitatea generală a unui robot (crawler) simplu:
F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p
dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată
adaugă v la F
![Page 47: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/47.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: căutarea
Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată
sau doar verificată
![Page 48: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/48.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Cum se realizează indexarea?
![Page 49: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/49.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
![Page 50: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/50.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
modele non-relaționale de stocare – „mișcarea” NoSQL
printre primele abordări: BigTable (Chang et al., 2006)research.google.com/archive/bigtable.html
![Page 51: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/51.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
arhivarea datelor indexate
e.g., recurgerea la algoritmul de compresiebzip2 – www.bzip.org (cazul Google)
![Page 52: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/52.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor
e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări, frecvența modificărilor,…
![Page 53: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/53.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Indexare bazată pe cuvinte-cheie
relevanță, amplasare – e.g., context de apariție –, meta-date, procesarea limbajului natural,
clasificare (semi-)automată via învățare automată(machine learning) sau alte tehnici,...
![Page 54: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/54.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: indexarea
Indexare semantică – recurge la concepte
clasificare socială via adnotare de resurse – tagging (folksonomy)
+ folosirea tehnologiilor Web-ului semantic
![Page 55: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/55.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
unele motoare de căutare acceptăfolosirea unor operatori specifici
![Page 56: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/56.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
exemplificare: o parte dintre operatorii Google
"expresie" ~termen –termen
related: URL cache: URL link: URL
intitle: termen(i) allintitle: termen(i)
intext: termen(i) allintext: termen(i)
inurl: termen(i) allinurl: termen(i)
site: domeniu info: domeniu
define: termen filetype: extensie
unit1 in unit2 număr1 .. număr2
detalii la www.googleguide.com/advanced_operators_reference.html
![Page 57: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/57.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
digital camera $700 .. 1400
~book
intitle:design –intitle:web
"burse de merit"
site:uaic.ro
inurl: art nouveau
allinurl: ES6 library
16 cm in inch
related:www.w3.org
js mvc inanchor:slideshare
define:design
cache:http://devdocs.io/
map:iasi,romania
firefox filetype:svg OR filetype:png
unii operatori sunt permiși doar pentru anumite tipuri de căutări – e.g., știri, imagini, hărți
![Page 58: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/58.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
grad mare de subiectivitate
e.g., “miserable failure”
![Page 59: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/59.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
depind de contextul social/cultural
exemple:“pants” în UK versus US
“madonna and child”
![Page 60: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/60.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
dependente de scop (user intent)
informațional (listă, locație, sfat)
navigațional
vizând accesul la (tipuri de) resurse(download, amuzament, interactivitate, tranzacții,…)
![Page 61: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/61.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
semantici diferite ale unei interogărinecesitatea înțelegerii limbajului natural
www.google.com/search/howsearchworks/algorithms/
![Page 62: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/62.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Remarci:
utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”
exemplu:“hotels located in Bucharest and Iasi”
![Page 63: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/63.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: interogarea
Remarci:
interogările uzual sunt scurte,dar focalizate – e.g., 25% pe business – conform Yahoo!
apar confuzii:URI vs. text
lipsa spațiilorvocabular
etc.
![Page 64: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/64.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Remarci:
implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web
e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”
motoare: interogarea
![Page 65: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/65.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
interacțiunea cu motorul de căutare poate fi facilitată
și de un agent software conversațional
Apple Siri, Amazon Alexa, Google Assistant, Google Now, Microsoft Cortana, Mycroft.ai,
Dragon Go!, SpeakToIt Assistantthereisabotforthat.com botpress.io
![Page 66: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/66.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Detalii despre calculul relevanței?
![Page 67: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/67.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Evaluarea relevanței:
1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor + sortarea6. Afișarea primelor N documente relevante
(URI + alte informații)
![Page 68: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/68.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Conținutul fiecărui document extraseste analizat și divizat în token-uri
![Page 69: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/69.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Unele construcții se ignoră/constrâng
e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”
procesare de bază a conținutului textual
![Page 70: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/70.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Fiecărui token i se reține și poziția aparițieiîn document
poziția poate fi folosităla determinarea relevanței termenului
![Page 71: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/71.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Criterii vizând calculul relevanței:
ranking bazat pe clasificare umană
resurse clasificate de oameni
![Page 72: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/72.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Criterii vizând calculul relevanței:
ranking bazat pe informații privitoarela utilizarea unei resurse
timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.
![Page 73: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/73.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Criterii vizând calculul relevanței:
ranking bazat pe conectivitate
analiza relațiilor (legăturilor hipertext) cu alte pagini
eventual, în funcție de reputațiee.g., importanța domeniului Internet
(sunt luați în calcul factori ca vechimea, localizarea,…)
![Page 74: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/74.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Calculul relevanței:
tehnici privind IR (Information Retrieval)
căutări bazate pe similaritate – similarity search
recurgând la învățare automată
clasificarea conținutului hipermedia
social network analysis – bibliometrie, prestigiu,…
![Page 75: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/75.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Page Rank (Google)Larry Page & Sergey Brin, 1998
evaluarea relevanței pe baza contextului de apariție
exploatarea relațiilor dintre diferite pagini Web
o legătură de la resursa A la B reprezintăun vot dat resursei B de către A
infolab.stanford.edu/~backrub/google.html
![Page 76: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/76.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
motoare: relevanță
Actualmente, se iau în considerațieconcepte (cunoștințe), nu cuvinte
“things, not strings”
de vizionat prezentareaM. Lanthaler, “The Future of the Web– From Strings to Things” (2015)
vimeo.com/133137907
![Page 77: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/77.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Motoarele tind să „recompenseze” siturile:
de mari dimensiuni
cu viață lungă
specializate, de „nișă”
aparținând unor autorități de încredere
motoare: relevanță
![Page 78: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/78.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
timp strategie
înainte de 2000
conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)
2000—2010conținutautoritate (via legături desemnate de URL-uri)
2010—prezent
conținutautoritatepersonalizare (social media + profil utilizator)
2012—prezent
conținutautoritatepersonalizareconcepte (date structurate + Web of data)context (localizare geo, limbă, timp, dispozitiv,…)
adaptare după (K. Bodnar & J. Hopkins, 2011)de studiat și www.slideshare.net/randfish/presentations
![Page 79: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/79.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
coInstrumente software open source pentru implementatori: Apache Lucene, Apache Nutch, Apache Solr,
mnoGoSearch, Namazu, Xapian,…
API-uri publice: www.programmableweb.com/category/search
disponibilitatea datelor indexate în regim deschis în vederea analizării ulterioare:
commoncrawl.org
![Page 80: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/80.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
SERP (Search Engine Result Page)
specifică maniera de redare a rezultateloroferite de motorul de căutare
motoare: afișarea rezultatelor
![Page 81: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/81.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
SERP (Search Engine Result Page)
se includ recomandări pe baza:preferințelor utilizatorului
istoricului căutărilorURL-urilor partajate via rețele sociale
meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocalizării geografice (local search)
motoare: afișarea rezultatelor
![Page 82: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/82.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
a se considera și DuckDuckGo Instant Answers: duck.co/ia
motorul de căutareDuckDuckGo este axat
asupra asigurării intimitățiiutilizatorului în ceea ce privește
căutările acestuia pe Web
![Page 83: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/83.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
“At any one time you rank #1 or #8 or #40based on who is searching, where they search,
and what is happening.”
K. Bodnar & J. Hopkins, 2011
![Page 84: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/84.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
În ce mod prezentăm conținutulaltor clienți – diferiți de cei umani?
![Page 85: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/85.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
SEO – Search Engine Optimization
suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate
a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate
cu un instrument de căutare
![Page 86: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/86.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Structurarea codului-sursă al documentelor Web
Structurarea conținutului (textual, grafic,…)
Structurarea legăturilor cu alte resurse
![Page 87: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/87.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)
titluri plasate ierarhic via elementele <h1>, <h2>,…
conținut tabelar cu <table>
aranjament vizual (layout)via stiluri CSS și nu tabele (<table> <tr>…)
![Page 88: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/88.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)
divizarea conținutului: <section> <article> <header> <footer> <aside> etc.
marcajarea elementelor vizând navigabilitatea cu <nav>
liste specificate cu <ul> <ol> <li>
…
![Page 89: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/89.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
h1
nav
aside
section
h2
ul
h2
articlep
header
![Page 90: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/90.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)
conținut textual alternativ pentru imagini (<img alt="..." />), legături (<a title="...">), tabele (<table summary="...">),
multimedia,…
atașarea de meta-date externe în antetul paginii Web via <head>, <meta /> și <link />
Josh Buchea, A free guide to <head> elements – gethead.info
![Page 91: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/91.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)
de evitat elementele învechite – e.g., cadre (frame-uri) –sau proprietare (<blink> ori <marquee>)
documentul trebuie să fie bine-formatatverificarea corectitudinii codului HTML cu instrumentul
oferit de Consorțiul Web – validator.w3.org
a se considera și html5boilerplate.com
![Page 92: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/92.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
coConținutul primează – content is king
o importanță majoră o are titlul paginiiUntitled Document – aproape 63 de milioane de rezultate
situl trebuie actualizat periodic, frecvent
numele fișierelor (imagini, stiluri,…) conteazătehnică utilă:
„rescrierea” URL-urilor – e.g., mod_rewrite la Apache
anumite date pot fi „ascunse” de roboți via robots.txt
![Page 93: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/93.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Realizarea legăturilor între pagini (hipermedia)
obligatoriu, de inclus legături spre alte resurse(ale sitului propriu ori ale altor situri)
dorim legături spre/de la situri importanteavând conținut similar cu situl nostru
de verificat și menținut structura hipertextuluiinstrumentul LinkChecker – validator.w3.org/checklink
![Page 94: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/94.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Realizarea legăturilor între pagini (hipermedia)
de citit cap. 2 din S. Buraga, Proiectarea siturilor Web, Polirom, 2005www.slideshare.net/busaco/sabin-buraga-proiectarea-siturilor-web
tehnici clasiceașa-zis „demodate”:
interschimb de adrese(link-uri) – banner-e, blogroll-uri
marketing bazat pe contexte.g., produse/servicii înrudite
![Page 95: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/95.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Realizarea legăturilor între pagini (hipermedia)
recurgerea la aplicații Web socialeSMO – Social Media Optimization
partajare în rețeaua de „prieteni”,apreciere, comentarii, opinii,…
S. Buraga, Design Patterns for Social (Web/mobile) Interactions, prelegere la materia Human-Computer Interaction, FII, UAIC, 2019
profs.info.uaic.ro/~busaco/teach/courses/hci/hci-film.html#week7
![Page 96: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/96.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Realizarea legăturilor între pagini (hipermedia)
de evitat paginile de eroare – 404 Not Found
orice pagină de eroare poate fi „convertită”într-o resursă folositoare omului/robotului
uzual, se oferă harta sitului (site map), legături relevante, motor intern de căutare,…
alistapart.com/article/perfect404
alistapart.com/article/amoreuseful404
![Page 97: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/97.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Realizarea legăturilor între pagini (hipermedia)
a nu se folosi navigarea bazată pe JavaScript ori – mai desuet – pe tehnologii proprietare (Flash/Silverlight)
<p>participanții: <a href="javascript:sari(3);">aici</a></p>
<h5><a href="javascript:window.history.back();">la prima pagină</a></h5>
![Page 98: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/98.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Alte aspecte de interes despre SEO?
![Page 99: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/99.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Specificarea structurii unui sit Web
crearea documentului sitemap.xml
pentru a fi ulterior procesat de motorul de căutare
www.sitemaps.org/protocol.html
complementar fișierului robots.txt
furnizează structura hipertext a unui sit Web
datele pot fi furnizate și în formatele Atom, RSS și text obișnuit
![Page 100: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/100.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Specificarea structurii unui sit Web
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://developer.mozilla.org/en-US/docs/Archive</loc>
<lastmod>2019-12-10</lastmod>
</url>
<!-- alte elemente url -->
</urlset>
cazuri concrete:developer.mozilla.org/sitemap.xml
techcrunch.com/sitemap.xml
instrument Web de generare: www.xml-sitemaps.com
![Page 101: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/101.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Evitarea spam-ului Web
e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri
motoarele de căutare detectează + penalizează spam-ul!searchenginewatch.com/?s=spam
![Page 102: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/102.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit,în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
black-hat page cloakingtehnică penalizată: support.google.com/webmasters/answer/66355
![Page 103: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/103.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Oferirea de conținut via documenteadoptând formate de date nestandardizate
Titluri identice pentru toate paginile unui sit
Pagini de eroare oferite de servervia codul de stare HTTP 200 Ok
Redirecționări incorecte/malițioase
Abuzul de transferuri asincrone (Ajax)
de evitat
![Page 104: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/104.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg
accesibilitatea – utilizatorii cu nevoi speciale
Web Accessibility Initiativewww.w3.org/WAI/
Web Accessibility in Mindwebaim.org
![Page 105: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/105.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg
performanța aplicațiilor Web
aspect important: timpul de încărcare a unei pagini Web
![Page 106: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/106.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Resurse de interes:
Google Webmaster Centraldevelopers.google.com/webmasters/
Learn SEO and Search Marketingmoz.com/learn/seo
Search Engine Landsearchengineland.com
Search Engine Watchsearchenginewatch.com
Search Engine Roundtablewww.seroundtable.com
Search Engines @ VideoLecturesvideolectures.net/Top/Computer_Science/Search_Engines
![Page 107: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/107.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Invisible Web (Deep Web)
acea parte a spațiului WWW care nu este detectată de motoarele de căutare sau
de alte tipuri de aplicații de regăsire a resurselordisponibile pe Web
![Page 108: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/108.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Dark Web
acea parte a spațiului informațional reprezentat de Deep Web care în mod intenționat e ascunsă
și inaccesibilă via navigatoare Web comune
exemplu notoriu:rețele anonime (VPN – Virtual Private Network)
accesate cu TOR Browser
![Page 109: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/109.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?
![Page 110: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/110.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Idee:specificarea unor meta-date direct în cadrul
documentelor HTML pentru a „explica” unui program (software – e.g., motor de căutare)
conținutul unei resurse Web
![Page 111: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/111.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Soluții actuale aliniate problematicilor Web-ului semantic – Web of Data
scheme de microdate HTML5 – schema.org
RDFa (standard al Consorțiului Web) – rdfa.info
![Page 112: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/112.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
specificație HTML Living Standard (6 decembrie 2019)
html.spec.whatwg.org/multipage/microdata.html
![Page 113: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/113.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
posibilitatea de a specifica perechi de proprietăținume—valoare „scufundate” în HTML
![Page 114: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/114.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
![Page 115: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/115.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
creare via atributul itemscope
stabilește și domeniul de vizibilitate
![Page 116: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/116.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
specificarea unei proprietăți prin atributul itemprop
![Page 117: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/117.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
referire cu ajutorul atributului itemref
![Page 118: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/118.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
asocierea unui tip de date se face cu atributul itemtype
![Page 119: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/119.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
pentru identificarea unui item se folosește itemid
![Page 120: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/120.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Există o serie de modele de date(exprimate via microdate)ce pot fi indexate și folosite
de actualele motoare de căutare?
![Page 121: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/121.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
schema.org
colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare
istoric și viziune:R. Wallis, “Schema.org: Structured Data – What, Why, & How”, 2018
www.slideshare.net/rjw/schemaorg-structured-data-the-what-why-how-125885618
![Page 122: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/122.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
schema.org
colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex
amănunte la schema.org/docs/gs.html
modeleconceptuale
![Page 123: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/123.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
![Page 124: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/124.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
tipurile primare de date definite de schema.org
![Page 125: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/125.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
diverse proprietăți ce relaționează Integer cu alte concepte
![Page 126: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/126.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Thing – schema cea mai generală, incluzând conceptualizări(clasificări realizate riguros)
Action
BroadcastService
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Class
Property
![Page 127: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/127.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Person – modelează conceptul „persoană”http://schema.org/Person
![Page 128: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/128.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
MusicRecording – specifică o înregistrare muzicală (sub-clasă a conceptului CreativeWork)
![Page 129: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/129.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
schema.org
relațiile dintre entități sunt precizate via proprietăți
![Page 130: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/130.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"><span itemprop="name">Tuxy Unlimited</span><div itemprop="address" itemscope=""
itemtype="http://schema.org/PostalAddress"><span itemprop="streetAddress">Banchiza, 1</span><span itemprop="addressLocality">Iasi</span>,<span itemprop="addressRegion">Iasi</span><span itemprop="postalCode">700550</span>
</div>Phone: <span itemprop="telephone">+4032201090</span><a href=
"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a>
</div>
fapte vizând domeniul imobiliar
…pe baza modelului conceptual schema.org
![Page 131: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/131.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
<p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">This discipline is taught by
<span itemprop="honorificPrefix">Dr.</span> <a href="https://profs.info.uaic.ro/~busaco/"
title="Visit the Website of Sabin-Corneliu Buraga" itemprop="url"><span itemprop="name">
<span itemprop="givenName">Sabin</span>-<span itemprop="additionalName">Corneliu</span> <span itemprop="familyName">Buraga</span>
</span></a>.
</span></p>
specificarea (adnotarea explicită a) faptului: „entitatea având numele Sabin-Corneliu Buraga este o persoană, posedă titlul Dr. și are situl Web propriu
disponibil la adresa https://profs.info.uaic.ro/~busaco/”
![Page 132: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/132.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
<section id="web-nodejs"><h2>Web Supplement</h2><ul>
<li itemscope="" itemtype="http://schema.org/CreativeWork"itemid="#nodejs" class="lecture"><p>Tutorial: <a itemprop="url" title="…"
href="presentations/web-nodejs.pdf"><span itemprop="name">Web Application Development
with Node.js</span></a></p><div class="terms" itemprop="keywords"> Web, development, server,
Node.js, JavaScript, programming, npm, tools</div></li>…
</ul></section>
specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform schema.org
![Page 133: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/133.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
extragerea/verificarea de date structurate via Structured Data Testing Tool – search.google.com/structured-data/testing-tool
![Page 134: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/134.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
extragerea informațiilor din HTML5aici, despre prelegerile asociate unei materii
![Page 135: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/135.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
<article itemscope="" itemtype="http://schema.org/Event"><section id="contest">
<h2>Tema</h2><p itemprop="description">Concursul este destinat studenților<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">
<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII><span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span>
și constă în optimizarea conținutului și structurii unui sit Web.</p>…<p>Perioadă de desfășurare: <span itemprop="startDate" content="2018-10-15T00:00">15 octombrie 2018</span>—<strong><span itemprop="endDate" content="2019-01-07T17:00">7 ianuarie 2019, ora 17:00</span></strong>.</p>
</section>…</articol>
pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare (Place)
![Page 136: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/136.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi
![Page 137: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/137.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
inspectarea datelor structurate cu OpenLink StructuredData Sniffer – extensie de browser: osds.openlinksw.com
specificarea meta-datelor privitoare la instanța de Article
aici, o instanță ImageObject
![Page 138: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/138.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
<div itemscope="" itemtype="http://schema.org/Product"><img itemprop="image" src="tux-de-catifea-cu-paiete.jpg" /><span itemprop="name" lang="ro">Tux de catifea cu paiete</span>
<div itemprop="aggregateRating"itemscope="" itemtype="http://schema.org/AggregateRating"><span itemprop="ratingValue">74</span>din <span itemprop="bestRating">100</span> de punctepe baza a <span itemprop="ratingCount">33</span> de evaluări ale utilizatorilor
</div>
<div itemprop="offers" itemscope=""itemtype="http://schema.org/AggregateOffer">disponibil de la
<span itemprop="lowPrice">30</span> la <span itemprop="highPrice">130</span> de RON pe baza ofertei a <span itemprop="offerCount">10</span> comercianți
Oferta zilei:<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">
<a itemprop="url" href="http://jucarii.biz/tucsi/tux-catifea-paiete">Jucării de sărbători pentru toți, acum și cu paiete!</a>
</div></div>
</div>modelarea cunoștințelor privind
produse și oferte comerciale
![Page 139: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/139.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
alte exemplificări: pinterest.com/kidehen/structured-metadata-related/
TripAdvisor
construcții RDFa utilizând Open Graph Protocol (Facebook) – ogp.me
utilizarea conceptelor Country și AggregateRating
![Page 140: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/140.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
acțiuni asociate vizualizării unui produs (instanță a clasei Product) – detalii la schema.org/docs/actions.html
vezi și Increase user engagement with actions in emailsdevelopers.google.com/gmail/markup/
eBay
acțiuni ce pot fi efectuate de utilizator(ViewAction e sub-concept al Action)context: dispozitive mobile, e-mail,…
![Page 141: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/141.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Diverse utilizări practice:
artefacte culturalevezi prezentările lui A. Isaac despre Europeana
www.slideshare.net/antoineisaac/presentations
biblioteci digitale (digital libraries)R. Wallis, prelegeri la Smart Data’15, BIBFRAME’18,…
www.slideshare.net/rjw/presentations
lucrări științificeformatul Scholarly HTML
w3c.github.io/scholarly-html/
medicină + sănătateschema.org/docs/meddocs.html
health-lifesci.schema.org
![Page 142: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/142.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Diverse utilizări practice:
finanțeextensia schema.org privitoare la FIBO (Financial Industry Business Ontology)
wiki.edmcouncil.org
schema.org/FinancialProduct
industria autoauto.schema.org
IoT (Internet of Things)iot.webschemas.org/docs/iot-gettingstarted.html
turismC. Bizer, Schema.org Annotations in Websites. Opportunities
& Challenges for the Tourism Industry, TFF’15www.slideshare.net/TourismFastForward/bizer-christian-schema-orgtourism
![Page 143: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/143.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scheme de microdate HTML5în sistemele de management de conținut
(CMS – Content Management Systems)
M. Mössmer, Schema.org Plugins for CMS Systems (2014)oc.sti2.at/sites/default/files/schemaorg_cmsplugins.pdf
![Page 144: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/144.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Scheme de microdate HTML5în sistemele de management de conținut
DokuWikiwww.dokuwiki.org/plugin:semantic
Joomlaextensions.joomla.org/extension/google-structured-data-markup
MediaWikiwww.mediawiki.org/wiki/Extension:GoogleRichCards
TYPO3extensions.typo3.org/extension/schema_org/
WordPresswordpress.org/plugins/all-in-one-schemaorg-rich-snippets/
![Page 145: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/145.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
statistici vizând includerea de meta-date
direct în codul HTMLtrends.builtwith.com/docinfo
![Page 146: Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea sistemelor Web (re)găsirea resurselor Web 🕸 de la motoare de căutare și SEO](https://reader030.fdocuments.in/reader030/viewer/2022041116/5f286a2d911cc944c31e937b/html5/thumbnails/146.jpg)
Dr.
Sab
in B
ura
ga
profs.in
fo.uaic.ro/~busa
co
Microdatele HTML5 sunt indexate de motoarele de căutare
Bing Webmastertinyurl.com/b9mx2f2
Google Structured Datadevelopers.google.com/structured-data/
research.googleblog.com/search/label/schema.org
Yandex Webmasteryandex.com/support/webmaster/schema-org/