Data deluge/Adatáradat
Click here to load reader
-
Upload
zoltan-varju -
Category
Technology
-
view
384 -
download
0
description
Transcript of Data deluge/Adatáradat
Adataradat“Nem a problemak megoldasa a nehez, hanem az, hogy
mikent vessuk fel oket.”
Varju Zoltan
Weblib Kft.
2012-06-23
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 1 / 6
A keresestol az adataradatig
Dean - Ghemawat: MapReduce: Simplified Data Processing onLarge Clusters
Halevy - Norvig - Pereira: The Unreasonable Effectiveness of Data
Hadoop
NoSQL (Couchbase, MondoDB, stb.)
statisztika - adatbanyaszat - gepi tanulas - adattudomany
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 2 / 6
A keresestol az adataradatig
Dean - Ghemawat: MapReduce: Simplified Data Processing onLarge Clusters
Halevy - Norvig - Pereira: The Unreasonable Effectiveness of Data
Hadoop
NoSQL (Couchbase, MondoDB, stb.)
statisztika - adatbanyaszat - gepi tanulas - adattudomany
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 2 / 6
A big data majd megold mindent?
Kelloen nagy adathalmazon egyszeru n-gram modellek jobbanteljesıtenek mint szofisztikalt tarsaik.
Nyelveszeti megkozelıtesben a generatıv iskola es a probabilisztikusmegkozelıtes viaskodik.
Bender - Good: A Grand Challenge for Linguistics: Scaling Upand Integrating Models
Radikalisan at kell gondolnunk eddigi elmeleteinket.
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 3 / 6
A big data majd megold mindent?
Kelloen nagy adathalmazon egyszeru n-gram modellek jobbanteljesıtenek mint szofisztikalt tarsaik.
Nyelveszeti megkozelıtesben a generatıv iskola es a probabilisztikusmegkozelıtes viaskodik.
Bender - Good: A Grand Challenge for Linguistics: Scaling Upand Integrating Models
Radikalisan at kell gondolnunk eddigi elmeleteinket.
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 3 / 6
Regi problemak uj kontosben
“In 1998, Merrill Lynch cited estimates that as much as 80% of allpotentially usable business information originates in unstructuredform.”
— http://en.wikipedia.org/wiki/Unstructured_data
Hogyan tudjuk kinyerni az informaciot a strukturalatlan adatokbol?
Szovegbanaszat es szovegfeldolgozas problemainak atfogalmazasamapreduce kerdesekre (Lin es Dyer: Data-Intensive TextProcessing with MapReduce)
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 4 / 6
A Hadoop okoszisztema megoldasai
Mahout http://mahout.apache.org/ - skalazhato algoritmusokgepi tanulasra Hadoop-on
Integralas analitikai eszkozokkel (pl. R): Cloudera, Greenplum,RevolutionAnalytics
Radoop http://signup.radoop.eu/ - a RapidMiner vizualiselemzokornyezetre epıtve kınal megoldasokat
InfoHarvester http://weblib.hu/termekeink/infoharvester -kifejezetten strukturatlan adatokkal foglalkozik, iranyıtott crawler azadatok begyujtesere, integralt analitikai es szovegbanyaszatimegoldasok
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 5 / 6
A Hadoop okoszisztema megoldasai
Mahout http://mahout.apache.org/ - skalazhato algoritmusokgepi tanulasra Hadoop-on
Integralas analitikai eszkozokkel (pl. R): Cloudera, Greenplum,RevolutionAnalytics
Radoop http://signup.radoop.eu/ - a RapidMiner vizualiselemzokornyezetre epıtve kınal megoldasokat
InfoHarvester http://weblib.hu/termekeink/infoharvester -kifejezetten strukturatlan adatokkal foglalkozik, iranyıtott crawler azadatok begyujtesere, integralt analitikai es szovegbanyaszatimegoldasok
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 5 / 6
Koszonom a figyelmet
Kereso Vilag http://kereses.blog.hu/
Szamıtogepes nyelveszethttp://szamitogepesnyelveszet.blogspot.com/
Twitter: @zoltanvarju
Email: [email protected]
Varju Zoltan (Weblib Kft.) Adataradat 2012-06-23 6 / 6