¼ ò » / & i ¤H UH ? ¡ 1 月眉書訊 ·...

2
ϲ ڌරጯဦ३िಡጱ 207 中華民國一四年十二月出版 中華民國八十三年十一月創刊 發行人/黃振榮 編輯/周小萍 連絡電話/(03)863-2838 傳真號碼/(03)863-2800 地址/97401 花蓮縣壽豐鄉大學路二段 1-20 中心首頁/http://www.lic.ndhu.edu.tw 月眉書訊 月刊 ~來自月眉山麓下的東華大學圖書資訊中心每月傳送的訊息~ 本期要目 從圖書推薦系統看巨量資料的浪潮 侯佳利 1、2 資源介紹:臺灣國家公園生物多樣性資料庫 2 好書介紹:堅持求勝 2 好書介紹:有種,請坐第一排 2 巨量資料(Big Data)是近年來熱門的資訊分 析議題,由於智慧型行動通訊的普及加上各種 社群網站、物聯網(IoT, Internet of Things)和雲 端運算(Cloud Computing)技術的興起,資訊的 累積量正以前所未有的速度在快速遞增當中。 人們已經習慣了無所不在的網路,因此也進一 步期待所有資訊都能透明公開的在網路呈現與 取得,開放資料(Open Data)的浪潮也隨之到來。 於是政府大量開放資料,再加上既有電子商務 交易資訊、社群網站複雜糾結的社交和評論資 訊以及從物聯網即時傳來的大量感測監控資訊, 這些浪潮都不斷考驗著資訊通訊技術 (ICT, Information Communication Technology) 的處理 能力。對於資訊人來說,這是最好的時代,也 是最艱苦的時代,因為過去難以取得的資訊、 做研究最難得的即時真實資訊現在都能在網路 上輕易取得,但同時又苦於大量資料的爆炸性 湧入,傳統技術難以有效的儲存、處理和支援 快速有效的分析。 巨量資料發展至今,得出了幾個關鍵的挑 戰,從最早被提出的三個 V,發展到了現在的 五個 V,前三個 V 分別是 Volume 指須能擁有 並處理龐大資料量的能力、Velocity 指所有資 料必須快速的存取和分析、Variety 指能處理資 料來源的多樣性以及資料型態格式的多變性。 然而當資料取得越容易,取得錯假資訊的機會 也越高,而且分析得出的因果關係是否正確可 靠也有很大的疑慮,因此增加了 Veracity 真實 性要求,如何辨真偽就成了新興的第四個 V而第五個 V 則是 Value,在付出了龐大的人力 物力投入成本後,如何能充分有效挖掘出資料 背後的價值,而不是迷失在海量資料當中,陷 入為巨量而巨量的迷思,就成了最重要的引導 方向。 以圖書館而言,無疑擁有了大量的書籍以 及大量讀者,兩者間進而交互產生了龐大的借 閱行為,我們不禁想,如何能從這些大量的資 訊行為加以分析找出一些可循的脈絡來,是否 就可以發展出圖書推薦系統,幫助讀者更快找 到感興趣的書,幫助圖書館更有效的流通龐大 的館藏,這種探究的興趣就是巨量資料興起的 原因。如何在資訊的瀚海中,篩選出有效的資 料,發掘出資料間有趣的關聯性,歸納出資訊 背後有用的運作規則,最終進而推衍出全新的 商業運作模式,創造資訊更大的價值和效益, 成了商業界和學術界共同探究的動力。 從圖書館中可以看到哪些巨量分析的縮影 呢?為了避免涉及隱私,透過圖書館取得已經 去除個人識別(姓名、學號等)後的資料,三 年時間約有百萬筆,經過整理分析後希望可以 發現書與書的關係、系所與系所之間的關係和 讀者與讀者之間的關係。例如分析可知,人文 社會科學學院的學生圖書借用率最高,平均每 人在三年內借了 93.43 本書,且相較於借閱率 最低的學院的 34.73 本,約為三倍的量。 其次,我們假設讀者在圖書館借書有兩大 目的,一是滿足其課業領域探索的專業需求, 二是滿足其休閒娛樂的興趣需求,如果能夠有 效區分這兩者的行為,可以讓我們在分析借閱 資料上有更好的歸納和整理方向。換言之,隸 屬於同樣研究領域的讀者,會有相同的專業需 求,因此對相似的專業書籍感興趣;而具有相 同興趣的讀者,同樣也會對相似的興趣書籍感 興趣。 研究上可能先取得讀者的專業領域和興趣 領域,也可能反過來透過借閱行為來分析推導 交互關係。透過進一步將讀者的專業領域來聚 類,從借閱紀錄上可以發現同一科系的學生專 業需求應該有高度的相似性,反之不同科系之 間的學生,其專業需求則有相當的差異性,相 異之處就是各系發展的不同專長特色所造成。 例如以中文圖書分類碼為例,資管系學生的專 業需求之一落在 31* 數學類,而生科系則為 36*生命科學類。而從興趣需求來看,173 一般 心理類和 857 小說類,都是最受學生歡迎的書 籍類別。所以,從資料的分析可以將讀者行為 歸納分析出有趣的規則,進一步透過這些規則, 就可以發展出個人化適性的圖書推薦系統。 書籍與書籍之間的關係,可以從書名、作 者、出版社、圖書分類號等來找出,例如從書 名來分析,透過中研院發展的斷詞服務系統, 我們可以分析出書名斷詞後的詞性和語詞,作 為書籍名稱間進一步比對的基礎,扣除虛字後 擁有較多字詞相似的書籍,其相關性就較高, 而具有相同主詞的書籍間也會有一定的關聯性。 同作者著作的書籍,彼此間在領域上也會有較 高的相似性,至於出版社也有類似的狀況,每 一個出版社都會有比較擅長的圖書領域,出版 的書籍就會偏向相似的領域。 如果能再進一步分析讀者查詢關鍵字的紀 錄,也可以進一步分析出讀者感興趣的主題, 進而找出最常用的關鍵字或近期最受矚目的書 籍類型等,若將時間的因子也一併考慮進來, 將能進一步提升圖書推薦的效果。又,如果能 添加部分個人資訊,例如辨識讀者和借閱紀錄 的關係,就可以進一步從既有的借閱紀錄,做 更貼切而精確的推薦。 「隱私問題」一直是巨量資料分析的一項 重大挑戰,舉例來說透過行動電話的發話軌跡 和信用卡的消費紀錄及家庭資訊,可以了解每 位消費者的消費習慣,進而主動推薦適合的商 店或產品的促銷資訊給消費者,例如當消費者 經過某家百貨公司附近時,就提醒您可以到該 專櫃購買女兒的生日禮物,有些消費者可能覺 得很貼心,但有些消費者就會覺得隱私被侵犯 了,尤其是有了個資法的保護,運用這些資訊 時會有更高的限制。無微不至的服務和侵犯隱 私之間往往只有一線之隔。 某知名的服飾品牌會透過結合物聯網的概 念,將專櫃裡每件衣服嵌入電子標籤,當產品 被翻動和進入試衣間試穿時,就可以即時偵測 和記錄相關的時間,再分析這些紀錄了解每個 產品從瀏覽、試衣到購入,會經過哪些不同的 程序和時間。某些產品對消費者而言可能具有 互補性,再進一步分析出容易銷售的衣服款式 中華民國一○四年十二月 月眉書訊 1 易筋經 從圖書推薦系統看巨量資料的浪潮 資訊管理學系 侯佳利助理教授 ★學生為了寫報告,如果「少量引用」他人的著作,是符合著作權法中合理使用的規定, 只要註明出處,就不會有侵害著作權的問題★

Transcript of ¼ ò » / & i ¤H UH ? ¡ 1 月眉書訊 ·...

  • 第 207 期

    中華民國一○四年十二月出版 中華民國八十三年十一月創刊

    發行人/黃振榮

    編輯/周小萍 連絡電話/(03)863-2838 傳真號碼/(03)863-2800

    地址/97401花蓮縣壽豐鄉大學路二段 1-20 號 中心首頁/http://www.lic.ndhu.edu.tw

    月眉書訊 月刊

    ~來自月眉山麓下的東華大學圖書資訊中心每月傳送的訊息~

    本期要目 ◆從圖書推薦系統看巨量資料的浪潮 侯佳利 1、2 版

    ◆資源介紹:臺灣國家公園生物多樣性資料庫 2版

    ◆好書介紹:堅持求勝 2 版 ◆好書介紹:有種,請坐第一排 2 版

    巨量資料(Big Data)是近年來熱門的資訊分

    析議題,由於智慧型行動通訊的普及加上各種

    社群網站、物聯網(IoT, Internet of Things)和雲

    端運算(Cloud Computing)技術的興起,資訊的

    累積量正以前所未有的速度在快速遞增當中。

    人們已經習慣了無所不在的網路,因此也進一

    步期待所有資訊都能透明公開的在網路呈現與

    取得,開放資料(Open Data)的浪潮也隨之到來。

    於是政府大量開放資料,再加上既有電子商務

    交易資訊、社群網站複雜糾結的社交和評論資

    訊以及從物聯網即時傳來的大量感測監控資訊,

    這些浪潮都不斷考驗著資訊通訊技術 (ICT,

    Information Communication Technology)的處理

    能力。對於資訊人來說,這是最好的時代,也

    是最艱苦的時代,因為過去難以取得的資訊、

    做研究最難得的即時真實資訊現在都能在網路

    上輕易取得,但同時又苦於大量資料的爆炸性

    湧入,傳統技術難以有效的儲存、處理和支援

    快速有效的分析。

    巨量資料發展至今,得出了幾個關鍵的挑

    戰,從最早被提出的三個 V,發展到了現在的

    五個 V,前三個 V 分別是 Volume 指須能擁有

    並處理龐大資料量的能力、Velocity 指所有資

    料必須快速的存取和分析、Variety 指能處理資

    料來源的多樣性以及資料型態格式的多變性。

    然而當資料取得越容易,取得錯假資訊的機會

    也越高,而且分析得出的因果關係是否正確可

    靠也有很大的疑慮,因此增加了 Veracity 真實

    性要求,如何辨真偽就成了新興的第四個 V。

    而第五個 V 則是 Value,在付出了龐大的人力

    物力投入成本後,如何能充分有效挖掘出資料

    背後的價值,而不是迷失在海量資料當中,陷

    入為巨量而巨量的迷思,就成了最重要的引導

    方向。

    以圖書館而言,無疑擁有了大量的書籍以

    及大量讀者,兩者間進而交互產生了龐大的借

    閱行為,我們不禁想,如何能從這些大量的資

    訊行為加以分析找出一些可循的脈絡來,是否

    就可以發展出圖書推薦系統,幫助讀者更快找

    到感興趣的書,幫助圖書館更有效的流通龐大

    的館藏,這種探究的興趣就是巨量資料興起的

    原因。如何在資訊的瀚海中,篩選出有效的資

    料,發掘出資料間有趣的關聯性,歸納出資訊

    背後有用的運作規則,最終進而推衍出全新的

    商業運作模式,創造資訊更大的價值和效益,

    成了商業界和學術界共同探究的動力。

    從圖書館中可以看到哪些巨量分析的縮影

    呢?為了避免涉及隱私,透過圖書館取得已經

    去除個人識別(姓名、學號等)後的資料,三

    年時間約有百萬筆,經過整理分析後希望可以

    發現書與書的關係、系所與系所之間的關係和

    讀者與讀者之間的關係。例如分析可知,人文

    社會科學學院的學生圖書借用率最高,平均每

    人在三年內借了 93.43 本書,且相較於借閱率

    最低的學院的 34.73 本,約為三倍的量。

    其次,我們假設讀者在圖書館借書有兩大

    目的,一是滿足其課業領域探索的專業需求,

    二是滿足其休閒娛樂的興趣需求,如果能夠有

    效區分這兩者的行為,可以讓我們在分析借閱

    資料上有更好的歸納和整理方向。換言之,隸

    屬於同樣研究領域的讀者,會有相同的專業需

    求,因此對相似的專業書籍感興趣;而具有相

    同興趣的讀者,同樣也會對相似的興趣書籍感

    興趣。

    研究上可能先取得讀者的專業領域和興趣

    領域,也可能反過來透過借閱行為來分析推導

    交互關係。透過進一步將讀者的專業領域來聚

    類,從借閱紀錄上可以發現同一科系的學生專

    業需求應該有高度的相似性,反之不同科系之

    間的學生,其專業需求則有相當的差異性,相

    異之處就是各系發展的不同專長特色所造成。

    例如以中文圖書分類碼為例,資管系學生的專

    業需求之一落在 31*數學類,而生科系則為

    36*生命科學類。而從興趣需求來看,173一般

    心理類和 857 小說類,都是最受學生歡迎的書

    籍類別。所以,從資料的分析可以將讀者行為

    歸納分析出有趣的規則,進一步透過這些規則,

    就可以發展出個人化適性的圖書推薦系統。

    書籍與書籍之間的關係,可以從書名、作

    者、出版社、圖書分類號等來找出,例如從書

    名來分析,透過中研院發展的斷詞服務系統,

    我們可以分析出書名斷詞後的詞性和語詞,作

    為書籍名稱間進一步比對的基礎,扣除虛字後

    擁有較多字詞相似的書籍,其相關性就較高,

    而具有相同主詞的書籍間也會有一定的關聯性。

    同作者著作的書籍,彼此間在領域上也會有較

    高的相似性,至於出版社也有類似的狀況,每

    一個出版社都會有比較擅長的圖書領域,出版

    的書籍就會偏向相似的領域。

    如果能再進一步分析讀者查詢關鍵字的紀

    錄,也可以進一步分析出讀者感興趣的主題,

    進而找出最常用的關鍵字或近期最受矚目的書

    籍類型等,若將時間的因子也一併考慮進來,

    將能進一步提升圖書推薦的效果。又,如果能

    添加部分個人資訊,例如辨識讀者和借閱紀錄

    的關係,就可以進一步從既有的借閱紀錄,做

    更貼切而精確的推薦。

    「隱私問題」一直是巨量資料分析的一項

    重大挑戰,舉例來說透過行動電話的發話軌跡

    和信用卡的消費紀錄及家庭資訊,可以了解每

    位消費者的消費習慣,進而主動推薦適合的商

    店或產品的促銷資訊給消費者,例如當消費者

    經過某家百貨公司附近時,就提醒您可以到該

    專櫃購買女兒的生日禮物,有些消費者可能覺

    得很貼心,但有些消費者就會覺得隱私被侵犯

    了,尤其是有了個資法的保護,運用這些資訊

    時會有更高的限制。無微不至的服務和侵犯隱

    私之間往往只有一線之隔。

    某知名的服飾品牌會透過結合物聯網的概

    念,將專櫃裡每件衣服嵌入電子標籤,當產品

    被翻動和進入試衣間試穿時,就可以即時偵測

    和記錄相關的時間,再分析這些紀錄了解每個

    產品從瀏覽、試衣到購入,會經過哪些不同的

    程序和時間。某些產品對消費者而言可能具有

    互補性,再進一步分析出容易銷售的衣服款式

    中華民國一○四年十二月 月眉書訊 第 1 版

    易筋經

    從圖書推薦系統看巨量資料的浪潮

    資訊管理學系 侯佳利助理教授

    ★學生為了寫報告,如果「少量引用」他人的著作,是符合著作權法中合理使用的規定,

    只要註明出處,就不會有侵害著作權的問題★

  •  

    中華民國一○四年十二月               月眉書訊               第 2 版

    ★圖書館設有討論室 4間及視聽聆賞室 3間,可供 3人以上進行小組討論及影片欣賞, GPN:006978900012 歡迎本校師生預約或當場借用,詳洽圖書館 1F 服務檯,服務電話(03)863‐2838★   工本費新台幣 15元

    館務短波

    《堅持求勝》林智勝的棒球人生 林秀滿 採訪編目組

    第 1 屆世界棒球 12 強賽剛落幕,雖然中華隊無緣晉

    八強,但是中華隊隊長林智勝在預賽 5 戰中敲出 4 支全

    壘打,連 4 戰開轟,獲得世界棒壘球總會(WBSC)宣布為

    全壘打王,是中華隊唯一得獎的球員。

    〔契機〕林智勝的棒球人生,是在莫名其妙的淚水中

    展開的,出身破碎的家庭,爸爸為了女人丟下他和一家

    人,媽媽又因為工作必須把他及其他兄弟姊妹留給阿公

    及親戚幫忙扶養,為了填飽肚子,九歲時被送到台南參加

    少棒隊,他的棒球之路就從這裡開始。

    〔挑戰〕棒球更挑戰了林智勝內心最黑暗的一面。現

    在看起來光鮮亮麗的全壘打王,一開始其實是個沒有自

    信,內心充滿恐懼的小孩。王子燦教練在他頭上套了緊箍

    咒,告訴他:「棒球只能贏,不能輸!」為了不犯錯,不

    要失誤,林智勝逼自己不斷的練習。林智勝從小就很好

    強,永遠想挑戰最困難的,他喜歡主宰全場的感覺想當投

    手,所以拼命練投,結果卻因而受傷,不得不放棄投手夢。

    〔轉變〕從投手丘走向打擊區,心變了,人也跟著變

    了:無法在投手丘壓制對手,就要在打擊區討回來。因此

    他屢屢創造新的打擊記錄。中華職棒 Lamigo 桃猿隊領隊

    劉玠廷說:「林智勝是台灣棒球的關鍵人物」。

    這本書記錄了很搞笑也很努力的林智勝,他用自己

    的人生證明了,無論你的夢想是什麼,只要堅持,一定可

    以實現。

    瞿欣怡住著 遠見天下出版, 本館索書號: 177.2/6679/2015

    《有種,請坐第一排》 “坐在第一排,你會發現一片嶄新的風景,甚至找到一

    個魔幻入口,抵達一個意想不到的人生。”

    人生能夠遇到一位好老師及好朋友在你的生命旅

    途當中適時拉你一把或點醒你,是何其有幸啊!本書作

    者蔡淇華老師有著特殊的青春歲月,就讀台中一中時,

    為了對抗霸凌,他曾帶水果刀上學,大學時又被當掉,

    讀了五年才畢業,現今蛻變成優秀人師,生命中的挫折

    反而成為教學的動力。除了在課堂上侃侃而談、循循善

    誘,還帶領學生走出校園,實際參與各類關心社會的行

    動,以親身實踐的方式引導學生關注教育、社會及國家

    大事等議題。

    作者常常引用前人的經驗,字字句句流露出深情與

    懇切,強調在能力比學歷重要的時代,面試工作時你要

    告訴主考官你做過什麼,比你懂什麼更重要,期望能帶

    領茫然的孩子們安然度過青春,具備萬全的能力面對未

    來的考驗。更希望邀請更多年輕人一起坐到第一排,勇

    敢地與磨練、機會面對面。

    【臺灣國家公園生物多樣性資料庫】 蔡淇華著, 時報文化出版, 本館索書號: 855/4434/2015 

    劉瓊芳 採訪編目組

    具有那些特點,就可以找出消費者喜歡的流行趨勢。而那些經常被翻看

    和試穿的產品,具有怎樣的特點,為什麼最終總是沒有被採購?如果能

    消除缺點突顯優點,就可能重新微調出熱銷的商品。同樣的,那些完全

    無法吸引客戶停駐翻看的產品,就應該及早下架並分析該產品失敗的

    原因加以克服。

    圖書館也可以透過分析借閱的紀錄,分析哪些書不被讀者青睞,哪

    些書架區罕有人踏足、哪些圖書未曾被翻動過,找出不受歡迎的原因或

    調整空間,重新定義罕用書籍,讓書籍陳列空間利用更有效率。透過廣

    泛的收集資訊、增加收集資訊的感應裝置、累積儲存收集的資訊,進而

    進行有效的分析,從資訊中獲取價值和創新的方向。

    資訊無時無刻都在發生,能收集、儲存、分析應用可能就是資源,

    若任其消失殆盡可能就是浪費,因此成本和效益都無時無刻在考驗著

    決策的智慧,巨量資料的浪潮帶了更多的機會也帶來了挑戰,巨量資料

    並非全新的議題,它結合了分散式運算、資料採礦、人工智慧、統計學、

    資料倉儲和商業智慧等基礎技術,每個環節的進步都將帶來更先進的

    分析效能,讓我們可以用更低的成本、更好的效能取得更多分析帶來的

    效益。

     

    侯佳利 博士

    國立中央大學資訊管理博士,

    現任東華大學資訊管理學系助

    理教授暨企業資源規劃中心執

    行秘書,從事巨量資料分析、商

    業智慧、機器學習、3D 列印、

    企業資源規劃及資訊安全方面

    之研究,協助推動企業資源規

    劃及商業智慧相關認證。

    您知道嗎?臺灣面積雖然只有小小的 3 萬 6 千平方公里,但因橫

    跨了亞熱帶與熱帶,所以造就出異常多元的生物種類與生態系統,是個

    在動、植物資源上皆十分豐富的美麗之島。為了保護這些多樣性的生物

    及生態環境,國家公園肩負了此重責大任。目前臺灣共有九座國家公

    園,總面積約佔全臺灣的 19%,對於園區內的多樣性生物,提供完整

    的保護機制。

    為讓國人能容易取得相關的資源,內政部營建署建置了【臺灣國家

    公園生物多樣性資料庫與知識平台】供大眾使用,除讓國人對目前國家

    公園內的動植物物種及整個環境系統有所認識,並在日益發展的生態

    旅遊產業中,喚起大眾共同保護生態資源環境的意識。

    (1)連線方式:圖書館首頁→電子資源→電子資料庫→臺灣國家公園生

    物多樣性資料庫

    (2)平台簡介:目前收錄資料約一千多種的脊椎動物(哺乳類、鳥類、

    爬蟲類、兩棲類與淡水魚類)與無脊椎動物的蝴蝶。

    資料庫首頁提供多種查詢方式,除了一般所熟知的「關鍵字查詢」

    外,還包括了「物種名稱」、「物種描述」、「物種查詢」、「保育類動物查

    詢」、「地圖查詢」等等,如想閱讀相關文章,也提供了「文獻查詢」功

    能。資料內容多以圖片、影片、聲音檔等輔以文字呈現,希望透過多媒

    體式的互動內容,以輕鬆的方式讓使用者認識這些美麗的小生命。

    104 年圖資週系列活動開跑!

    『舊愛新歡』好康大放送:將過期的一般性休閒雜誌及複本圖書贈予有需要的

    讀者,讓資源達到最有效利用。

    活動時間:104年 12月 7日至 12月 13日/圖書館一樓大廳

    『把愛傳下去』二手教科書捐贈:為協助經濟弱勢學生節省購書費用,並宣導

    尊重智慧財產權,促進教育資源再利用,歡迎校內、外人士共同響應捐書。

    活動時間:104年 12月 7日至 105 年 1月 17日

    地點:圖書館一樓服務臺

    方式:將欲捐贈之正版中、外文教學用教科書(必、選修科目之相

    關書籍)送至圖書館一樓服務檯。

    『數位著作權』專題演講:您必需要知道的數位時代的智慧財產權議題。

    活動時間:104年 12月 11 日下午 14:50-16:30

    活動地點:圖書館二樓多媒體放映室

    『心想事成』祈福許

    願活動,12/1-31 至

    圖書館一樓親手寫下

    您的感謝與祝福、期

    望與承諾。

    104-12-1-侯佳利104-12-02