Name: 大數據核心關鍵技術
Start: 2016-11-30T12:30:00.000+08:00
End: 2016-11-30T17:30:00.000+08:00
Location: 國立中山大學管理學院管CM 3051電腦教室

會議名稱：大數據核心關鍵技術
時間：105年11月30日(星期三)中午12:30~17:30
地點：國立中山大學管理學院管CM 3051電腦教室
人數：50人
參加對象：本校教職員生
講師：陳松林老師
講師簡介：

中國文化大學兼任講師 5 年
IBM訓練中心
具有 25 年豐富的教學經驗(目前於今年4月輔導SCJP證照共有51人，其中有3位學員考照考績達100%、25位學員考照考績達90%) 於資訊相關工作領域，產業實務經驗豐富(資深企業 IT 顧問、IBM Java 課程講師、微軟 Office 2003 XML TPrep講師、微軟資深顧問、微軟認證工程師(MCSE)、微軟認證講師(MCT)、華經(Turbo C++)電腦語言專任講師、中美通電腦顧問、資深顧問團技術總監、倚天資訊專欄作家、ACM 亞洲區程式設計比賽裁判)

課程介紹：

''何謂 BIg Data ？''

Big Data 含括三種層面：巨量、即時性及多樣性。

1. 巨量 (Volume) – 大數據的特色就在於：龐大。企業資料包羅萬端，很容易便達到數兆位元組，甚至千兆位元組之譜。(1)Facebook一天有32億筆使用者所產生的po、按讚、回覆…等資訊，故一個月將近1200億筆的資料，這是關聯式資料庫無法處理的，所以NoSQL(Not Only SQL)因此誕生。(2)以Youtube一天的影片上傳量來說，若一個人要全部看完，所需花的時間會來到80年，故窮盡一生若你會長壽的最多看個兩天也很了不起了。

2. 即時性 (Velocity) – 海量資料通常具有時效性，一旦串流至企業便須立即使用，方能發揮其最大價值。另外，要注意的是有些網站是24小時流量跟資料不斷湧入，面對這種情況，我們通常可以把他稱為『data stream』，此時data stream type的data mining將成為一個有趣的議題。因為在此環境下，資料永遠沒有穩態的一天，量隨時再增加，傳統的資料挖掘方式得被迫重新思考其方式。

3. 多樣性 (Variety) – 海量資料的範疇不僅止於結構化資料，還包含各類非結構化的資料：諸如文字、音訊、視訊、點擊串流 (click stream)、日誌檔等等。如何去妥善描繪圖片、影音檔的內容也成為一大議題。資料的運用不在是下了幾行sql語法就可以全部撈出來，因為更多的資訊藏匿在圖片跟影片之中。常見的手法可分為：(1) Meta description mode，在此模式下會將這些影音檔，設定好的描述資料(亦即metadata)來陳述之，之後用一個XML檔來對應一部影片檔，如此才可以從XML去瞭解哪寫圖片想關聯性？哪些影片該如何推薦。(2) Behavior analysis mode，在此模式下會去記錄user behavior的關聯，從使用者行為去歸納，下一個使用者點擊某一內容時，跟它的行為模式最相近的群體其接下來最感興趣的會是什麼，就由大眾的力量來勾勒出群體模式。

這 3 個資料特性，已經是現在式，而不是未來式。然而該如何解決日漸緊迫的巨量資料處理問題呢？像 Facebook、Twitter 這樣面臨資料量大爆炸的網路公司，開始用 Hadoop、NoSQL 等新興技術來解決問題。

''挑戰還是機會？''

Big Data 不只是一項挑戰，更是絕佳的機會，讓您能夠洞悉新興的資料類型、使企業運作更加靈敏並為過往所無法企及的問題提供解答。但在此之前，這種機會並無實際方法可以掌握。今天，Big Data 平台採用 Hadoop 等技術，能為充滿各種可能性的世界開啟一扇大門。

''Hadoop 技能有高度需求''

由於成長型企業在Hadoop和相關技術方面的興趣，同時也推動了企業在大數據(big data)方面的專業人力需求，而資料科學家和資料管理師將獲得大鳴大放的機會。

在紐約舉辦的 Hadoop World 會議上，分析師和IT經理人一再指出，採用 Hadoop 技術的公司面臨的主要挑戰之一就是技術可用性(skills availability)，並表示具有 Hadoop 技能的人同時也掌握了更多收入。

Hadoop 允許企業儲存和管理的結構化或非結構化資料的資料量，遠遠大於今日的 RDBMS（關連式資料庫管理系統）所能處理的量，而且經濟實惠。

在這方面技術有需求的企業數量一直不斷成長，為了儲存和分析像 weblogs 的 Peta 級資料量、點擊串流資料和社交媒體內容，以對他們的顧客和生意有更深入的了解。由於越來越多企業的投入，也使得高階分析人才需求度不斷增加，這包含在以下方面具有專長的人：像是多變量分析、資料探勘、預測模型、自然語言處理，內容分析，文字分析與和社交網路分析，Kobielus 說。「就廣義的大數據（尤其是 Hadoop ）來說，這些企業應用的需求同時也驅動了企業對IT專才的需求，企業更需要能夠在使用進階分析方法上（像是為了預測和統計模型的 MapReduce 和R）有經驗的人才，」Kobielus 說，因為資料科學家們可以利用 Hadoop 的環境，來處理結構化或非結構化資料，以提商務智慧和洞察力。

課程大綱：

第一章認識 Big Data
1.1 The 3 Core V’s of Big Data
1.2 Big Data Core 3V 擁有成本
1.3 Big Data 技術人才養成

第二章虛擬及軟體貨櫃技術
2.1 Typ1/2虛擬化技術
2.2 Docker 軟體貨櫃技術

第三章 Hadoop 生態系統核心技術
3.1 HDFS 分散檔案系統
3.2 YARN 分散運算系統
3.3 Hadoop 核心系統特性

第四章 Hadoop 原生分析工具
4.1 Apache Pig 資料分析工具(ELT)
4.2 Apache Hive 資料倉儲分析工具

報名方式：

報名網址：http://idslab.kktix.cc/events/fdf45498
本研討會為免費參加，座位限制為50人，額滿為止。
本研討會中午不提供便當，敬請與會者自理。
連絡人：張先生。電話：(07)5252000轉4755，E-mail:

課程講座

大數據核心關鍵技術

活動票券