大數據核心關鍵技術

主辦單位 idslab 聯絡主辦單位
  • 會議名稱:大數據核心關鍵技術
  • 時間:105年11月30日(星期三)中午12:30~17:30
  • 地點:國立中山大學管理學院管CM 3051電腦教室
  • 人數:50人
  • 參加對象:本校教職員生
  • 講師:陳松林 老師
  • 講師簡介:
  1. 中國文化大學兼任講師 5 年
  2. IBM訓練中心
  3. 具有 25 年豐富的教學經驗(目前於今年4月輔導SCJP證照共有51人,其中有3位學員考照考績達100%、25位學員考照考績達90%)   於資訊相關工作領域,產業實務經驗豐富(資深企業 IT 顧問、IBM Java 課程講師、微軟 Office 2003 XML   TPrep講師、微軟資深顧問、微軟認證工程師(MCSE)、微軟認證講師(MCT)、華經(Turbo C++)電腦語言專任講師、中美通電腦顧問、資深顧問團技術總監、倚天資訊專欄作家、ACM   亞洲區程式設計比賽裁判)
  • 課程介紹:

''何謂 BIg Data ?''

Big Data 含括三種層面: 巨量、即時性及多樣性。

1. 巨量 (Volume) – 大數據的特色就在於: 龐大。 企業資料包羅萬端,很容易便達到數兆位元組,甚至千兆位元組之譜。(1)Facebook一天有32億筆使用者所產生的po、按讚、回覆…等資訊,故一個月將近1200億筆的資料,這是關聯式資料庫無法處理的,所以NoSQL(Not Only SQL)因此誕生。(2)以Youtube一天的影片上傳量來說,若一個人要全部看完,所需花的時間會來到80年,故窮盡一生若你會長壽的最多看個兩天也很了不起了。

2. 即時性 (Velocity) – 海量資料通常具有時效性,一旦串流至企業便須立即使用,方能發揮其最大價值。另外,要注意的是有些網站是24小時流量跟資料不斷湧入,面對這種情況,我們通常可以把他稱為『data stream』,此時data stream type的data mining將成為一個有趣的議題。因為在此環境下,資料永遠沒有穩態的一天,量隨時再增加,傳統的資料挖掘方式得被迫重新思考其方式。

3. 多樣性 (Variety) – 海量資料的範疇不僅止於結構化資料,還包含各類非結構化的資料: 諸如文字、音訊、視訊、點擊串流 (click stream)、日誌檔等等。如何去妥善描繪圖片、影音檔的內容也成為一大議題。資料的運用不在是下了幾行sql語法就可以全部撈出來,因為更多的資訊藏匿在圖片跟影片之中。常見的手法可分為:(1) Meta description mode,在此模式下會將這些影音檔,設定好的描述資料(亦即metadata)來陳述之,之後用一個XML檔來對應一部影片檔,如此才可以從XML去瞭解哪寫圖片想關聯性?哪些影片該如何推薦。(2) Behavior analysis mode,在此模式下會去記錄user behavior的關聯,從使用者行為去歸納,下一個使用者點擊某一內容時,跟它的行為模式最相近的群體其接下來最感興趣的會是什麼,就由大眾的力量來勾勒出群體模式。

這 3 個資料特性,已經是現在式,而不是未來式。然而該如何解決日漸緊迫的巨量資料處理問題呢?像 Facebook、Twitter 這樣面臨資料量大爆炸的網路公司,開始用 Hadoop、NoSQL 等新興技術來解決問題。

 

''挑戰還是機會?''

Big Data 不只是一項挑戰, 更是絕佳的機會,讓您能夠洞悉新興的資料類型、使企業運作更加靈敏並為過往所無法企及的問題提供解答。 但在此之前,這種機會並無實際方法可以掌握。 今天,Big Data 平台採用 Hadoop 等技術,能為充滿各種可能性的世界開啟一扇大門。

 

''Hadoop 技能有高度需求''

由於成長型企業在Hadoop和相關技術方面的興趣,同時也推動了企業在大數據(big data)方面的專業人力需求,而資料科學家和資料管理師將獲得大鳴大放的機會。

在紐約舉辦的 Hadoop World 會議上,分析師和IT經理人一再指出,採用 Hadoop 技術的公司面臨的主要挑戰之一就是技術可用性(skills availability),並表示具有 Hadoop 技能的人同時也掌握了更多收入。

Hadoop 允許企業儲存和管理的結構化或非結構化資料的資料量,遠遠大於今日的 RDBMS(關連式資料庫管理系統)所能處理的量,而且經濟實惠。

在這方面技術有需求的企業數量一直不斷成長,為了儲存和分析像 weblogs 的 Peta 級資料量、點擊串流資料和社交媒體內容,以對他們的顧客和生意有更深入的了解。由於越來越多企業的投入,也使得高階分析人才需求度不斷增加,這包含在以下方面具有專長的人:像是多變量分析、資料探勘、預測模型、自然語言處理,內容分析,文字分析與和社交網路分析,Kobielus 說。「就廣義的大數據(尤其是 Hadoop )來說,這些企業應用的需求同時也驅動了企業對IT專才的需求,企業更需要能夠在使用進階分析方法上(像是為了預測和統計模型的 MapReduce 和R)有經驗的人才,」Kobielus 說,因為資料科學家們可以利用 Hadoop 的環境,來處理結構化或非結構化資料,以提商務智慧和洞察力。

  • 課程大綱:

第一章 認識 Big Data
1.1 The 3 Core V’s of Big Data
1.2 Big Data Core 3V 擁有成本
1.3 Big Data 技術人才養成

 

第二章 虛擬及軟體貨櫃技術
2.1 Typ1/2虛擬化技術
2.2 Docker 軟體貨櫃技術

 

第三章 Hadoop 生態系統核心技術
3.1 HDFS 分散檔案系統
3.2 YARN 分散運算系統
3.3 Hadoop 核心系統特性

 

第四章 Hadoop 原生分析工具
4.1 Apache Pig 資料分析工具(ELT)
4.2 Apache Hive 資料倉儲分析工具

  • 報名方式:
  1. 報名網址:http://idslab.kktix.cc/events/fdf45498
  2. 本研討會為免費參加,座位限制為50人,額滿為止。
  3. 本研討會中午不提供便當,敬請與會者自理。
  4. 連絡人:張先生。電話:(07)5252000轉4755,E-mail: 

活動票券

票種 販售時間 售價
一般票

~ 2016/11/30 17:30(+0800) 結束販售
  • 免費
下一步