Big Data Innovation Summit 2016 Day2 - 12/6

【主題演講】小米統計的億級大數據即時分析平台

Bio: 歐陽辰 www.ouyangchen.com 研發架構師

Believe: 大數據是接下來社會變革的原動力 (E.g. 過去能源, 電, 水, 煤氣) 

舉例:台北的機車很像大數據:4V: 快、變化多、量非常大、有用

大數據 vs 傳統的數據統計分析:

小米的大數據技術框架

小米的大數據應用 (E.g. 人臉群聚 ...)

小米的深度學習平台

初期運用開源工具進行開發,成熟後再貢獻回開源社群

小米統計

http://dev.xiaomi.com/console/

lambda架構   

   

成長的痛苦:

Spark / MR:數據量大到一個程度 Spark可能跑不起來,結論: Spark不一定比傳統的MR來的好

能Streaming就走Streaming:需求永遠會一直變, 速度也會要求更快

用硬體獲得收益

用開源軟件快速擴展

顯示DAU, Retention

為什麼選擇HBase?

如何同步自己的版本與官方的版本?

從MySQL轉移到HBase:

行動App統計2.0

Lambda架構 2.0

DRUID 加強即時分析能力 (v.s. Pinot - Developed by LinkedIn)

v.s. Apache Kylin (Developed by 上海eBay)

Crate.io (Powered by Lucence) 

總結:

數據分析的需求是一個無底洞

剛需

下一步的架構演化:

道阻且長,行則將至

【主題演講】Spark 在騰訊遊戲資料分析中的應用實踐

Bio: 許振文

iData

數據報表, 營銷干預, 在線分析

  1. 數據報表 => 發現問題 <-|
  2. 在線分析 => 分析問題    |
  3. 營銷干預 => 解決問題 -- |

Spark離線計算, 在線分析

騰訊數據倉庫 TDW, 最終結果與臨時結果HDFS

不用Mesos, Yarn, 因為Spark本身自己的調度已經不錯 + 自己開發的SparkScheduler

Spark在遊戲數據分析中的應用

Spark在騰訊的營銷干預

200ms -> 從登入到SparkStreaming

Tredis: redis+rocksDB

SparkStreaming應用優化:

Spark MLlib 應用 - 分群

Spark MLlib 應用 - 推薦

利用 SDACK 架構分析資安事件大數據

Bio: Darren

What’s the problem:

problems behind the probelm

V1

V2

SMACK

Akka Stream + Reactive Kafka = ETL

Mesos -> Docker

 Tips

 * 小心處理partition

KKBOX 個人化的音樂串流服務

Recommender System in KKBOX

Attribute Based -> Collaborative Filtering -> Embedding Representation -> Learning to Rank

=> Persona Aware, Context Aware, Interactive 

音樂風格時間演進圖-曲風圖來源

http://research.google.com/bigpicture/music/

推薦系統

user node <-> song node

建構  graph => random walk (DeepWalk) => word2vec

DeepWalk: https://github.com/phanein/deepwalk

Providing Robust True Realtime Data Services with Apache Flink: Re-thinking the Lambda Architecture

"the stream processor as a database"

Batch job: 

Streaming job:

講師群Q&A(Panel Discussion)

A: Maybe not, 但現在有傾向整合單一工具的趨勢

大數據工具選擇的評估方式:

    Cost

    Latency

    Complete

原則:

    大數據小做

    與業務切合

原則:

    企業適應改變

    針對問題去處理就好,不要Overdesign

    工具不要拿來就用,要去瞭解

    

    

    

大會問卷

12/6(二)16:10-17:30

憑大會線上問卷填答完成畫面,在報到處兌換限量 Big Data Innovation Summit 2016 T恤一件喔!

填問卷: https://ithomeonline.typeform.com/to/Isl3OF

==> Big Data Innovation Summit 2016 Day1 125