東坡下載:內(nèi)容最豐富最安全的下載站!

幫助|文件類型庫|最新更新|下載分類|排行榜

說明書三農(nóng)書屋計(jì)算機(jī)書庫健康書屋中小學(xué)教輔考試寶典經(jīng)典名著電視說明書洗衣機(jī)說明書相機(jī)說明書健康教育公務(wù)員考試

首頁書籍教程計(jì)算機(jī)書庫 → 大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐 pdf 中文版

大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐

大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐pdf 中文版

  • 大。1.4M
  • 語言:中文
  • 平臺:WinAll
  • 更新:2017-08-23 11:13
  • 等級:
  • 類型:計(jì)算機(jī)書庫
  • 網(wǎng)站:暫無
  • 授權(quán):免費(fèi)軟件
  • 廠商:
  • 產(chǎn)地:國產(chǎn)軟件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
軟件介紹軟件截圖相關(guān)軟件軟件教程網(wǎng)友評論下載地址

阿里巴巴官方首度公開大數(shù)據(jù)系統(tǒng)架構(gòu)與技術(shù)細(xì)節(jié),CSDN、ChinaUnix、ITPUB、segmentfault等多家技術(shù)社區(qū)力薦!主要分析阿里巴巴近幾年的數(shù)據(jù)挖掘、分析、應(yīng)用的探索經(jīng)歷。本書適合所有搞數(shù)據(jù)研究、數(shù)據(jù)分析的個人或企業(yè)學(xué)習(xí)參考。這本書對讀者有蠻高要求的。很多都是淺嘗即止,或者就是提一些大家都知道的概念。我善意的想,阿里可能是為了技術(shù)保密吧。但是總的來說,這不能說不值這個價錢,對不上“實(shí)踐”兩個字!

大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐目錄

第1章 總述 1


第1篇 數(shù)據(jù)技術(shù)篇


第2章 日志采集 8


2.1 瀏覽器的頁面日志采集 8
2.1.1 頁面瀏覽日志采集流程 9
2.1.2 頁面交互日志采集 14
2.1.3 頁面日志的服務(wù)器端清洗和預(yù)處理 15
2.2 無線客戶端的日志采集 16
2.2.1 頁面事件 17
2.2.2 控件點(diǎn)擊及其他事件 18
2.2.3 特殊場景 19
2.2.4 H5 & Native日志統(tǒng)一 20
2.2.5 設(shè)備標(biāo)識 22
2.2.6 日志傳輸 23
2.3 日志采集的挑戰(zhàn) 24
2.3.1 典型場景 24
2.3.2 大促保障 26


第3章 數(shù)據(jù)同步 29
3.1 數(shù)據(jù)同步基礎(chǔ) 29
3.1.1 直連同步 30
3.1.2 數(shù)據(jù)文件同步 30
3.1.3 數(shù)據(jù)庫日志解析同步 31
3.2 阿里數(shù)據(jù)倉庫的同步方式 35
3.2.1 批量數(shù)據(jù)同步 35
3.2.2 實(shí)時數(shù)據(jù)同步 37
3.3 數(shù)據(jù)同步遇到的問題與解決方案 39
3.3.1 分庫分表的處理 39
3.3.2 高效同步和批量同步 41
3.3.3 增量與全量同步的合并 42
3.3.4 同步性能的處理 43
3.3.5 數(shù)據(jù)漂移的處理 45


第4章 離線數(shù)據(jù)開發(fā) 48
4.1 數(shù)據(jù)開發(fā)平臺 48
4.1.1 統(tǒng)一計(jì)算平臺 49
4.1.2 統(tǒng)一開發(fā)平臺 53
4.2 任務(wù)調(diào)度系統(tǒng) 58
4.2.1 背景 58
4.2.2 介紹 59
4.2.3 特點(diǎn)及應(yīng)用 65


第5章 實(shí)時技術(shù) 68
5.1 簡介 69
5.2 流式技術(shù)架構(gòu) 71
5.2.1 數(shù)據(jù)采集 72
5.2.2 數(shù)據(jù)處理 74
5.2.3 數(shù)據(jù)存儲 78
5.2.4 數(shù)據(jù)服務(wù) 80
5.3 流式數(shù)據(jù)模型 80
5.3.1 數(shù)據(jù)分層 80
5.3.2 多流關(guān)聯(lián) 83
5.3.3 維表使用 84
5.4 大促挑戰(zhàn)&保障 86
5.4.1 大促特征 86
5.4.2 大促保障 88


第6章 數(shù)據(jù)服務(wù) 91
6.1 服務(wù)架構(gòu)演進(jìn) 91
6.1.1 DWSOA 92
6.1.2 OpenAPI 93
6.1.3 SmartDQ 94
6.1.4 統(tǒng)一的數(shù)據(jù)服務(wù)層 96
6.2 技術(shù)架構(gòu) 97
6.2.1 SmartDQ 97
6.2.2 iPush 100
6.2.3 Lego 101
6.2.4 uTiming 102
6.3 最佳實(shí)踐 103
6.3.1 性能 103
6.3.2 穩(wěn)定性 111


第7章 數(shù)據(jù)挖掘 116
7.1 數(shù)據(jù)挖掘概述 116
7.2 數(shù)據(jù)挖掘算法平臺 117
7.3 數(shù)據(jù)挖掘中臺體系 119
7.3.1 挖掘數(shù)據(jù)中臺 120
7.3.2 挖掘算法中臺 122
7.4 數(shù)據(jù)挖掘案例 123
7.4.1 用戶畫像 123
7.4.2 互聯(lián)網(wǎng)反作弊 125


第2篇 數(shù)據(jù)模型篇


第8章 大數(shù)據(jù)領(lǐng)域建模綜述 130

8.1 為什么需要數(shù)據(jù)建模 130
8.2 關(guān)系數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫 131
8.3 從OLTP和OLAP系統(tǒng)的區(qū)別看模型方法論的選擇 132
8.4 典型的數(shù)據(jù)倉庫建模方法論 132
8.4.1 ER模型 132
8.4.2 維度模型 133
8.4.3 Data Vault模型 134
8.4.4 Anchor模型 135
8.5 阿里巴巴數(shù)據(jù)模型實(shí)踐綜述 136


第9章 阿里巴巴數(shù)據(jù)整合及管理體系 138
9.1 概述 138
9.1.1 定位及價值 139
9.1.2 體系架構(gòu) 139
9.2 規(guī)范定義 140
9.2.1 名詞術(shù)語 141
9.2.2 指標(biāo)體系 141
9.3 模型設(shè)計(jì) 148
9.3.1 指導(dǎo)理論 148
9.3.2 模型層次 148
9.3.3 基本原則 150
9.4 模型實(shí)施 152
9.4.1 業(yè)界常用的模型實(shí)施過程 152
9.4.2 OneData實(shí)施過程 154


第10章 維度設(shè)計(jì) 159
10.1 維度設(shè)計(jì)基礎(chǔ) 159
10.1.1 維度的基本概念 159
10.1.2 維度的基本設(shè)計(jì)方法 160
10.1.3 維度的層次結(jié)構(gòu) 162
10.1.4 規(guī)范化和反規(guī)范化 163
10.1.5 一致性維度和交叉探查 165
10.2 維度設(shè)計(jì)高級主題 166
10.2.1 維度整合 166
10.2.2 水平拆分 169
10.2.3 垂直拆分 170
10.2.4 歷史歸檔 171
10.3 維度變化 172
10.3.1 緩慢變化維 172
10.3.2 快照維表 174
10.3.3 極限存儲 175
10.3.4 微型維度 178
10.4 特殊維度 180
10.4.1 遞歸層次 180
10.4.2 行為維度 184
10.4.3 多值維度 185
10.4.4 多值屬性 187
10.4.5 雜項(xiàng)維度 188


第11章 事實(shí)表設(shè)計(jì) 190
11.1 事實(shí)表基礎(chǔ) 190
11.1.1 事實(shí)表特性 190
11.1.2 事實(shí)表設(shè)計(jì)原則 191
11.1.3 事實(shí)表設(shè)計(jì)方法 193
11.2 事務(wù)事實(shí)表 196
11.2.1 設(shè)計(jì)過程 196
11.2.2 單事務(wù)事實(shí)表 200
11.2.3 多事務(wù)事實(shí)表 202
11.2.4 兩種事實(shí)表對比 206
11.2.5 父子事實(shí)的處理方式 208
11.2.6 事實(shí)的設(shè)計(jì)準(zhǔn)則 209
11.3 周期快照事實(shí)表 210
11.3.1 特性 211
11.3.2 實(shí)例 212
11.3.3 注意事項(xiàng) 217
11.4 累積快照事實(shí)表 218
11.4.1 設(shè)計(jì)過程 218
11.4.2 特點(diǎn) 221
11.4.3 特殊處理 223
11.4.4 物理實(shí)現(xiàn) 225
11.5 三種事實(shí)表的比較 227
11.6 無事實(shí)的事實(shí)表 228
11.7 聚集型事實(shí)表 228
11.7.1 聚集的基本原則 229
11.7.2 聚集的基本步驟 229
11.7.3 阿里公共匯總層 230
11.7.4 聚集補(bǔ)充說明 234


第3篇 數(shù)據(jù)管理篇


第12章 元數(shù)據(jù) 236
12.1 元數(shù)據(jù)概述 236
12.1.1 元數(shù)據(jù)定義 236
12.1.2 元數(shù)據(jù)價值 237
12.1.3 統(tǒng)一元數(shù)據(jù)體系建設(shè) 238
12.2 元數(shù)據(jù)應(yīng)用 239
12.2.1 Data Profile 239
12.2.2 元數(shù)據(jù)門戶 241
12.2.3 應(yīng)用鏈路分析 241
12.2.4 數(shù)據(jù)建模 242
12.2.5 驅(qū)動ETL開發(fā) 243


第13章 計(jì)算管理 245
13.1 系統(tǒng)優(yōu)化 245
13.1.1 HBO 246
13.1.2 CBO 249
13.2 任務(wù)優(yōu)化 256
13.2.1 Map傾斜 257
13.2.2 Join傾斜 261
13.2.3 Reduce傾斜 269

第14章 存儲和成本管理 275
14.1 數(shù)據(jù)壓縮 275
14.2 數(shù)據(jù)重分布 276
14.3 存儲治理項(xiàng)優(yōu)化 277
14.4 生命周期管理 278
14.4.1 生命周期管理策略 278
14.4.2 通用的生命周期管理矩陣 280
14.5 數(shù)據(jù)成本計(jì)量 283
14.6 數(shù)據(jù)使用計(jì)費(fèi) 284


第15章 數(shù)據(jù)質(zhì)量 285
15.1 數(shù)據(jù)質(zhì)量保障原則 285
15.2 數(shù)據(jù)質(zhì)量方法概述 287
15.2.1 消費(fèi)場景知曉 289
15.2.2 數(shù)據(jù)加工過程卡點(diǎn)校驗(yàn) 292
15.2.3 風(fēng)險點(diǎn)監(jiān)控 295
15.2.4 質(zhì)量衡量 299


第4篇 數(shù)據(jù)應(yīng)用篇


第16章 數(shù)據(jù)應(yīng)用 304
16.1 生意參謀 305
16.1.1 背景概述 305
16.1.2 功能架構(gòu)與技術(shù)能力 307
16.1.3 商家應(yīng)用實(shí)踐 310
16.2 對內(nèi)數(shù)據(jù)產(chǎn)品平臺 313
16.2.1 定位 313
16.2.2 產(chǎn)品建設(shè)歷程 314
16.2.3 整體架構(gòu)介紹 317
附錄A 本書插圖索引 320

PC官方
安卓官方手機(jī)版
IOS官方手機(jī)版

大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐截圖

下載地址

大數(shù)據(jù)之路阿里巴巴大數(shù)據(jù)實(shí)踐 pdf 中文版

熱門評論
最新評論
發(fā)表評論 查看所有評論(0)
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字?jǐn)?shù): 0/500 (您的評論需要經(jīng)過審核才能顯示)

本類軟件必備

報(bào)錯

請簡要描述您遇到的錯誤,我們將盡快予以修正。

轉(zhuǎn)帖到論壇
輪壇轉(zhuǎn)帖HTML方式

輪壇轉(zhuǎn)帖UBB方式