作者簡介
Frank Kane
在Amazon和IMDb等知名企業工作了九年,期間內處理了數百萬個客戶評分及客戶交易,製作個人化電影和產品推薦系統,和「購買這個商品的人也買了」服務。目前在分散式運算、資料探勘和機器學習等領域已擁有17項授權專利。
Frank Kane於2012年離開了前公司,自行成功創立了一家公司,名為Sundog Software,公司主要負責VR環境科技、傳授大數據分析課程。
前言
Chapter 1:Python入門
1.1 安裝Enthought Canopy
1.2 使用並學習Jupyter Notebook
1.3 Python基礎:第一部分
1.4 認識Python程式碼
1.5 導入模組
1.6 Python基礎:第二部分
1.7 執行Python腳本
1.8 總結
Chapter 2:統計與機率快速複習以及Python程式碼實現
2.1 資料類型
2.2 平均數、中位數和眾數
2.3 在Python中計算平均數、中位數和眾數
2.4 標準差和變異數
2.5 機率密度函數和機率質量函數
2.6 資料分佈類型
2.7 百分位數和動差
2.8 總結
Chapter 3:Matplotlib與高等機率概念
3.1 Matplotlib快速入門
3.2 共變異數與相關性 099
3.3 條件機率 107
3.4 貝氏定理 114
3.5 總結
Chapter 4:預測模型
4.1 線性迴歸
4.2 多項式迴歸
4.3 多元迴歸和預測汽車售價實作
4.4 多層次模型
4.5 總結
Chapter 5:利用Python進行機器學習
5.1 機器學習及訓練/測試法
5.2 用訓練/測試法防止多項式迴歸中的過度擬合
5.3 貝氏方法及概念
5.4 使用單純貝氏實現垃圾郵件分類器
5.5 K-Means集群
5.6 利用收入與年齡進行人口集群
5.7 熵的測量
5.8 決策樹概念
5.9 使用Python產生錄用決策樹
5.10 整合學習
5.11 支援向量機概述
5.12 在scikit-learn中利用SVM對人進行集群
5.13 總結
Chapter 6:推薦系統
6.1 什麼是推薦系統
6.2 以項目為基礎的協同過濾
6.3 以項目為基礎的協同過濾是如何運作的
6.4 找出電影相似度
6.5 改善電影相似度結果
6.6 向使用者推薦電影
6.7 改善推薦結果
6.8 總結
Chapter 7:更多資料探勘和機器學習技術
7.1 KNN
7.2 使用KNN預測電影評分
7.3 資料降維與主成分分析
7.4 對鳶尾花資料集使用PCA
7.5 資料倉儲概述
7.6 強化學習
7.7 總結
Chapter 8:處理真實世界資料
8.1 偏差-變異數的權衡
8.2 使用K折交叉驗證來避免過度擬合
8.3 資料清理和正規化
8.4 清理網站日誌資料
8.5 數值型資料的正規化
8.6 檢測離群值
8.7 總結
Chapter 9:Apache Spark——大數據上的機器學習
9.1 安裝Spark
9.2 認識Spark
9.3 Spark和彈性分散式資料集(RDD)
9.4 MLlib簡介
9.5 在Spark中使用MLlib實作決策樹
9.6 在Spark中實現K-Means集群
9.7 TF-IDF
9.8 使用Spark MLlib搜尋維基百科
9.9 使用Spark 2.0中的MLlib資料框API
9.10 總結
Chapter 10:測試與實驗設計
10.1 A/B測試的概念
10.2 t檢定與p值
10.3 使用Python計算t統計量和p值
10.4 確定實驗持續時間
10.5 A/B測試中的陷阱
10.6 總結