Spark 編程指南繁體中文版 ============================= 如果你是個讀者,這邊有更容易閱讀的Gitbook版本 貢獻方式 請有意願加入的同好參考(https://github.com/TaiwanSparkUserGroup/spark-programming-guide-zh-tw/blob/master/CONTRIBUTING.rst) 大綱 簡介 快速上手 Spark Shell 獨立應用程序 開始翻滾吧! 編程指南 引入 Spark 初始化 Spark Spark RDDs 並行集合 外部數據集 RDD 操作 傳遞函數到 Spark 使用鍵值對 轉換 行動 RDD持續化 共享變數 從這裡開始 Spark Streaming 一個快速的例子 基本概念 連接 初始化StreamingContext 離散化串流 输入DStreams DStream中的轉換 DStream的輸出操作 暫存或持續化 Checkpointing 部署應用程序 監控應用程序 性能優化 減少處理時間 設置正確的的批次大小 記憶體優化 容錯語意 Spark SQL 開始 資料來源 RDDs parquet文件 JSON數據集 Hive表 性能優化 其它SQL接口 編寫語言集成(Language-Integrated)的相關查詢 Spark SQL術劇類型 MLlib 數據類型 本地向量 GraphX編程指南 開始 屬性圖 圖操作 Pregel API 圖建立者 頂點和邊RDDs 圖算法 例子 部署 提交應用程序 獨立運行Spark 在yarn上運行Spark 更多文檔 Spark配置 RDD持續化 Copyright 本文翻譯自 Spark 官方手冊 Reference: Spark 编程指南简体中文版 License 本文使用的許可請查看這裡