文
章
目
录
章
目
录
在大数据与人工智能快速发展的背景下,Spark作为分布式计算的核心框架,已成为机器学习工程化落地的重要工具。《Spark机器学习进阶实战》由科大讯飞大数据专家团队撰写,聚焦Spark在机器学习领域的实战应用,为技术人员提供了从算法理论到场景落地的全流程指南。感兴趣的读者可下载该书籍的电子版,深入探索Spark机器学习的工程化实践细节。
书籍基本信息
该书由马海平、于俊、吕昕、向海四位大数据专家联合著述,2018年9月由机械工业出版社出版,属于“大数据技术丛书”系列。全书共210页,定价59元,ISBN为9787111608103。书中突破传统算法理论框架,强调Spark机器学习库的工程化应用,适合有一定大数据基础的开发者及算法工程师阅读。
内容简介
全书以“基础理论—核心算法—综合场景”为逻辑主线,分为三大部分:
- 基础篇(第1-2章):系统梳理机器学习发展脉络、大数据生态体系,详解数据分析全流程(业务调研、数据准备、特征处理、模型训练等),并通过实战案例演示Spark环境下的数据探索方法。
- 算法篇(第3-8章):围绕分类、聚类、回归、关联规则、协同过滤、降维等核心算法,结合具体场景(如App数据分类、鸢尾花聚类、裙子销售预测等),讲解算法原理、Spark实现及性能调优。涵盖逻辑回归、KMeans、Apriori、PCA等经典模型,兼顾理论深度与代码实践。
- 综合案例篇(第9-12章):聚焦异常检测、用户画像、广告点击率预估、智慧交通大数据四个复杂场景,完整呈现从需求分析、数据预处理到模型部署的全链路解决方案,突出Spark在大规模数据处理中的工程化优势。
作者简介
- 马海平:科大讯飞大数据研究院研究主管,中国科学技术大学博士,专注数据挖掘与人工智能算法在计算广告、个性化教育等领域的落地。
- 于俊:科大讯飞大数据专家,擅长Spark大数据分析与算法工程化,在数据价值挖掘领域经验丰富。
- 吕昕:科大讯飞大数据专家,主攻用户画像、内容推荐与精准营销,深耕Spark在消费者业务中的应用。
- 向海:前科大讯飞大数据专家,现邂智科技算法负责人,专注Spark机器学习在智能客服、NLP领域的实践。
章节目录
- 第一篇 基础篇
- 第1章 机器学习概述:涵盖大数据生态、算法分类及典型应用场景(如异常检测、用户画像)。
- 第2章 数据分析流程和方法:详解特征处理、模型评估等关键环节,附Spark实战案例。
- 第二篇 算法篇
- 第3-8章:分别讲解分类、聚类、回归、关联规则、协同过滤、降维算法,每章包含原理解析、Spark代码实现及参数调优。
- 第三篇 综合应用篇
- 第9-12章:以四大业务场景为核心,演示如何运用Spark机器学习解决实际问题,突出工程化思维与跨组件协作(如数据清洗、模型部署)。
《Spark机器学习进阶实战》凭借一线团队的实战经验,为读者搭建了从理论到实践的桥梁。如需系统学习Spark在机器学习中的进阶应用,欢迎下载该书籍的电子版,获取更多工程化解决方案与代码示例。