Spark高级数据分析第二版pdf完整版|百度网盘下载

时间: 2022-05-08 03:15:43  4 数据科学家 数据科学家 数据集

编者评论:Spark 高级数据分析第二版 pdf

spark Advanced Data Analysis是由著名大数据公司Cloudera的四位数据科学家共同编写的实用Spark手册,他们共同演示了几种使用Spark进行大规模数据分析的模式,并且每个模式都是独立的,编辑为大家整理了Spark高级数据分析第二版的pdf,欢迎下载

简介

spark 高级数据分析是由著名大数据公司 Cloudera 的四位数据科学家共同编写的 Spark 实用手册,他们共同演示了使用 Spark 进行大规模数据分析的几种模式,每个模式都是自包含的。

本书结合了 Spark、统计方法和真实数据集,教读者如何通过示例解决分析问题。 spark高级数据分析首先介绍Spark及其生态系统,然后详细介绍分类,

协同过滤和异常检查等常用技术已应用于遗传学、安全和金融领域的多个模型。如果您对机器学习和统计有基本的了解,并且知道如何使用 Java、Python 或 Scala 进行编程,那么这些模式将非常有助于开发您自己的数据应用程序。

关于作者

Sandy Ryza 是 Cloudera 的一名数据科学家,也是 Apache Spark 项目的积极代码贡献者。在 Cloudera 领导 Spark 开发。他还是 Hadoop 项目管理委员会的成员。
Uri Laserson 是 Cloudera 的一名数据科学家,专注于 Hadoop 生态系统的 Python 部分。
Sean Owen 是 Cloudera 的 EMEA 数据科学总监,也是 Apache Spark 项目的代码提交者。他创立了 Oryx(前身为 Myrrix),这是一个基于 Spark、Spark Streaming 和 Kafka 的 Hadoop 实时大规模学习项目。
Josh Wills 是 Cloudera 的数据科学高级总监,Apache Crunch 项目的发起人和副总裁。

相关内容预览

编辑推荐

Spark 作为一个计算框架,速度快,易于开发,可以兼顾批处理和实时数据分析。因此,很快被大量企业用户采用。随着近年来人工智能的兴起,它已成为分析和挖掘大数据的重要组成部分。重要的工具。
本书由业内知名数据科学家撰写,通过丰富的示例展示了如何结合Spark、统计方法和真实数据集解决数据分析问题,涵盖模型构建和评估、数据清洗、

数据预处理和数据探索,并描述了如何将结果转化为生产应用程序,是使用 Apache Spark 进行大数据分析和处理的实用集合。
第 2 版包括对新版 Spark 最佳实践中使用的示例代码和材料的大量更新。

本书涵盖的模式如下


● 音乐推荐和Audioscrobbler 数据集
● 使用决策树算法预测森林植被
● 基于K-Means 聚类的网络流量异常检测
● 基于潜在语义算法的维基百科分析< br>● 使用 GraphX 分析同伴网络
● 纽约出租车轨迹的时空数据分析
● 通过蒙特卡洛模拟评估金融风险
● 遗传数据分析和 BDG 项目
● 使用 PySpark 和 Thunder 分析神经图像数据

spark高级数据分析章节目录

推荐的前言 ix
译者前言 xi
前言 xiii
前言 xv
第 1 章大数据分析 1
1.1 数据科学面临的挑战 2
1、 2 了解 Apache Spark 4
1.3 关于本书 5
1.4 第二版注释 6
第 2 章使用 Scala 和 Spark 8 进行数据分析
2.1 面向数据科学家的 Scala 9
2.2 Spark 编程模型 10
2.3 记录关联问题 10
2.4 小测试:Spark shell 和 SparkContext 11
2.5 从集群获取数据到客户端 Client 16
2.6 从客户端发送代码到集群 19 < br>2.7 从 RDD 到 DataFrame 20
2.8 使用 DataFrame API 分析数据 23
2.9 DataFrame 统计信息 27
2.10 DataFrame 转置和重塑 29
2.11 DataFrame 连接和特征选择 32
2.12为生产准备模型 33
2.13 评估模型 35
2.14 总结 36
第 3 章 音乐推荐和 Audioscrobbler 数据集 37
3.1 数据集 38
3.2 交替最小二乘推荐算法 39
3.3 准备数据 41
3.4 构建第一个模型 44
3.5 逐个检查推荐结果 47
3.6 E评估推荐质量 50
3.7 计算 AUC 51
3.8 选择超参数 53
3.9 生成推荐 55
3.10 总结 56
第 4 章使用决策树算法预测森林植被 58
4.1 简介回归 59
4.2 向量和特征 59
4.3 样本训练 60
4.4 决策树和决策森林 61
4.5 Covtype 数据集 63
4.6 准备数据 64
4.7 第一个决策树 66
4.8 决策树的超参数 72
4.9 决策树调优 73
4.10 重新审视分类特征 77
4.11 随机决策森林 79
4.12 进行预测 81
4.13 总结 82
章节5 基于 K-means 聚类的网络流 定量异常检测 84
5.1 异常检测 85
5.2 K-Means 聚类 85
5.3 网络入侵 86
5.4 KDD Cup 1999 数据集 86
5、 5 聚类的初步尝试 87
5.6 K 选择 90
5.7 基于 SparkR 的可视化 92
5.8 特征归一化 96
5.9 分类变量 98
5.10 使用标签的熵信息 99
5.11 聚类实践 100
5.12 总结 102
第 6 章 基于潜在语义分析算法的维基百科分析 104
6.1 文档 - 术语矩阵 105
6.2 获取数据 106
6.3 分析与准备数据 107
6.4 词形还原 109
6.5 计算 TF-IDF 110
6. 6 奇异值分解 111
6.7 识别重要概念 113
6.8 基于低维近似的查询和评分 117
6.9 术语-术语相关性 117
6 .10 文档-文档相关性 119
6.11 Document-Term Affinity 121
6.12 多词查询 122
6.13 摘要 123
第 7 章分析伴随 GraphX 网络 124
7.1 MEDLINE 文档引文索引的网络分析 125
7.2 获取数据126
7.3 使用 Scala XML 工具解析 XML 文档 128
7.4 分析 MeSH 主要主题 130
7.5 使用 GraphX 构建关联网络 132
7.6 理解网络结构 135
7.6.1 连接组件 136
7.6.2 度分布 138
7.7 过滤噪声边缘 140
7.7.1 处理 EdgeTriplet 141
7.7.2 分析去除噪声边缘的子图 142
7.8 小世界网络 144 < br>7.8.1 系统和聚类系数 144
7.8.2 使用 Pregel 计算平均路径长度 145 7.9 摘要 150
第 8 章纽约出租车轨迹的空间和时间 数据分析 151
8.1 数据采集 152
8.2 基于 Spark 的第三方库分析 153
8.3 Esri Geometry API 地理空间使用 Spray 进行数据处理 153
8.3.1 了解 Esri Geometry API 154
8.3.2 GeoJSON 简介 155
8.4 纽约市出租车乘客数据的预处理 157
8.4.1 非法记录处理在大规模数据中 159
8.4.2 地理空间分析 162
8.5 基于 Spark 的会话分析 165
8.6 总结 168
第 9 章基于蒙特卡罗模拟的金融风险评估 170
9.1 术语171
9.2 VaR 计算方法 172
9.2.1 方差-协方差方法 172
9. 2.2 历史模拟 172
9.2.3 蒙特卡洛模拟 172
9.3 我们的模型 173
9.4 获取数据 173
9.5 数据预处理 174
9.6 确定市场因素的权重 177
9.7抽样 179
9.8 运行实验 182
9.9 可视化收益分布 185
9.10 评估结果 186
9.11 总结 188
第 10 章遗传数据分析和 BDG 项目 190
10.1 分离存储和建模 191
10.2 使用 ADAM CLI 导入遗传数据 193
10 .3 从 ENCODE 数据预测转录因子结合位点 201
10.4 在千人基因组计划中查询基因型 207
10.5 总结 210
第 11 章基于 PySpark 和 Thunder 211 的神经图像数据分析
11.1 PySpark 212 简介
11.2 Thunder Toolkit 概述和安装 215
11.3 使用 Thunder 215 加载数据
11.4 使用 Thunder 221 分类神经元
br>11.5 摘要 225
作者介绍 226
封面介绍 226

  • 声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站内容来自网络收集整理或网友投稿,所提供的下载链接也是站外链接,版权争议与本站无关。您必须在下载后的24个小时之内,从您的设备中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版!我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!邮箱:121671486@qq.com,微信:diqiuren010101

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园