Flume日志收集与MapReduce模式PDF电子书下载|百度网盘下载
编辑评论:
大数据技术系列:Flume 日志收集和 MapReduce 模式 展示了 Flume 的架构,包括将数据移入和移出数据库、NoSQL 数据存储和性能调优。为每个架构组件(源、通道、接收器、通道处理器、接收器组等)提供了详细的实现和配置选项,允许您根据需要自定义 Flume
这本书适合谁
本书适用于需要将数据从各种系统自动移动到 Hadoop 集群中的人员。如果您需要定期将数据加载到 Hadoop 中,这本书就是为您准备的,您可以从手工工作中解放出来,并且无需继续维护自己的一些工具。
阅读本书只需要对 Hadoop HDFS 有基本的了解。我们提供了一些可以在需要时使用的自定义实现。对于这个级别的实现,您需要知道如何使用 Java 进行编程。
最后,您需要使用您选择的文本编辑器,因为本书的大部分内容都涵盖了如何通过代理的文本配置文件来配置各种 Flume 组件。
本书主要内容
第 1 章介绍了 Flume 及其将解决的问题空间(特别是与 Hadoop 相关的部分),架构概述介绍了后续章节将讨论的各种组件。
第 2 章帮助您尽快开始使用 Flume,包括下载 Flume、创建“Hello World”配置并运行它。
第 3 章介绍了大多数人将使用的两个主要渠道以及每个渠道可用的配置选项。
第 4 章详细介绍了如何使用 HDFS Flume 输出,包括压缩选项和数据格式化选项。还引入了故障恢复选项,以创建更强大的数据管道。
第 5 章描述了几种 Flume 输入机制及其配置选项。此外,它还描述了如何根据数据内容在不同的通道之间切换,从而可以创建复杂的数据流。
第 6 章描述了如何动态转换数据以及如何从有效负载中提取信息以与通道选择器一起用于路由决策。它还描述了如何通过 Avro 序列化对 Flume 代理进行分层,如何将 Flume 命令行作为独立的 Avro 客户端进行测试,以及如何手动导入数据。
第 7 章描述了在内部和外部监控 Flume 的各种方法,包括 Monit Nagios、Ganglia 和自定义钩子。
第 8 章超越了 Flume 配置,并使用自身来讨论实时分布式数据收集的各个方面。
第 9 章描述了如何用 Java(不使用 MapReduce)编写字数统计应用程序。我们将把它与 MapReduce 模型进行比较。
第 10 章描述了如何使用 MapReduce 编写字数统计应用程序以及如何在 Hadoop 原生模式下运行它们。
第 11 章介绍了如何在分布式环境中安装 Hadoop 并运行以前的 Wordcount 作业。
第 12 章描述了如何编写 Hadoop 数据格式化程序以将 Amazon 数据格式作为记录而不是逐行读取。
第 13 章介绍了如何使用 MapReduce 处理 Amazon 数据、生成直方图数据以及使用 gnuplot 绘制结果。
第 14 章描述了如何通过 MapReduce 连接两个数据集。
第 15 章描述了如何处理 Amazon 数据并使用 MapReduce 实现差异集。它还描述了如何以类似的方式实现其他集合操作。
第 16 章描述了如何通过 MapReduce 计算两个项目的出现次数(互相关)。
第 17 章描述了如何使用亚马逊数据并通过倒排索引实现简单的搜索。
第 18 章介绍了如何通过 MapReduce 实现图遍历。
第 19 章描述了如何使用 Kmeans 算法对数据集进行聚类。聚类将数据分组,使每组中的条目相似,不同组中的条目根据不同的距离度量不同。
文件类型
默认情况下,HDFS 将写入数据作为 Hadoop 序列文件接收到 HDFS。这是一个常见的 Hadoop 包装器,包含一个键和一个值字段,其中值字段由二进制字段和记录分隔符分隔。通常,您计算机上的文本文件假定换行符定义每条记录。那么如果数据包含换行符(如 XML)怎么办?使用序列化文件解决了这个问题,因为它使用不可打印字符作为分隔符。 SequenceFiles 也可以拆分,这样可以在对数据(尤其是大文件)运行 MapReduce 作业时进行更好的定位和并行处理。