• Flume日志收集与MapReduce模式PDF电子书下载|百度网盘下载

    编辑评论:大数据技术系列:Flume日志收集和MaReduce模式展示了Flume的架构,包括将数据移入和移出数据库、NoSQL数据存储和性能调优。为每个架构组件(源、通道、接收器、通道处理器、接收器组等)提供了详细的实现和配置选项,允许您根据需要自定义Flume这本书适合谁本书适用于需要将数据从各种系统自动移动到Hadoo集群中的人员。如果您需要定期将数据加载到Hadoo中,这本书就是为您准备的,您可以从手工工作中解放出来,并且无需继续维护自己的一些工具。阅读本书只需要对HadooHDFS有基本的了解。我们提供了一些可以在需要时使用的自定义实现。对于这个级别的实现,您需要知道如何使用Java进行编程。最后,您需要使用您选择的文本编辑器,因为本书的大部分内容都涵盖了如何通过代理的文本配置文件来配置各种Flume组件。本书主要内容第1章介绍了Flume及其将解决的问题空间(特别是与Hadoo相关的部分),架构概述介绍了后续章节将讨论的各种组件。第2章帮助您尽快开始使用Flume,包括下载Flume、创建“HelloWorld”配置并运行它。第3章介绍了大多数人将使用的两个主要渠道以及每个渠道可用的配置选项。第4章详细介绍了如何使用HDFSFlume输出,包括压缩选项和数据格式化选项。还引入了故障恢复选项,以创建更强大的数据管道。第5章描述了几种Flume输入机制及其配置选项。此外,它还描述了如何根据数据内容在不同的通道之间切换,从而可以创建复杂的数据流。第6章描述了如何动态转换数据以及如何从有效负载中提取信息以与通道选择器一起用于路由决策。它还描述了如何通过Avro序列化对Flume代理进行分层,如何将Flume命令行作为独立的Avro客户端进行测试,以及如何手动导入数据。第7章描述了在内部和外部监控Flume的各种方法,包括MoitNagio、Gaglia和自定义钩子。第8章超越了Flume配置,并使用自身来讨论实时分布式数据收集的各个方面。第9章描述了如何用Java(不使用MaReduce)编写字数统计应用程序。我们将把它与MaReduce模型进行比较。第10章描述了如何使用MaReduce编写字数统计应用程序以及如何在Hadoo原生模式下运行它们。第11章介绍了如何在分布式环境中安装Hadoo并运行以前的Wordcout作业。第12章描述了如何编写Hadoo数据格式化程序以将Amazo数据格式作为记录而不是逐行读取。第13章介绍了如何使用MaReduce处理Amazo数据、生成直方图数据以及使用gulot绘制结果。第14章描述了如何通过MaReduce连接两个数据集。第15章描述了如何处理Amazo数据并使用MaReduce实现差异集。它还描述了如何以类似的方式实现其他集合操作。第16章描述了如何通过MaReduce计算两个项目的出现次数(互相关)。第17章描述了如何使用亚马逊数据并通过倒排索引实现简单的搜索。第18章介绍了如何通过MaReduce实现图遍历。第19章描述了如何使用Kmea算法对数据集进行聚类。聚类将数据分组,使每组中的条目相似,不同组中的条目根据不同的距离度量不同。文件类型默认情况下,HDFS将写入数据作为Hadoo序列文件接收到HDFS。这是一个常见的Hadoo包装器,包含一个键和一个值字段,其中值字段由二进制字段和记录分隔符分隔。通常,您计算机上的文本文件假定换行符定义每条记录。那么如果数据包含换行符(如XML)怎么办?使用序列化文件解决了这个问题,因为它使用不可打印字符作为分隔符。SequeceFile也可以拆分,这样可以在对数据(尤其是大文件)运行MaReduce作业时进行更好的定位和并行处理。...

    2022-05-06

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园