本站在搬迁,
新网址https://via-dean.com即将涵盖更多学习内容,有疑惑的朋友请在新网址留言

学习 Hadoop 2
会员权益: 电子书无限数量下载;关联视频观看;中译文帮助
推荐内容: 视频教程;扩展阅读
内容详情

概述:

本书向您介绍了使用Hadoop 2支持的各种工具构建数据处理应用程序的世界。从框架的核心组件-HDFS和YARN入手 - 本书将指导您如何使用各种各样的构建应用程序方法。


您将了解YARN如何完全改变MapReduce和Hadoop之间的关系,并允许后者支持更多样化的处理方法和更广泛的应用程序。这些包括Apache Samza的实时处理和Apache Spark的迭代计算。接下来,我们将讨论Apache Pig及其提供的数据流数据模型。您将了解如何使用Pig分析Twitter数据集。


通过本书,您可以使用Apache Hive,Apache Oozie,Hadoop Streaming,Apache Crunch和Kite SDK等工具让您的生活更轻松。本书的最后一部分讨论了主要Hadoop组件的未来发展方向以及如何参与Hadoop社区。


你将学到什么:

使用MapReduce框架编写分布式应用程序

超越MapReduce并与Samza实时处理数据,并与Spark一起迭代

熟悉适用于大型数据集的数据挖掘方法

VM上的原型应用程序并将它们部署到本地群集或云基础架构(Amazon Web Services)

使用类似SQL的工具进行批量和实时数据分析

使用Apache Pig构建数据处理流程,并了解它如何实现自定义功能的轻松整合

使用Apache Oozie定义和编排复杂的工作流和管道

管理数据生命周期并随时更改


作者:

加里·图尔金顿

Garry Turkington拥有超过15年的行业经验,其中大部分都专注于大规模分布式系统的设计和实施。他目前担任Improve Digital的首席技术官,主要负责实现存储,处理和从公司大量数据中提取价值的系统。在加入Improve Digital之前,他曾在Amazon.co.uk工作,领导多个软件开发团队,构建处理全球每个项目的亚马逊目录数据的系统。在此之前,他曾在英国和美国的多个政府职位上工作了十年。


加布里埃莱摩德纳

Gabriele Modena是Improve Digital的数据科学家。在他目前的职位上,他使用Hadoop来管理,处理和分析行为和机器生成的数据。Gabriele喜欢使用统计和计算方法来查找大量数据中的模式。在他目前从事广告技术工作之前,他在学术界和工业界担任过多个职位,从事机器学习和人工智能方面的研究。


他拥有意大利特伦托大学计算机科学学士学位和荷兰阿姆斯特丹大学人工智能学习系统研究硕士学位。


联系电话:18112932078
微信号:Via_Dean
邮箱:kiyo84001@163.com
会员登录
登录
我的资料
留言
回到顶部