基于Hadoop的数据分析.docx

  • 需要金币1000 个金币
  • 资料目录论文助手 > 论文(New) > 本科论文 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2020-11-18
  • 论文字数:6938
  • 课题出处:(将大紫)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:本文介绍了分布式计算平台Hadoop生态圈的内容。首先介绍的是Hadoop的由来与发展;然后,通过对Hadoop核心架构HDFS,MapReduce和Yarn的介绍,详细剖析了Hadoop的分布式架构与MapReduce的执行原理。其中,还对MapReduce编程进行了描述并且用MapReduce实现了pagerank算法的并行化。其次本文还对Hadoop的生态圈的各种技术与框架进行了介绍。最后,本文利用Hadoop完成了一个项目,即通过对网站日志数据的统计分析,获得网站的pv浏览量,注册用户数,跳出率等指标,最后将上述过程进行了自动化部署。

关键词:分布式计算;数据分析;Hadoop

 

目录

摘要

Abstract

一、引言-1

(一)Hadoop的产生与发展-1

(一)项目研究的原因与意义-1

二、 Hadoop的介绍与核心架构-2

(一)Hadoop的版本和变迁-2

(二)Hadoop的分布式存储:HDFS-2

(三)Hadoop的并行计算模型:MapReduce-3

(四)Hadoop的资源调度平台:Yarn-3

三、HDFS的使用-4

(一)利用shell命令远程调用HDFS操作-4

(二) 利用java代码调用HDFS操作-  4

四、MapReduce原理与编程-5

(一)MapReduce的原理与过程-5

(二)MapReduce的简单案例:WordCount-6

(三)MapReduce的序列化与自定义数据类型-6

(四)利用MapReduce实现pagerank算法的并行化-8

五、Hadoop的生态圈-10

(一)分布式集群的协调工具:Zookeeper-10

(二)基于Hadoop的数据仓库:Hive-10

(三)传统数据库与Hadoop的桥梁:Sqoop-10

六、项目的介绍与过程-10

(一)项目环境的搭建与安装-10

(二)项目使用的各种工具版本-15

(三)网站日志分析的数据来源与需求-15

(四)利用Hadoop分析解决的过程-16

(五)项目过程自动化部署的实现 19

七、 总结-21

(一)项目的总结-21

(二)对新技术的渴望-21

致 谢-22

参 考 文 献-23


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费