Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群25
Java1234官方群25:838462530
     

GIT视频教程(结合github,码云)免费领取

BAT一线大厂笔试面试打包下载

领取国内优秀就业,加薪,跳槽项目课程源码-vue2+jwt+springboot+mybaits前后端分离通讯录系统课程

SpringBoot打造企业级进销存

Java1234 VIP课程

领取微信扫码登录Java实现视频教程

Java1234至尊VIP(特价活动)
当前位置: 主页 > Java文档 > 大数据云计算 >

hadoop词频统计课设报告书 PDF 下载


分享到:
时间:2020-06-27 13:33来源:http://www.java1234.com 作者:小锋  侵权举报
hadoop词频统计课设报告书 PDF 下载
失效链接处理
hadoop词频统计课设报告书 PDF 下载

下载地址:

提取码:zfgv

相关截图:


主要内容:

本课程设计要求学生学习 Hadoop 的基本概念如 MapReduce、HDFS 等,搭建 Hadoop
平台进行相应的设计,掌握在 LINUX 下常用命令,并掌握 Hadoop 的基本操作;通过
MapReduce 编程,以哈姆雷特为研究对象,进行词频统计,统计单个或者多个文本文件中
每个词汇出现的次数;了解 Hadoop 分布式文件系统(HDFS)是 hadoop 上部署的存储架
构,熟练应用 Hadoop 对 HDFS 文件进行创建和读写等操作。通过本课程设计,建立起对
Hadoop 云计算的初步了解,最后通过 Hadoop 平台实现结果的显示。
Hadoop 起源于 Apache Nutch 项目,始于 2002 年,是 Apache Lucene 的子项目之一。
2004 年,Google 在“操作系统设计与实现”(Operating System Design and Implementation,
OSDI)会议上公开发表了题为 MapReduce:Simplified Data Processing on Large Clusters
(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的 Doug Cutting 等
人开始尝试实现 MapReduce 计算框架,并将它与 NDFS(Nutch Distributed File System)结
合,用以支持 Nutch 引擎的主要算法。由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好
的应用,所以它们于 2006 年 2 月被分离出来,成为一套完整而独立的软件,并被命名为
Hadoop。到了 2008 年年初,hadoop 已成为 Apache 的顶级项目,包含众多子项目,被应
用到包括 Yahoo 在内的很多互联网公司。
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存
储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是 MapReduce 引擎,该引擎由
JobTrackers 和 TaskTrackers 组成。通过对 Hadoop 分布式计算平台最核心的分布式文件系
统 HDFS、MapReduce 处理过程,以及数据仓库工具 Hive 和分布式数据库 Hbase 的介绍,
基本涵盖了 Hadoop 分布式平台的所有技术核心。
 

------分隔线----------------------------
锋哥公众号


锋哥微信号


关注公众号
回复 666
获取 java
从菜鸡到大神
全套视频教程