hadoop源码分析(hadoop源码分析完整版)
本文目录一览:
hadoop家族先学什么
优先学习hadoop,总体架构先了解清楚,有助于以后细节的具体学习。刘鹏的基本书写的很入门,推荐看一看。炼数成金的hadoop视频教程很不错,值得入门看看。然后就可以学习hadoop权威指南。hadoop源码分析,这个地方有张鑫写的《深入云计算:hadoop源代码分析》,和《hadoop源码分析》,之后就可以学习hive和pig,habse,zookeeper,这时候你如果有一定的数据库知识,会简单一点,如果不知道,那可以去了解一下数据库的知识。等你把这些学会了,新的项目,我想hadoop源码都会的人,应该不难了吧!欢迎采纳,交流。——支持开源!热爱学习!吼吼。
Hadoop常见问题解答
Hadoop常见问题解答
(1)Hadoop适不适用于电子政务?为什么?
电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。
总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处理以及计算分析需求时就不需要hadoop这样的技术,而实际上,商用的电子政务平台往往涉及到大规模的数据和大量的计算分析处理需求,因此就需要Hadoop这样的技术来解决。(2)hadoop对于实时在线处理有优势吗?
直接使用hadoop进行实时处理时没有优势的,因为Hadoop主要解决的是海量批处理作业计算问题,但是可以使用基于Hadoop的分布式NOSQL系统HBase系统以及相关实时处理系统:
1. 基于Hadoop的HBase可以做到实时处理以及相关需求的实时计算,主要解决海量key,value相关查询计算等需求。
2. 可以考虑Spark计算,Spark是基于共现内存RDD的系统,比Hadoop更快,时候迭代式计算,例如数据挖掘,机器学习算法等。
3. 还有Storm,Storm是一个免费开源、分布式、高容错的实时计算系统,Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。
4. 考虑S4, S4是Yahoo!在2010年10月开源的一套通用、分布式、可扩展、部分容错、具备可插拔功能的平台。这套平台主要是为了方便开发者开发处理流式数据(continuous unbounded streams of data)的应用。
你可以依据实际的需求来选择合适的系统。
(3)Hadoop存储海量数据没有问题,但是如何能够做到海量数据的实时检索?
1,可以结合开源的搜索引擎Apache Lucene,Solr 或ElasticSearch
2,海量数据的实时检索可以考虑HBase,建议可以使用hadoop将数据构建成以查询key为键的数据集,然后将key, value集合写入Hbase表中,Hbase会自动以key为键进行索引,在数十亿甚至以上的级别下,查询key的value响应时间也估计再10毫秒内。
如果检索条件是多个组合的情况下,可以适当的设计多个hbase表格,这样的检索也是很快的,同时Hbase也是支持二级索引。在符合条件下查询,Hbase也是支持MapReduce的,如果对响应时间要求不高的情况下,可以考虑将hive和Hbase系统结合来使用。
如果数据量不是很大的情况下也可以考虑支持类似SQL的NOSLQ系统。
(4)能不能给点hadoop的学习方法以及学习规划,hadoop系统有点庞大,感觉无从学起?
首先搞清楚什么是hadoop以及hadoop可以用来做什么?
然后,可以从最经典的词频统计程序开始,初步了解MapReduce的基本思路和处理数据的方式。
接着,就可以正式学习hadoop的基本原理,包括HDFS和MapReduce,先从整体,宏观核心原理看,先别看源码级别。
进一步,就可以深入HDFS和MapReduce和模块细节,这个时候可以结合源码深入理解,以及实现机制。
最后就是需要实战了,可以结合自己的项目或者相关需求来完成一些hadoop相关应用。
(5) 大的文件拆分成很多小的文件后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?
1. 怎样用Hadoop进行高效的处理这些小文件?
你这个问题提的很好,hadoop在处理大规模数据时是很高效的,但是处理大量的小文件时就会因为系统资源开销过大而导致效率较低,针对这样的问题,可以将小文件打包为大文件,例如使用SequcenFile文件格式,例如以文件签名为key,文件内容本身为value写成SequcenFile文件的一条记录,这样多个小文件就可以通过SequcenFile文件格式变为一个大文件,之前的每个小文件都会映射为SequcenFile文件的一条记录。
2. 怎样让各个节点尽可能的负载均衡?
在hadoop集群中负载均衡是非常关键的,这种情况的导致往往是因为用户的数据分布的并不均衡,而计算资源槽位数确实均衡分布在每个节点,这样在作业运行时非本地任务会有大量的数据传输,从而导致集群负载不均衡,因此解决不均衡的要点就是将用户的数据分布均衡,可以使用hadoop内置的balancer脚本命令。
对于因为资源调度导致的不均衡则需要考虑具体的调度算法和作业分配机制。
(6)c/c++ 程序员如何入门Hadoop到深入了解,并在Linux服务器上布置运用,有没有方向性的指导?
针对C/C++用户,Hadoop提供了hadoop streaming接口和pipes接口,hadoop streaming接口以标准输入和标准输出作为用户程序和hadoop框架交互的中间件,pipes这是专门针对C/C++语言的接口,以socket作为同学中介。
从使用上建议从streaming入手,pipes相比streaming问题比较多,而且pipes调试不容易。
(7)现在企业中使用Hadoop版本主要是1.x还是2.x?
目前百度,腾讯,阿里为主的互联网公司都是以hadoop 1.X为基准版本的,当然每个公司都会进行自定义的二次开发以满足不同的集群需求。
2.X在百度内部还没有正式使用,还是以1.X为主,不过百度针对1.X的问题开发了HCE系统(Hadoop C++ Expand系统)
补充,Hadoop2.x在其他公司应用的很多,比如京东
(8)以后想从事大数据方面工作,算法要掌握到什么程度,算法占主要部分吗?
首先,如果要从事大数据相关领域的话,hadoop是作为工具来使用的,首先需要掌握使用方法。可以不用深入到hadoop源码级别细节。
然后就是对算法的理解,往往需要设计到数据挖掘算法的分布式实现,而算法本身你还是需要理解的,例如常用的k-means聚类等。
(9)现在spark,storm越来越火,谷歌也发布了Cloud Dataflow,是不是Hadoop以后主要应该学习hdfs和yarn,而且以后Hadoop程序员的主要做的就是把这些东西打包,只提供接口让普通的程序员也能使用,就像Cloudera和Google一样?
这位同学,你多虑了,hadoop和spark, strom是解决不同的问题,不存在哪个好那个坏,要学习Hadoop还是以主流的hadoop-1.X为版本,2.X最主要的就是多了yarn框架,很好理解的。
如果你是hadoop本身研发建议都看,如果你是hadoop应用相关研发,看主流的1.X就行,我的书《Hadoop核心技术》是以主流的1.X为版本讲解的,有兴趣可以看看。
(10)小白问一句,大数据处理都是服务器上安装相关软件吗,对程序有什么影响呢,集群、大数据是属于运维的工作内容还是攻城狮的呢?
传统的程序只能运行在单机上,而大数据处理这往往使用分布式编程框架编写,例如hadoop mapreduce,只能运行在hadoop集群平台上。
运维的责任:保证集群,机器的稳定性和可靠性
hadoop系统本身研发:提高Hadoop集群的性能,增加新功能。
大数据应用:把hadoop作为工具,去实现海量数据处理或者相关需求。
(11)学习hadoop该怎么入手呢?应该做一些什么样的项目呢?
可以参考我上面的几个回答,可以从最简单词频统计程序入手,然后学习理解HDFS和MapReduce的基本原理和核心机制,如果仅仅把Hadoop作为一个工具来使用的话这样就可以了,最重要的就是实战了,可以尝试使用Hadoop处理一些数据,例如做日志分析,数据统计,排序,倒排索引等典型应用。
(12)100个以上hadoop节点,一般怎么开发,运维?任务很多的情况下任务资源怎么分配,任务执行顺序是定时脚本还是别的什么方式控制?
1. 首先大数据的应用开发和hadoop集群的规模是没有关系,你指的是集群的搭建和运维吗,对于商用的hadoop系统来说涉及到很多东西,建议参考《hadoop核心技术》实战篇 “第10章 Hadoop集群搭建 ” 章节。
2. 任务的分配是有hadoop的调度器的调度策略决定的,默认为FIFO调度,商业集群一般使用多队列多用户调度器,可以参考参考《hadoop核心技术》高级篇 “第9章 Hadoop作业调度系统” 章节。
3. 任务的执行顺序是有用户控制的,你自然可以定时启动,也可以手动启动。
(13)基于Hadoop做开发,是否必须会使用Java,使用其他开发语言是否无法更好的融入整个Hadoop的开发体系?
基于Hadoop做开发可以使用任何语言,因为hadoop提高了streaming编程框架和pipes编程接口,streaming框架下用户可以使用任何可以操作标准输入输出的计算机语言来开发hadoop应用。
(14)在reduce阶段老是卡在最后阶段很长时间,在网上查的说是有可能是数据倾斜,我想问这个有啥解决方法吗?
1,你这个就是数据倾斜啊 好多数据都集中在一个reduce里 其他reduce里分配的数据比较少 默认情况下决定哪些数据分配到哪个reduce是由reduce个数和partiiton分区决定的 默认是对key进行hash运算 一般情况下用mapreuce倾斜很少 除非你用的HIVE
2,reduce分为3个子阶段:shuffle、sort和reduce,如果reduce整个过程耗时较长,建议先看一下监控界面是卡在哪个阶段,如果是卡在shuffle阶段往往是网络阻塞问题,还有就是某reduce数据量太大,也就是你所说的数据倾斜问题,这种问题往往因为某个key的value太多,解决方法是:第一,默认的partiiton可能不适合你的需求,你可以自定义partiiton;第二就是在map端截断,尽量让达到每个reduce端的数据分布均匀。
(15)非大数据的项目能否用hadoop?
非大数据项目是否可以用Hadoop的关键问题在于是否有海量数据的存储,计算,以及分析挖掘等需求,如果现有系统已经很好满足当前需求那么就没有必要使用Hadoop,没有必要使用并不意味这不能使用Hadoop,很多传统系统能做的Hadoop也是可以做的,例如使用HDFS来代替LINUX NFS,使用MapReduce来代替单服务器的统计分析相关任务,使用Hbase代替Mysql等关系数据库等,在数据量不大的情况下通常Hadoop集群肯定比传统系统消耗更多的资源。
(16)hadoop mapreduce 和第三方资源管理调度系统如何集成?
Hadoop的调度器设计的一个原则就是可插拔式调度器框架,因此是很容易和第三方调度器集成的,例如公平调度器FairScheduler和容量调度器CapacityScheduler,并配置mapred-site.xml的mapreduce.jobtracker.taskscheduler以及调度器本身的配置参数,例如公平调度器控制参数则需要编辑fair- scheduler.xml进行配置,具体可以参考我的新书《Hadoop核心技术》实战篇第十章节10.11的集群搭建实例中的10.10.9 配置第三方调度器,同时可以进一步深入学习第9章 Hadoop作业调度系统,在这一章中会详细介绍各种第三方调度器以及使用配置方法。
有哪些好的hadoop学习资料
1."Hadoop.Operations.pdf.zip"
2."Hadoop权威指南(中文版)(带书签).pdf"Hadoop权威指南(中文版)(带书签).pdf
3."[Hadoop权威指南(第2版)].pdf"[Hadoop权威指南(第2版)].pdf
4."hadoop权威指南第3版2012.rar"hadoop权威指南第3版2012.rar
5.《Hadoop技术内幕:深入解析HadoopCommon和HDFS.pdf"《Hadoop技术内幕:深入解析Hadoop Common和HDFS.pdf
6."Hadoop技术内幕:深入解析MapReduce架构设计与实现原理.pdf"Hadoop技术内幕:深入解析MapReduce架构设计与实现原理.pdf
7."Hadoop实战.pdf"Hadoop实战.pdf
8."Hadoop实战-陆嘉恒(高清完整版).pdf"Hadoop实战-陆嘉恒(高清完整版).pdf
9."Hadoop实战(第2版).pdf"Hadoop实战(第2版).pdf
10."HadoopinAction.pdf"Hadoop in Action.pdf
11"Hadoop in practice.pdf"Hadoop in practice.pdf
12"HadoopThe.Definitive.Guide,3Ed.pdf"Hadoop The.Definitive.Guide,3Ed.pdf
13."O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf"O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf
14."hadoop入门实战手册.pdf"hadoop入门实战手册.pdf
15."Hadoop入门手册.chm"Hadoop入门手册.chm
16."windows下配置cygwin、hadoop等并运行mapreduce及mapreduce程序讲解.doc"windows下配置cygwin、hadoop等并运行mapreduce及mapreduce程序讲解.doc
17"在Windows上安装Hadoop教程.pdf"在Windows上安装Hadoop教程.pdf
18."Hadoop源代码分析(完整版).pdf"Hadoop源代码分析(完整版).pdf
19."hadoop-api.CHM"hadoop-api.CHM
20."HBase-Hadoop@小米.pptx" HBase-Hadoop@小米.pptx
21."但彬-Hadoop平台的大数据整合.pdf"但彬-Hadoop平台的大数据整合.pdf
22."QCon2013-罗李-Hadoop在阿里.pdf"QCon2013-罗李
23."百度hadoop计算技术发展.pdf"百度hadoop计算技术发展.pdf
24."QCon-吴威-基于Hadoop的海量数据平台.pdf"QCon-吴威-基于Hadoop的海量数据平台.pdf
25."8步安装好你的hadoop.docx"8步安装好你的hadoop.docx
26."hadoop运维经验分享.ppsx"hadoop运维经验分享.ppsx
27."PPT集萃:20位Hadoop专家分享大数据技术工具与最佳实践.rar"PPT集萃:20位Hadoop专家分享大数据技术工具与最佳实践.rar
28."Hadoop2.0基本架构和发展趋势.pdf"Hadoop 2.0基本架构和发展趋势.pdf
29."Hadoop与大数据技术大会PPT资料.rar"Hadoop与大数据技术大会PPT资料.rar
30."Hadoop2011云计算大会.rar"Hadoop2011云计算大会.rar
如何通过eclipse查看,阅读hadoop2.4源码
1.导入查看hadoop源码
(1)选择Existing Projects into Workspace
(2)选择源码路径
(3)查看源码
这样我们就完成了全部的内容。
2.阅读hadoop源码
其中比较常用的:
Open Call Hierarchy:
用Open Call
Hierarchy可以查看方法的调用层次。如果想知道一个方法在别的什么地方被调用了,这个功能就很好用了,实际中也很常用,比如要重构一个方法时,想
知道他对其它什么地方可能有影响,就可以用这个功能。在方法名上点击右键,选择Open Type
Hierarchy即可,快捷键是Ctrl+Alt+H。可以在Call Hierarchy窗口看到方法的调用层次的导航。
Open Type Hierarchy:
用Open Type Hierarchy可以查看类的继承关系,可以在Hierarchy窗口看到继承层次的导航。在方法或类名上点击右键,选择Open
Type Hierarchy即可,快捷键是F4。
介绍完毕,这里在介绍一些其他的跟踪源码的方法:
1、 用Open Declaration可以查看类、方法和变量的声明。这是最常用的一个功能了,如果在要追踪的对象上点右键,选择Open
Declaration,可以跳转到其声明的地方。这个功能有个快捷键是F3,当然你也可以按住Ctrl键,鼠标移过去会变成一个小手,单击就可以了。
2、用Open Super
Implemention可以查看当前方法在父类中的实现或接口中的声明(前提是该方法是对父类或接口中相应方法的重写),在方法名上点击右键,选择Open Super
Implemention即可。
3、 最后介绍一个超级好用的功能,叫Open
Implemention,就是可以跳转到某个调用的方法的具体实现的地方去。为什么说这个是超级好用呢?用过Spring的人都知道,现在都提倡面向接
口编程,所以,如果使用Open
Declaration来追踪一个方法的调用的话,只会看到该方法在接口中的声明,而看不该方法在具体类中的实现,当然,可以使用Call
Hierarchy先得到该方法的整个的调用层次,然后再导航到具体的实现处,但操作有些麻烦了。
有了Open Implemention,就可以直接看到实现的代码了,在方法名上点击右键,选择Open
Implemention就可以了!只是要享受这个功能,可安装一个Eclipse插件,这里就不在详细介绍了。
为什么编译 hadoop 源码
编译了hadoop,可以方便的查看某个函数的实现。如果不编译就只是自己去翻源代码了。更重要的是如果你编译了hadoop,你可以根据自己的需要改动hadoop的某些实现机制。(hadoop开源的好处)