您现在的位置是：首页 > 热点问题 > 正文

热点问题

hadoop源码阅读环境（hadoop 开源）

hadoop源码阅读环境

hacker2022-06-08 04:27:25热点问题110

本文目录一览：1、如何在Windows中使用Intellijidea搭建远程Hadoop开发环境

本文目录一览：

1、如何在Windows中使用Intellij idea搭建远程Hadoop开发环境
2、如何通过eclipse查看，阅读hadoop2.4源码
3、如何高效的阅读hadoop源代码
4、如何高效的阅读和修改hadoop源代码
5、如何在eclipse里方便的读hadoop源码
6、如何阅读hadoop namenode源码

如何在Windows中使用Intellij idea搭建远程Hadoop开发环境

（1）准备工作

1）安装JDK 6或者JDK 7

2）安装scala 2.10.x (注意版本)

2）下载Intellij IDEA最新版（本文以IntelliJ IDEA Community Edition 13.1.1为例说明，不同版本，界面布局可能不同）

3）将下载的Intellij IDEA解压后，安装scala插件，流程如下：

依次选择“Configure”– “Plugins”– “Browse repositories”，输入scala，然后安装即可

（2）搭建Spark源码阅读环境（需要联网）

一种方法是直接依次选择“import project”– 选择spark所在目录 –

“SBT”，之后intellij会自动识别SBT文件，并下载依赖的外部jar包，整个流程用时非常长，取决于机器的网络环境（不建议在windows

下操作，可能遇到各种问题），一般需花费几十分钟到几个小时。注意，下载过程会用到git，因此应该事先安装了git。

第二种方法是首先在linux操作系统上生成intellij项目文件，然后在intellij IDEA中直接通过“Open

Project”打开项目即可。在linux上生成intellij项目文件的方法（需要安装git，不需要安装scala，sbt会自动下载）是：在

spark源代码根目录下，输入sbt/sbt gen-idea

注：如果你在windows下阅读源代码，建议先在linux下生成项目文件，然后导入到windows中的intellij IDEA中。

（3）搭建Spark开发环境

在intellij IDEA中创建scala project，并依次选择“File”– “project structure”

– “Libraries”，选择“+”，将spark-hadoop

对应的包导入，比如导入spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar（只需导入该jar

包，其他不需要），如果IDE没有识别scala 库，则需要以同样方式将scala库导入。之后开发scala程序即可：

编写完scala程序后，可以直接在intellij中，以local模式运行，方法如下：

点击“Run”– “Run Configurations”，在弹出的框中对应栏中填写“local”，表示将该参数传递给main函数，如下图所示，之后点击“Run”– “Run”运行程序即可。

如果想把程序打成jar包，通过命令行的形式运行在spark 集群中，可以按照以下步骤操作：

依次选择“File”– “Project Structure” – “Artifact”，选择“+”–

“Jar” – “From Modules with

dependencies”，选择main函数，并在弹出框中选择输出jar位置，并选择“OK”。

最后依次选择“Build”– “Build Artifact”编译生成jar包。

如何通过eclipse查看，阅读hadoop2.4源码

1.导入查看hadoop源码（1）选择Existing Projects into Workspace （2）选择源码路径（3）查看源码这样我们就完成了全部的内容。 2.阅读hadoop源码其中比较常用的 Open Call Hierarchy：用Open Call Hierarchy可以查看方法的调用层次。如果想知道一个方法在别的什么地方被调用了，这个功能就很好用了，实际中也很常用，比如要重构一个方法时，想知道他对其它什么地方可能有影响，就可以用这个功能。在方法名上点击右键，选择Open Type Hierarchy即可，快捷键是Ctrl+Alt+H。可以在Call Hierarchy窗口看到方法的调用层次的导航。 Open Type Hierarchy：用Open Type Hierarchy可以查看类的继承关系，可以在Hierarchy窗口看到继承层次的导航。在方法或类名上点击右键，选择Open Type Hierarchy即可，快捷键是F4。这里在演示一下：看到下面代码介绍完毕，这里在介绍一些其他的跟踪源码的方法： 1、用Open Declaration可以查看类、方法和变量的声明。这是最常用的一个功能了，如果在要追踪的对象上点右键，选择Open Declaration，可以跳转到其声明的地方。这个功能有个快捷键是F3，当然你也可以按住Ctrl键，鼠标移过去会变成一个小手，单击就可以了。 2、用Open Super Implemention可以查看当前方法在父类中的实现或接口中的声明(前提是该方法是对父类或接口中相应方法的重写)，在方法名上点击右键，选择Open Super Implemention即可。

如何高效的阅读hadoop源代码

R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？

问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？

a. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。

b. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。

c. 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！

d. 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化

d1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？

a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。

b. Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapReduce的并行计算框架，高效地完成计算任务。

c. Mahout的空白点，还有很多的数据挖掘算法，很难实现MapReduce并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。

d. R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。

虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。

如何让Hadoop结合R语言？

从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。

1）. RHadoop

RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapReduce, HDFS, HBase 三个部分。

2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。

3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。

4）.Hadoop调用R

上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

R和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapReduce化，软件开发，测试等等。所以，这样的案例并不太多。

hadoop源码阅读环境（hadoop 开源）

如何高效的阅读和修改hadoop源代码

首先，不得不说，hadoop发展到现在这个阶段，代码已经变得非常庞大臃肿，如果你直接阅读最新版本的源代码，难度比较大，需要足够的耐心和时间，所以，如果你觉得认真一次，认真阅读一次hadoop源代码，一定要有足够的心理准备和时间预期。其次，需要注意，阅读Hadoop源代码的效率，因人而异，如果你有足够的分布式系统知识储备，看过类似的系统，则能够很快地读它的源代码进行通读，并快速切入你最关注的局部细节，比如你之前看过某个分布式数据库的源代码，对分布式系统的网络通信模块，调度模块等有一定了解，这对阅读hadoop源代码有极大帮助；

如何在eclipse里方便的读hadoop源码

导入查看hadoop源码（1）选择Existing Projects into Workspace （2）选择源码路径（3）查看源码这样就完成了全部的内容。

阅读hadoop源码其中比较常用的Open Call Hierarchy：用Open Call Hierarchy可以查看方法的调用层次。

如何阅读hadoop namenode源码

1.导入查看hadoop源码（1）选择Existing Projects into Workspace （2）选择源码路径（3）查看源码这样我们就完成了全部的内容。 2.阅读hadoop源码其中比较常用的 Open Call Hierarchy：用Open Call Hierarchy可以查看方法的调用层次。

发表评论

评论列表

性许卬妄（2022-06-08 12:20:37）回复取消回复

ij中，以local模式运行，方法如下：点击“Run”– “Run Configurations”，在弹出的框中对应栏中填写“local”，表示将该参数传递给main函数，如下图所示，之后点击“Run”– “Run”运行程序

竹祭拔弦（2022-06-08 07:21:58）回复取消回复

可以用这个功能。在方法名上点击右键，选择Open Type Hierarchy即可，快捷键是Ctrl+Alt+H。可以在Call Hierarchy窗口看到方法的调用层次的导航。 Open Type Hierarchy：用Open Type

b2c信息网

热点问题

hadoop源码阅读环境（hadoop 开源）

如何在Windows中使用Intellij idea搭建远程Hadoop开发环境

如何通过eclipse查看，阅读hadoop2.4源码

如何高效的阅读hadoop源代码

如何高效的阅读和修改hadoop源代码

如何在eclipse里方便的读hadoop源码

如何阅读hadoop namenode源码

激素脸可以用鱼子酱洗面奶吗（鱼子酱可以直接擦脸吗）

阜宁光伏20223月（盐城润阳光伏厂）

相关文章

发表评论

评论列表