hadoop252源码

发布时间: 2022-07-07 13:39:09

A. 为什么要编译 hadoop 源码怎么在eclipse里写hadoop程序啊~ 上不了外网，hadoop源码编译不了，该怎么

1：编译了hadoop，可以方便的查看某个函数的实现。如果不编译就只是自己去翻源代码了。更重要的是如果你编译了hadoop，你可以根据自己的需要改动hadoop的某些实现机制。（hadoop开源的好处）.
2：编程hadoop程序是不需要编译hadoop源码的。你可以参看网上hadoop安装教程。
关于hadoop编程，欢迎访问我的博客：http://blog.csdn.net/jackydai987

B. hadoop源码修改了，编译成功后，将编译后的hadoop文件直接拿来搭建么，还是需要经过什么处理呢

把你编译后的hadoop源码丢到原来的hadoop集群环境中去即覆盖hadoop安装目录下的原hadoop-core-xxx.jar 同样的所有节点都需要更新然后重启集群

C. hadoop 源代码从哪里可以找到啊怎么下载，说详细一点谢谢

你可以用SVN软件在这里同步到最新的代码：
http://svn.apache.org/repos/asf/hadoop
其实你同步你研究领域的分支就可以了，全同步实在太大了。
SVN软件可以用Tortoise SVN，使用方法一下就可以了。
当然也可以到cloudera或Yahoo!的hadoop官网的download链接去下载。

D. hadoop yarn源码怎么进行修改

第一个阶段：学习hadoop基本使用和基本原理，从应用角度对hadoop进行了解和学习
这是第一个阶段，你开始尝试使用hadoop，从应用层面，对hadoop有一定了解，比如你可以使用hadoop shell对hdfs进行操作，使用hdfs API编写一些程序上传，下载文件；使用MapRece API编写一个数据处理程序。一旦你对hadoop的基本使用方法比较熟悉了，接下来可以尝试了解它的内部原理，注意，不需要通过阅读源代码了解内部原理，只需看一些博客，书籍，比如《Hadoop权威指南》，对于HDFS而言，你应该知道它的基本架构以及各个模块的功能；对于MapRece而言，你应该知道其具体的工作流程，知道partition，shuffle，sort等工作原理，可以自己在纸上完整个画完maprece的流程，越详细越好。
在这个阶段，建议你多看一些知名博客，多读读《hadoop权威指南》（可选择性看相关的几章）。如果你有实际项目驱动，那是再好不过了，理论联系实际是最好的hadoop学习方法；如果你没有项目驱动，那建议你不要自己一个人闷头学，多跟别人交流，多主动给别人讲讲，最好的学习方式还是“讲给别人听”。
============
第二个阶段：从无到入门，开始阅读hadoop源代码
这个阶段是最困苦和漫长的，尤其对于那些没有任何分布式经验的人。很多人这个阶段没有走完，就放弃了，最后停留在hadoop应用层面。
这个阶段，第一件要做的事情是，选择一个hadoop组件。如果你对分布式存储感兴趣，那么你可以选择HDFS，如果你读分布式计算感兴趣，你可以选择MapRece，如果你对资源管理系统感兴趣，你可以选择YARN。
选择好系统后，接下来的经历是最困苦的。当你把hadoop源代码导入eclipse或intellij idea，沏上一杯茶，开始准备优哉游哉地看hadoop源代码时，你懵逼了：你展开那数不尽的package和class，觉得无从下手，好不容易找到了入口点，然后你屁颠屁颠地通过eclipse的查找引用功能，顺着类的调用关系一层层找下去，最后迷失在了代码的海洋中，如同你在不尽的压栈，最后栈溢出了，你忘记在最初的位置。很多人经历过上面的过程，最后没有顺利逃出来，而放弃。
如果你正在经历这个过程，我的经验如下：首先，你要摸清hadoop的代码模块，知道client，master，slave各自对应的模块（hadoop中核心系统都是master/slave架构，非常类似），并在阅读源代码过程中，时刻谨记你当前阅读的代码属于哪一个模块，会在哪个组件中执行；之后你需要摸清各个组件的交互协议，也就是分布式中的RPC，这是hadoop自己实现的，你需要对hadoop RPC的使用方式有所了解，然后看各模块间的RPC protocol，到此，你把握了系统的骨架，这是接下来阅读源代码的基础；接着，你要选择一个模块开始阅读，我一般会选择Client，这个模块相对简单些，会给自己增加信心，为了在阅读代码过程中，不至于迷失自己，建议在纸上画出类的调用关系，边看边画，我记得我阅读hadoop源代码时，花了一叠纸。注意，看源代码过程中，很容易烦躁不安，建议经常起来走走，不要把自己逼得太紧。
在这个阶段，建议大家多看一些源代码分析博客和书籍，比如《Hadoop技术内幕》系列丛书（轩相关网站：Hadoop技术内幕）就是最好的参考资料。借助这些博客和书籍，你可以在前人的帮助下，更快地学习hadoop源代码，节省大量时间，注意，目前博客和书籍很多，建议大家广泛收集资料，找出最适合自己的参考资料。
这个阶段最终达到的目的，是对hadoop源代码整体架构和局部的很多细节，有了一定的了解。比如你知道MapRece Scheler是怎样实现的，MapRece shuffle过程中，map端做了哪些事情，rece端做了哪些事情，是如何实现的，等等。这个阶段完成后，当你遇到问题或者困惑点时，可以迅速地在Hadoop源代码中定位相关的类和具体的函数，通过阅读源代码解决问题，这时候，hadoop源代码变成了你解决问题的参考书。
============
第三个阶段：根据需求，修改源代码。
这个阶段，是验证你阅读源代码成效的时候。你根据leader给你的需求，修改相关代码完成功能模块的开发。在修改源代码过程中，你发现之前阅读源代码仍过于粗糙，这时候你再进一步深入阅读相关代码，弥补第二个阶段中薄弱的部分。当然，很多人不需要经历第三个阶段，仅仅第二阶段就够了：一来能够通过阅读代码解决自己长久以来的技术困惑，满足自己的好奇心，二来从根源上解决解决自己遇到的各种问题。这个阶段，没有太多的参考书籍或者博客，多跟周围的同事交流，通过代码review和测试，证明自己的正确性。
============
阅读hadoop源代码的目的不一定非是工作的需要，你可以把他看成一种修养，通过阅读hadoop源代码，加深自己对分布式系统的理解，培养自己踏实做事的心态。

E. 如何通过eclipse查看，阅读hadoop2.4源码

1.导入查看hadoop源码

(1)选择Existing Projects into Workspace

(2)选择源码路径

(3)查看源码

这样我们就完成了全部的内容。

2.阅读hadoop源码

其中比较常用的：

Open Call Hierarchy：

用Open Call
Hierarchy可以查看方法的调用层次。如果想知道一个方法在别的什么地方被调用了，这个功能就很好用了，实际中也很常用，比如要重构一个方法时，想
知道他对其它什么地方可能有影响，就可以用这个功能。在方法名上点击右键，选择Open Type
Hierarchy即可，快捷键是Ctrl+Alt+H。可以在Call Hierarchy窗口看到方法的调用层次的导航。

Open Type Hierarchy：

用Open Type Hierarchy可以查看类的继承关系，可以在Hierarchy窗口看到继承层次的导航。在方法或类名上点击右键，选择Open
Type Hierarchy即可，快捷键是F4。

介绍完毕，这里在介绍一些其他的跟踪源码的方法：

1、用Open Declaration可以查看类、方法和变量的声明。这是最常用的一个功能了，如果在要追踪的对象上点右键，选择Open
Declaration，可以跳转到其声明的地方。这个功能有个快捷键是F3，当然你也可以按住Ctrl键，鼠标移过去会变成一个小手，单击就可以了。

2、用Open Super
Implemention可以查看当前方法在父类中的实现或接口中的声明(前提是该方法是对父类或接口中相应方法的重写)，在方法名上点击右键，选择Open Super
Implemention即可。

3、最后介绍一个超级好用的功能，叫Open
Implemention，就是可以跳转到某个调用的方法的具体实现的地方去。为什么说这个是超级好用呢?用过Spring的人都知道，现在都提倡面向接
口编程，所以，如果使用Open
Declaration来追踪一个方法的调用的话，只会看到该方法在接口中的声明，而看不该方法在具体类中的实现，当然，可以使用Call
Hierarchy先得到该方法的整个的调用层次，然后再导航到具体的实现处，但操作有些麻烦了。

有了Open Implemention，就可以直接看到实现的代码了，在方法名上点击右键，选择Open
Implemention就可以了!只是要享受这个功能，可安装一个Eclipse插件，这里就不在详细介绍了。

F. 如何在hadoop2.5.2使用命令行编译打包运行自己的maprece程序

网上的 MapRece WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的，大多又是 0.20 等旧版本版本的做法，即 javac -classpath /usr/local/Hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java，但较新的 2.X 版本中，已经没有 hadoop-core*.jar 这个文件，因此编辑和打包自己的 MapRece 程序与旧版本有所不同。
本文以 Hadoop 2.7.2 环境下的 WordCount 实例来介绍 2.x 版本中如何编辑自己的 MapRece 程序。

编译、打包 Hadoop MapRece 程序
我们将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中，在 ~/.bashrc 中增加如下几行：

[html] view plain
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

别忘了执行 source ~/.bashrc 使变量生效，接着就可以通过 javac 命令编译 WordCount.java 了（使用的是 Hadoop 源码中的 WordCount.java，源码在文本最后面）：javac WordCount.java

编译时会有警告，可以忽略。编译后可以看到生成了几个 .class 文件。

接着把 .class 文件打包成 jar，才能在 Hadoop 中运行：

[html] view plain
jar -cvf WordCount.jar ./WordCount*.class

开始运行：
[html] view plain
hadoop jar WordCount.jar WordCount input output//hdfs上的input文件夹，命令执行所在位置为WordCount.jar同一目录

因为程序中声明了
package ，所以在命令中也要 org.apache.hadoop.examples 写完整：

[html] view plain
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

查看：
[html] view plain
hadoop fs -cat /output/part-r-00000
WordCount.java 源码

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.Recer;
import org.apache.hadoop.maprece.lib.input.FileInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumRecer
extends Recer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void rece(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumRecer.class);
job.setRecerClass(IntSumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

G. 怎么对hadoop源码进行优化

自己修改hadoop源码，然后自己打包替换原来的包就可以了

H. hadoop的源代码怎么下载应该下载哪一个文件不知道选择那个

根据你的系统和需求来下载
如果你的OS是Fedora ，是64位机的话，可以选择下载后缀是amd64.rpm包，使用rpm命令安装。
如果你的OS是Fedora ，是32位机的话，可以选择下载后缀是i386.rpm包，使用rpm命令安装。

如果你的OS是Debian或Ubuntu，是64位机的话，可以下载amd64.deb包。
如果你的OS是Debian或Ubuntu，是32位机的话，可以下载i386.deb包。

如果不确定的话，那么下载tar.gz包，解压缩到你想安装的目录（/usr/local/）即可，然后做环境配置。

I. hadoop hdfs 源码怎么看

在使用Hadoop的过程中，很容易通过FileSystem类的API来读取HDFS中的文件内容，读取内容的过程是怎样的呢？今天来分析客户端读取HDFS文件的过程，下面的一个小程序完成的功能是读取HDFS中某个目录下的文件内容，然后输出到控制台，代码如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//这两行都会创建一个DistributedFileSystem对象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)这行代码创建一个DistributedFileSystem，如果直接传入一个Configuration类型的参数，那么默认会读取属性fs.default.name的值，根据这个属性的值创建对应的FileSystem子类对象，如果没有配置fs.default.name属性的值，那么默认创建一个org.apache.hadoop.fs.LocalFileSystem类型的对象。但是这里是要读取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name属性的值为hdfs://localhost:9000，这样FileSystem.get(conf)返回的才是一个DistributedFileSystem类的对象。还有一种创建DistributedFileSystem这种指定文件系统类型对像的方法是使用FileSystem.get(Configuration conf)的一个重载方法FileSystem.get(URI uri, Configuration)，其实调用第一个方法时在FileSystem类中先读取conf中的属性fs.default.name的值，再调用的FileSystem.get(URI uri, Configuration)方法。

阅读全文

热点内容

低能耗电脑打印服务器发布：2025-03-09 10:45:06 浏览：313

英雄联盟免费脚本发布：2025-03-09 10:38:14 浏览：26

短信报警脚本发布：2025-03-09 10:27:54 浏览：953

写脚本的大婶发布：2025-03-09 10:19:27 浏览：629

安卓app怎么上线发布：2025-03-09 10:15:11 浏览：149

pythonlistmax 发布：2025-03-09 10:15:10 浏览：681

c语言排班发布：2025-03-09 10:06:48 浏览：278

安卓手机网络通讯出现问题怎么办发布：2025-03-09 10:02:05 浏览：288

华为nm存储卡软件未响应发布：2025-03-09 09:57:44 浏览：610

问你个密码是多少发布：2025-03-09 09:56:05 浏览：870

hadoop252源码

与hadoop252源码相关的资讯