Hadoop对输入路径的过滤问题解决方式

小网客

浏览: 1217873 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MapReduce

需求：

数据格式如下：

/data/input/news/old.dat

/data/input/news/current.dat

/data/input/news/20131001.txt

......

/data/input/news/20131030.txt

/data/input/news/20131031.txt

我们需要计算分析10月份的新闻，其他的暂时不计算，那么就需要做一个过滤操作，input path为新闻根路径即/data/input/news/

思路：

基于PathFilter实现

实现代码：

fitler:

class TextPathFilter extends Configured implements PathFilter {
	Configuration conf = null;

	@Override
	public Configuration getConf() {
		return conf;
	}

	@Override
	public void setConf(Configuration conf) {
		this.conf = conf;

	}

	@Override
	public boolean accept(Path path) {
		String regex = conf.get("org.test.filter.regex");
		if (regex == null) {
			return true;
		}
		return path.toString().matches(regex);
	}

}

使用方式：

Configuration conf = new Configuration();
conf.set("org.test.filter.regex", "2012[1-12][1-31].txt");
........
TextInputFormat.setInputPathFilter(job, TextPathFilter.class);

其他说明：

0.21.0版本之前会报错，错误信息如下：

Caused by: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://your path
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:231)
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:248)
        at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:950)
        at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:967)
        at org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:880)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:833)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1177)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:833)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:476)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:506)

错误原因：

在进行match的时候返回了null，应该返回一个空的FileStatus[]，代码位置在FileSystem.java中

0.21.0版本之后此bug已经修复，因此升级即可

0
顶

0
踩

分享到：

[综合]Apache Hadoop 2.2.0命令行参考手册 ... | [综合]Apache Hadoop 2.2.0集群安装(2)[翻 ...

2013-11-22 15:26
浏览 2810
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop对输入路径的过滤问题解决方式

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop对输入路径的过滤问题解决方式

评论

发表评论

相关推荐

Hadoop的MR中获取JobTracker配置

Hadoop之YARN安装部署

Yarn下的YarnChild启动个数决定参数

HDFS超租约异常（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

hive执行hql脚本

NNBench执行过程和参数说明

yarn下的hdfs和mr性能调优参数一览表

hive安装部署之单用户模式

Hadoop之SafeModeException问题解决

Hadoop之RandomTextWriter使用

Hadoop之RandomTextWriter说明

Hadoop之mrbench

Hadoop之TestDFSIO

Hadoop之InputFormat

Hadoop之BloomFilter

HDFS Federation综述

Hadoop获取文件的元数据信息

Hadoop以某目录下的所有目录作为input源方式

Hadoop中map reduce和client共享数据源的方式

DataNode: Exception in BPOfferService for Block pool BP解决方法

最近访客更多访客>>