基于NekoHTML和dom4j获取所有html的Xpath

小网客

浏览: 1216873 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java
Spider

背景：

获取html页面所有有text节点的xpath

思路：

NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。而dom4j可以很好的用于XML，XPath和XSL。

基于html构建xml

基于xml获取所有的有text的xpath

环境：

<dependency>
	<groupId>net.sourceforge.nekohtml</groupId>
	<artifactId>nekohtml</artifactId>
	<version>1.9.10</version>
</dependency>

<dependency>
	<groupId>dom4j</groupId>
	<artifactId>dom4j</artifactId>
	<version>1.6.1</version>
</dependency>

实现如下：

import java.io.FileInputStream;
import java.util.Iterator;
import java.util.Map;

import org.apache.commons.lang.StringUtils;
import org.cyberneko.html.parsers.DOMParser;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.DOMReader;
import org.xml.sax.InputSource;

public class NekoHTML {

	public static void main(String[] args) throws Throwable {
		DOMParser parser = new DOMParser();
		parser.parse(new InputSource(new FileInputStream("D:/dom/1.htm")));

		DOMReader domReader = new DOMReader();
		Document document = domReader.read(parser.getDocument());
		Element root = document.getRootElement();
		Map<String, String> map = new java.util.concurrent.ConcurrentHashMap<String, String>();
		dom2XPathMap(root, map);
		System.out.println(map);
	}

	private static void dom2XPathMap(Element root, Map<String, String> map) {
		if (root == null || root.isTextOnly()) {

			if (StringUtils.isNotEmpty(root.getText())) {
				map.put(root.getUniquePath(), root.getText());
			}
			if (map.containsKey(root.getUniquePath())) {
			}

			return;
		}
		Iterator<Element> iterator = root.elementIterator();
		while (iterator.hasNext()) {
			Element el = iterator.next();
			dom2XPathMap(el, map);

		}
	}
}

0
顶

0
踩

分享到：

基于概率的网页正文页抽取方案 | 新闻正文提取之boilerpipe

2013-10-12 17:10
浏览 2014
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于NekoHTML和dom4j获取所有html的Xpath

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于NekoHTML和dom4j获取所有html的Xpath

评论

发表评论

相关推荐

Java中的非对称加密算法RSA实现

apache common包的configuration2使用

Java标准库提取URL的域名

Solr之Solrj封装

Solr之IKAnalyzer集成

linux之jdk安装

使用jsoup或者httpclient解析https协议通用方法

javax.mail发email报501 Syntax: HELO hostname

Gson之map解析

jsoup之文本过滤

Java之浮点运算

Java之IO字节流和字符流

apache common之CSV文件操作

poi组件读取xls文件

java检测文本(字节流)的编码方式

fastjson报can not access a member of class with modifiers ""错误

Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared memory

Java以行读写文件

Map之Value排序实现

Java之UncaughtExceptionHandler

最近访客更多访客>>