需求:
需要采集js渲染的页面,有些网站的页面是js渲染的
实现:
基于HtmlUnit实现:
public static void getAjaxPage() throws Exception{ WebClient webClient = new WebClient(); webClient.setJavaScriptEnabled(true); webClient.setCssEnabled(false); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.setTimeout(Integer.MAX_VALUE); webClient.setThrowExceptionOnScriptError(false); HtmlPage rootPage = webClient.getPage("http://tt.mop.com/read_14304066_1_0.html"); System.out.println(rootPage.asXml()); }
maven依赖:
<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit-core-js</artifactId> <version>2.9</version> <scope>compile</scope> </dependency> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.9</version> <scope>compile</scope> </dependency>
说明:
Nutch插件:nutch-htmlunit用于替换Nutch自身的Http Fetch组件
相关推荐
获取执行js代码后的html文档。
htmlunit 是java编写的对AJAX html(动态网页)进行渲染的有力工具,做互联网信息抓取项目时可能用到
java使用htmlunit工具抓取js中加载的数据.docx
特殊的AJAX请求页面抓取: 诸如淘宝/天猫的页面采用了独特的Kissy Javascript组件, 导致htmlunit无法直接感知到需要等待Kissy发起的请求完成,通过等待页面加载解析内容判断处理实现此类页面数据抓取。 ...
赠送jar包:htmlunit-core-js-2.27.jar; 赠送原API文档:htmlunit-core-js-2.27-javadoc.jar; 赠送源代码:htmlunit-core-js-2.27-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.27.pom; 包含翻译后...
一共有21个jar包。亲测可用不冲突! 上述的jar包支持爬取动静态界面。
赠送jar包:htmlunit-core-js-2.27.jar; 赠送原API文档:htmlunit-core-js-2.27-javadoc.jar; 赠送源代码:htmlunit-core-js-2.27-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.27.pom; 包含翻译后...
htmlunit2.8 + jsoup1.7各种网站上的数据抓取。
htmlUnit所需工具包,htmlUnit,htmlUnit,htmlUnit,htmlUnit,htmlUnit
htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );
高效的java爬虫,内附代码 sql数据表 ,main方法启动。...避免了jsoup无法抓取js代码生成的数据内容的弊端。避免了client无法一次性获取大量信息的弊端。有能获取静态页面形成之前的对方数据内容的高手 欢迎借阅指导
赠送jar包:htmlunit-core-js-2.33.jar; 赠送原API文档:htmlunit-core-js-2.33-javadoc.jar; 赠送源代码:htmlunit-core-js-2.33-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.33.pom; 包含翻译后...
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。 项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。 采用的是Rhinojs引擎。模拟js...
使用HTMLUnit,PhantomJS和JBrowserDriver爬行不同的网站 上述无浏览器驱动程序的简单示例。
赠送jar包:htmlunit-core-js-2.33.jar; 赠送原API文档:htmlunit-core-js-2.33-javadoc.jar; 赠送源代码:htmlunit-core-js-2.33-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.33.pom; 包含翻译后...
htmlunit jar zip 2.23 用于html爬虫
htmlunit2.8.jar
htmlunit-2.1.5的源码,可以提高我们对htmlunit的理解
htmlunit-2.26-bin ,htmlunit的jar包,js动态生成数据的抓取
htmlunit-2.31,亲测可用!能很好的完成抓取需求,能够模拟输入、点击按钮、解析结果