`
小网客
  • 浏览: 1214551 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于概率的网页正文页抽取方案

 
阅读更多

背景:

需要抽取网页的正文页和列表页

 

分析:

1.同一类型的网页其变化的是内容,不变的是样式布局

2.解析dom tree,叶子节点为文本,那么深度遍历全树可以获取其文本值

3.变化的是内容不变的是样式布局,那么可以基于概率构造需要数据的xpath

 

思路:

1.获取所有节点的xpath,保存xpath和文本值

2.遍历n个同类型的网页获取满足某一概率的所有变化的xpath

3.基于xpath生成模板进行网页解析,其对应项通过人工干预方式获取

 

0
0
分享到:
评论
2 楼 小网客 2015-04-25  
fwch1982718627 写道
请问:2.遍历n个同类型的网页获取满足某一概率的所有变化的xpath。这句话怎么理解啊?

比如有如下path:
xpath1 文本1 
xpath2 文本2 
xpath3 文本3 
原则上正文之类是变化的而固定的东西比如头部 尾部等都是固定的 其他的是变化的到时候出一个变化的概率值,当这个变化的概率值超过阀值那么就是想要的
例如:10篇
统计
xpath1 值10, --文本10篇(也就是每篇都不一样)
xpath2 值8, ---8篇(去重之后为8)
xpath3 值1, ---文本1篇(10篇完全一样)
基于阀值0.8 那么  xpth1和xpath2胜出 为想要的文本的xpath
有啥问题在沟通 哈
1 楼 fwch1982718627 2015-04-22  
请问:2.遍历n个同类型的网页获取满足某一概率的所有变化的xpath。这句话怎么理解啊?

相关推荐

Global site tag (gtag.js) - Google Analytics