2008-01-09
JAVA中使用Htmlparse解析HTML文档
关键字: java实现import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map<String, String> map = new HashMap<String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://www.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 通过过滤器过滤出<A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)//<A>标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
发表评论
提醒: 该博客已发表在公共论坛,博客所有留言会成为论坛回贴,留言请注意遵守论坛发贴规则
- 浏览: 1496 次
- 性别:

- 来自: 北京

- 详细资料
搜索本博客
最近加入圈子
最新评论
-
JAVA发送HTTP请求,返回HT ...
谢谢楼住啊,解了我的燃眉之急,十分感谢!
-- by lianyarong -
PHP验证码应用,示例
明白了 是iimg.location.reload();以前没用过,学会了。
-- by ctrlming -
PHP验证码应用,示例
不知道你在客户端是怎么调用后台生成图片的方法的?
-- by ctrlming -
PHP验证码应用,示例
zwws的意思是 session_is_registered()session_ ...
-- by boin -
PHP验证码应用,示例
zwws 写道本例中SESSION的处理方式比较老... 现在用SUPERGLO ...
-- by xombat






评论排行榜