1、加入jsoup-1.6.2.jar

 

2、準備好url

 

3、建立連接--Jsoup.connect(url)

 

4、解析html--Connection.get()
package com.xing.jsoup;

 

import java.io.IOException;

 

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

 

import com.xing.crawl.LinkQueue;

 

public class EasyCrawl {

 

/**
* @param args
*/
public static void main(String[] args) {
String url = "HTTP://kaoshi.edu.sina.com.cn/collegedb/collegelist.php?_action=t&provid=1" ;
String baseUrl = "HTTP://kaoshi.edu.sina.com.cn/";
EasyCrawl easyCrawl = new EasyCrawl();
easyCrawl.collegeTotalPage(url, baseUrl);
}

 

public void collegeTotalPage(String url , String baseUrl){
LinkQueue.addUnvisitedUrl(url);
Document doc;
try {
Connection conn = Jsoup.connect(url);
設置超時時間
conn.timeout(5000);
doc = conn.get();
Elements trs = doc.select("table.c_list tr");
Element lastTr = trs.get(trs.size()-1);
if(lastTr.select(".pagebox_cur_page").size()==1){
Elements as = lastTr.select("a");
int length = as.size();
if(as!=null && length > 0){
for(int p=0 ; p< length-1 ; p++){
Element page = as.get(p);
System.out.println(page.attr("href"));
LinkQueue.addUnvisitedUrl(baseUrl+page.attr("href"));
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}

 

}
創作者介紹
創作者 shadow 的頭像
shadow

資訊園

shadow 發表在 痞客邦 留言(0) 人氣()