기본 콘텐츠로 건너뛰기

Java jsoup 이용 HTML 파싱

Jsoup 추가
https://jsoup.org/download

HttpClient 추가
http://hc.apache.org/downloads.cgi

소스:
import java.io.IOException;
import java.util.Iterator;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.HttpResponseException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.BasicResponseHandler;
import org.apache.http.impl.client.DefaultHttpClient;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
 public static void main(String args[]) {
   HttpClient httpClient = new DefaultHttpClient();
   HttpGet httpget = new HttpGet("http://kbodata.news.naver.com/m_rank/rank_team.asp");
   try {
     httpClient.execute(httpget, new BasicResponseHandler() {
       @Override
       public String handleResponse(HttpResponse response) throws HttpResponseException,
           IOException {
         // 웹페이지를 그냥 갖어오면 한글이 깨져요. 인코딩 처리를 해야해요.
         String res = new String(super.handleResponse(response).getBytes("8859_1"), "euc-kr");
         Document doc = Jsoup.parse(res);
         Elements rows = doc.select("table.table_board2 tbody tr");
         String[] items = new String[] { "순위", "팀", "경기수", "승", "패", "무", "승률", "연속",
             "최근 10경기" };
         for (Element row : rows) {
           Iterator iterElem = row.getElementsByTag("td").iterator();
           StringBuilder builder = new StringBuilder();
           for (String item : items) {
             builder.append(item + ": " + iterElem.next().text() + "   \t");
           }
           System.out.println(builder.toString());
         }
         return res;
       }
     });
   } catch (ClientProtocolException e) {
     e.printStackTrace();
   } catch (IOException e) {
     e.printStackTrace();
   }
 }
}

댓글

이 블로그의 인기 게시물

UltraEdit Professional Version 18.20.0.1014 라이센스 키 넣기

Step 1: unpack rar archive      Step 2: run the setup   Step 3: Use the given keygen to activate    Add the line   127.0.0.1 licensing.ultraedit.com         to your %WINDOWS%\system32\drivers\etc\hosts file                 Enter any data for license-id and password (license-id must be a         number)                 Choose Offline activation and generate corresponding activation         codes for your user codes   Step 4: Enjoy and Support Developers, Buy It, They Deserved It!

gsjava WeGuardia™ SSLplus 특징(퓨쳐시스템 => 퓨쳐텍정보통신으로 이관)

☎ 문의 :  010-3240-0041 김성은 소장 01.   웹기반   인터페이스   제공 ……. –  웹기반   인터관리   및   사용   편리성을   제공 ……. –  실시간 터널수, 실시간 위반 사용자 등   복잡   정교한   정보   표시를   구현 02.   사용자를   위한   다양한   클라이언트   제공 ……. –  윈도우 , IOS,MAC, 안드로이드   및   리눅스   클라이언트   제공 ……. –  항시   암호화된   네트워크   연결성 ,  보안성   및   단말  Compliance  등  NAC  기능 03.   사용자   친화적   앱   목록 ……. – OS 별 앱 목록을 등록후 사용 가능 ……. –  사용자는   접속   정보   기억   불필요 ,  접속   후 ,  앱   목록에서   원하는   앱을   선택하여   클릭 ……. –  기업   필수   앱   배포   가능 04.   효율적인  VPN Tunneling ……. – Non Split Tunneling 과  Split Tunneling 을   지원 ,  업무   트래픽과   일반   인터넷   트래픽   분리   처리   가능 ……. – WeGuardia™SSLplus  보안설정을 ...