기본 콘텐츠로 건너뛰기

HtmlUnit

다운로드:
https://sourceforge.net/projects/htmlunit/

샘플 소스
http://htmlunit.sourceforge.net/xref-test/com/gargoylesoftware/htmlunit/html/HtmlSelectTest.html

이클립스
jar파일을 다운로드 받아 이클립스 프로젝트 build path에 추가해주자

build path
프로젝트를 선택후 Alt + Enter 를 누르면 Properties가보이고
왼쪽 목록에 Java Build Path 가 보일겁니다.

보통 JAR 파일을 프로젝트에 넣을때, 이렇게 사용합니다.

방법 1 :




- 프로젝트 안에 lib 라는 새 폴더 만들기 (이름은 아무거나)

- 그 안에 jar 파일 넣기

- 이클립스에서 refresh 하면 폴더가 보여짐

- jar 파일을 모두 선택한후에 , 오른쪽 클릭 -  Build Path - Add to Build Path 클릭하면 끝

- 이클립스에서 Referenced Libraries 에 보여질것임.

방법 2 :

- 프로젝트 안에 lib 라는 새 폴더 만들기 (이름은 아무거나)

- 그 안에 jar 파일 넣기

- 이클립스에서 refresh 하면 폴더가 보여짐

- Project -> Select Build Path -> Select Configure Build Path -> Library   Add Jars .. 로  lib 폴더 안의 jar 파일
  선택함

- 이클립스에서 Referenced Libraries 에 보여질것임.

import java.io.OutputStream;
import java.io.PrintStream;
import java.util.List;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;



public class HelloWorld {
public static void main(String[] args) throws Exception {
       turnOffSystemErr();
    // WebClient == virtual web browser (here as firefox)
       //WebClient webClient = new WebClient(BrowserVersion.FIREFOX_45);
       WebClient webClient = new WebClient();

       // read a html page via WebClient
       // this includes some parcing process so it takes some time
       HtmlPage page = webClient.getPage("http://static.nid.naver.com/loginbox.nhn");
       System.out.println(page.getTitleText());
       System.out.println(page.getEndLineNumber());

       // call HtmlPage.asXml() to get whole raw html code
       String pageAsXml = page.asXml();
       System.out.println(pageAsXml);

       // call HtmlPage.asText() to get only human-readable text
       String pageAsText = page.asText();
       System.out.println(pageAsText);

       // call page.getXX() to find a tag
       HtmlDivision div = (HtmlDivision) page.getElementById("login_container");
       HtmlAnchor a = page.getAnchorByHref("javascript:useLevel(1);");
       System.out.println(div.asXml());
       System.out.println(a.asXml());

       // call page.getByXPath() to find a tag, using XPath (RECOMMENDED)
       List divList = page.getByXPath("//div");
       HtmlInput input = (HtmlInput) page.getByXPath("//input[@name='id']").get(0);
       System.out.println(divList.size());
       System.out.println(input.asXml());

       // finish the virtual web browser
       //webClient.closeAllWindows();

System.out.println("Hello World");
}
private static void turnOffSystemErr() {
        System.setErr(new PrintStream(new OutputStream() {
            public void write(int b) {
                // do nothing
            }
        }));
    }


}

댓글

이 블로그의 인기 게시물

[Java] Http File Download 이어받기

Http 서버로부터 다운로드 받는 파일을 이어받기 위해서는 Http Header에 아래 두가지 정보를 추가해 주면 된다. URLConnection conn = url.openConnection(); conn.setRequestProperty("Accept-Ranges", "bytes"); conn.setRequestProperty("Range", "bytes=" + mOffset + "-"); 그러면 서버에서는 해당 Offset으로부터 File을 다운로드 시켜준다. 클라이언트가 요청헤더에 Range 필드를 포함 시켜서 보내면, 서버는 그 정보를 가지고 어디서 부터 파일을 보낼지 판단을 합니다. 하지만 클라이언트가(브라우저) Range 필드를 포함 시켜야 할지를 판단하는 기준은 최초 다운로드 요청시 서버의 응답헤더에 따라 다음 요청헤더에 Range 헤더를 생성할지 않할지 판단하게 됩니다. 그걸 당락짓는 응답 헤더 필드는 다음과 같습니다. Accept-Ranges , ETag, Last-Modified 반드시 위 필드를 응답 헤더에 같이 보내줘야 클라이언트는 다음 요청시 Range헤더를 포함시켜 보내게 됩니다. 참고로 말씀 드리면 위 필드를 포함 시켜서 보내더라도 value는 반드시 " " 로 묶어서 보내야 합니다. 안그러면 브라우저는 죽어도 Range 필드를 생성시키지 않습니다. HTTP 1.1 스펙은 따옴표를 강제적으로 해줘라 이런 내용 없습니다. 자바기준 40byte의 파일이라치면 클리이언트 요청을 두번으로 나누었다치면 이케 connection.setRequestProperty("Range", "bytes=0-20"); connection.setRequestProperty("Range", "bytes=20-40"); 단 co...

java 특정 디렉토리에 있는 파일 목록을 읽어내기, 정렬해서 가져오기

폴더 리스트 가져오기 String path="C:\"; File dirFile=new File(path); File []fileList=dirFile.listFiles(); for(File tempFile : fileList) {   if(tempFile.isFile()) {     String tempPath=tempFile.getParent();     String tempFileName=tempFile.getName();     System.out.println("Path="+tempPath);     System.out.println("FileName="+tempFileName);     /*** Do something withd tempPath and temp FileName ^^; ***/   } } 정렬해서 가져오기 import java.io.FileFilter; import java.io.IOException; import java.util.Arrays; import java.util.Date; import org.apache.commons.io.comparator.LastModifiedFileComparator; import org.apache.commons.io.filefilter.FileFileFilter; public class LastModifiedFileComparatorTest { public static void main(String[] args) throws IOException { File directory = new File("."); // get just files, not directories File[] files = directory.listFiles((FileFilter) FileFileFilter.FILE); System.out.println("Defaul...