티스토리 뷰

728x90

 

 

4월에 만지작 거리던 프로젝트를 11월 말에야 다시 열어보게 되었는데..

pdf 파일 내 텍스트 추출은 https://blog.taeseong.me/394에서 했던 대로 처리를 했지만

표 같은 양식이 있는 파일들은 텍스트를 파싱하기에 좀 어려움이 있어서 어떻게 해야하나 하다가

아래 방법으로 해결했습니다.

File source = new File(filePath);
PDDocument pdfDoc = PDDocument.load(source);
PDFTextStripper pts = new PDFTextStripper() {
    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
    	writeString(text.trim() + "|");
    }
};
String text = pts.getText(pdfDoc);

 

텍스트 출력을 위해 사용하는 PDFTextStripper에서 텍스트에 구분자를 붙이도록 처리한 방식입니다.

 

 

 

728x90

'헉!! > jsp, java' 카테고리의 다른 글

[Java] Functional Interface 와 Lambda  (0) 2024.07.20
[Java] Stream  (0) 2024.07.20
[JAVA] PDF to XLS  (0) 2020.04.09
[JAVA] PDF 파일 텍스트 읽기  (0) 2020.04.09
[JAVA] try-with-resources와 Multi-catch Exceptions  (0) 2016.08.27