티스토리 뷰
728x90
4월에 만지작 거리던 프로젝트를 11월 말에야 다시 열어보게 되었는데..
pdf 파일 내 텍스트 추출은 https://blog.taeseong.me/394에서 했던 대로 처리를 했지만
표 같은 양식이 있는 파일들은 텍스트를 파싱하기에 좀 어려움이 있어서 어떻게 해야하나 하다가
아래 방법으로 해결했습니다.
File source = new File(filePath);
PDDocument pdfDoc = PDDocument.load(source);
PDFTextStripper pts = new PDFTextStripper() {
@Override
protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
writeString(text.trim() + "|");
}
};
String text = pts.getText(pdfDoc);
텍스트 출력을 위해 사용하는 PDFTextStripper에서 텍스트에 구분자를 붙이도록 처리한 방식입니다.
728x90
'헉!! > jsp, java' 카테고리의 다른 글
[Java] Functional Interface 와 Lambda (0) | 2024.07.20 |
---|---|
[Java] Stream (0) | 2024.07.20 |
[JAVA] PDF to XLS (0) | 2020.04.09 |
[JAVA] PDF 파일 텍스트 읽기 (0) | 2020.04.09 |
[JAVA] try-with-resources와 Multi-catch Exceptions (0) | 2016.08.27 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 아이폰 어플리케이션
- Java
- 오브젝티브 C
- 아이폰
- 티스토리챌린지
- iPhone
- 제이쿼리
- 오블완
- iBATIS
- Spring Framework
- Spring
- iOS 개발
- tomcat
- oracle
- Objective C
- jQuery
- Objective-C
- MySQL
- Object C
- 자바스크립트
- 자바
- MAC OSX 10.7
- Programming
- SQL
- JSP
- zero
- JavaScript
- 아이폰 개발
- 오브젝트 C
- IT
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함