码迷,mamicode.com
首页 > 其他好文 > 详细

读取pdf中的内容

时间:2019-12-10 17:17:49      阅读:171      评论:0      收藏:0      [点我收藏+]

标签:tco   flush   rac   import   exce   static   close   获取   int   

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

       public static void main(String[] args) {
             
           //创建PdfDocument实例
           PdfDocument doc= new PdfDocument();

           //加载PDF文件
           doc.loadFromFile("test.pdf");       

           StringBuilder sb= new StringBuilder();       

           PdfPageBase page;
       
           //遍历PDF页面,获取文本
           for(int i=0;i<doc.getPages().getCount();i++){
               page=doc.getPages().get(i);
               sb.append(page.extractText(true));
           }

           FileWriter writer;

           try {
               //将文本写入文本文件
               writer = new FileWriter("ExtractText.txt");
               writer.write(sb.toString());
               writer.flush();
           } catch (IOException e) {
              e.printStackTrace();
}

doc.close();       
}

读取pdf中的内容

标签:tco   flush   rac   import   exce   static   close   获取   int   

原文地址:https://www.cnblogs.com/xianz666/p/12017366.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!