博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[java] 获取pdf/word文档文本内容
阅读量:5131 次
发布时间:2019-06-13

本文共 2196 字,大约阅读时间需要 7 分钟。

package com;

import java.io.File;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
//import java.io.FileInputStream;
//import java.io.FileNotFoundException;
//import java.io.IOException;
//import java.util.HashMap;
//import java.util.Iterator;
//import java.util.Map;
//
//import org.apache.poi.hwpf.HWPFDocument;
//import org.apache.poi.hwpf.model.FieldsDocumentPart;
//import org.apache.poi.hwpf.usermodel.Field;
//import org.apache.poi.hwpf.usermodel.Fields;
//import org.apache.poi.hwpf.usermodel.Range;

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.poi.POITextExtractor;
import org.apache.poi.extractor.ExtractorFactory; 

public class Test {

public static void main(String[] args) {

   /*
   try {      

    //word格式

    String path="D:\\workspace\\MyPlatFileNew\\web\\content\\kent\\a6\\uploadattach\\iplat4j01361351007003_20130220170327.doc";
    System.out.println("========"+path);
     File inputFile = new File(path);  
    
             POITextExtractor extractor = ExtractorFactory.createExtractor(inputFile);
             System.out.println("Document Text: ");  
             System.out.println("====================");  
             System.out.println(extractor.getText());  
             System.out.println("====================");
         }catch (Exception ex) {  
             ex.printStackTrace();  
         }*/

   //pdf格式

   FileInputStream fis = null;
      String path="D://知识积累//EL.pdf";
   try {
    fis = new FileInputStream(path);
   } catch (FileNotFoundException e) {
    e.printStackTrace();
   }
      PDFParser p = null;
   try {
    p = new PDFParser(fis);
   } catch (IOException e) {
    e.printStackTrace();
   }
      try {
    p.parse();
   } catch (IOException e) {
    e.printStackTrace();
   }  
      PDFTextStripper ts = null;
   try {
    ts = new PDFTextStripper();
   } catch (IOException e1) {
    e1.printStackTrace();
   }  
      String s = null;
   try {
    s = ts.getText(p.getPDDocument());
    System.out.println("----------begin------------");
    System.out.println(s);
    System.out.println("-----------end-----------");
   } catch (IOException e) {
    e.printStackTrace();
   }
   
      try {
    fis.close();
   } catch (IOException e) {
    e.printStackTrace();
   } 
 }

}

需要用到的jar包有pdfbox-1.7.1.jar,poi-3.9-20121203.jar,poi-ooxml-3.9-20121203.jar。

转载于:https://www.cnblogs.com/kentyouyou/archive/2013/03/13/2957848.html

你可能感兴趣的文章
转载 C#文件中GetCommandLineArgs()
查看>>
list control控件的一些操作
查看>>
精读《useEffect 完全指南》
查看>>
SNF快速开发平台MVC-EasyQuery-拖拽生成SQL脚本
查看>>
DrawerLayout实现双向侧滑
查看>>
MySQL入门很简单-触发器
查看>>
LVM快照(snapshot)备份
查看>>
绝望的第四周作业
查看>>
一月流水账
查看>>
数论四大定理
查看>>
npm 常用指令
查看>>
20几个正则常用正则表达式
查看>>
TextArea中定位光标位置
查看>>
非常棒的Visual Studo调试插件:OzCode 2.0 下载地址
查看>>
判断字符串在字符串中
查看>>
hdu4374One hundred layer (DP+单调队列)
查看>>
类间关系总结
查看>>
properties配置文件读写,追加
查看>>
Linux环境下MySql安装和常见问题的解决
查看>>
lrzsz——一款好用的文件互传工具
查看>>