PDFBox jar包文件

当前位置 >首页 >软件下载 >电脑软件 >编程开发 >源码相关

PC版下载

软件信息

分类：源码相关
大小：6.6M
语言： 中文
环境： WinAll, Win7
更新：2024-11-13
评级：
系统： Windows Linux Mac Ubuntu
软件类别： 国产软件 / 免费软件 / 源码相关
插件情况：

软件介绍下载地址

提取文本，包括Unicode字符。

和Jakarta Lucene等文本搜索引擎的整合过程十分简单。

加密/解密PDF文档。

从PDF和XFDF格式中导入或导出表单数据。

向已有PDF文档中追加内容。 

将一个PDF文档切分为多个文档。

覆盖PDF文档。

使用PDFBox处理PDF文档

PDF全称Portable Document Format，是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关，可以在Windows、Unix或Mac OS等操作系统上通用。

PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息，需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。

使用PDFBox解析PDF内容

在刚刚创建的Eclipse工程中，创建一个ch7.pdfbox包，并创建一个PdfboxTest类。该类包含一个getText方法，用于从一个PDF中获取文本信息，其代码如下。

import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;

public class PdfParser {

   /**
   * @param args
   */
   // TODO 自动生成方法存根

       public   static   void   main(String[]   args)   throws   Exception{
            FileInputStream   fis   =   new   FileInputStream("F:\task\lerman-atem2001.pdf");
            BufferedWriter writer = new BufferedWriter(new FileWriter("F:\task\pdf_change.txt"));
            PDFParser   p   =   new   PDFParser(fis);
            p.parse();
            PDFTextStripper   ts   =   new   PDFTextStripper();
            String   s   =   ts.getText(p.getPDDocument());
            writer.write(s);
            System.out.println(s);
            fis.close();
            writer.close();

   }
}

首页

系统优化

备份/还原

桌面工具

硬盘工具

卸载软件

教案大全

作文大全

演讲稿

工作总结

个人写作

更多

个人写作

PDFBox jar包文件

使用PDFBox处理PDF文档

使用PDFBox解析PDF内容

下载地址

热门软件