说明:只支持world 2003 不支持2007 以及用WPS新建的world文档
package world;
import java.io.File;
import java.io.FileInputStream;
import org.textmining.text.extraction.WordExtractor;
public class WorldDemo {
public static String readDoc(String doc) throws Exception {
// 创建输入流读取doc文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对doc文件进行提取
text = extractor.extractText(in);
return text;
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try{
String text = WorldDemo.readDoc("D:\\3.doc");
System.out.println(text);
}catch(Exception ex){
ex.printStackTrace();
}
}
}
分享到:
相关推荐
里面包含一个word转pdf的jar,和一个读取pdf的jar。可以实现Java读取Word文档的页数。
用Java读取Word文档
java读取不同版本文档的内容以及字体大小,实现对文档格式进行匹配!
本代码实现使用Java程序读取word文档成网页,将word文档按原样在网页输出。项目编码为UTF-8,文件编码也是utf8,再不要说乱码这种骚话了,选择utf8加载项目就不会乱码
整理了用java如何读取word文档,pdf文档的几种方法,含有程序
java读取word文档.pdf
Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...
通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中
java利用poi读取word文档内容所依赖的jar包。poi可以读取doc、docx格式文档。
java 利用POI读取Word文件中的内容 java 利用POI读取Word文件中的内容
JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)
用java语言实现对word表格操作,实现自动批量往数据库中插入数据,节省插入数据时间。
java可以快速读取word里面的内容,如题所示
java调用PageOffice在线编辑word文件的时候,获取word文档的条目化内容。 PageOffice V4.0 企业版试用序列号:Q37LN-W8NI-KFSQ-LEY3Y 部署步骤: 1. 拷贝simpledemo8文件夹到Tomcat的webapps目录下 2. 访问...
java 实现 word 文档的在线预览,资源包含代码和jar包,下载放入项目既可以使用
java读取word文档 这是我收集的资料 加以汇总 希望对你有用~~
Java读取Word中的表格(Excel),并导出文件为Excel
jacob官方文档,java读取word文档
java准确读取word页码,正确率100%,请结合本文查看http://blog.csdn.net/tiandixuanwuliang/article/details/71298406
java操作word可操作书签,在word模板文档上设置书签,然后从数据库中查询数据,填充到word文档书签位置,刚拿到需求时,使劲在网上找资料。幻想第三方jar包,帮我实现。有Apatch的POI,java2word,jcob等,一直让我无法...