apache tika检测文件是否损坏的方法

树叶云

Apache Tika用于文件类型检测和从各种格式的文件内容提取的库。

将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏

maven引入如下:

<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-app</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>xerces</groupId>
<artifactId>xercesImpl</artifactId>
<version>2.11.0</version>
</dependency>

  如果jar包冲突时可以引入如下:

<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>xerces</groupId>
<artifactId>xercesImpl</artifactId>
<version>2.11.0</version>
</dependency>

使用tika检测文件是否损坏: 

  如果从输入流读取失败,则parse方法抛出IOException异常,从流中获取的文档不能被解析抛TikaException异常,处理器不能处理事件则抛SAXException异常

  当文档不能被解析时,说明文档损坏

执行过程:

public static void main(String[] args) {
try {
//Assume sample.txt is in your current directory
File file = new File(“D:\\测试.txt”);
boolean result = isParseFile(file);
} catch (Exception e) {
e.printStackTrace();
}
}

/**
* 验证文件是否损坏
*
* @param file 文件
* @return true/false
* @throws Exception
*/
private static boolean isParseFile(File file) throws Exception {
try {
Tika tika = new Tika();
String filecontent = tika.parseToString(file);
System.out.println(filecontent);
return true;
} catch (TikaException e) {
return false;
}
}

  输出结果:

测试数据—读取文本内容

总结

以上所述是小编给大家介绍的apache tika检测文件是否损坏的方法,大家如有疑问可以留言,或者联系站长。感谢亲们支持!!!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

香港服务器首选树叶云,2H2G首月10元开通。
树叶云(www.IDC.Net)提供简单好用,价格厚道的香港/美国云服务器和独立服务器。IDC+ISP+ICP资质。ARIN和APNIC会员。成熟技术团队15年行业经验。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/203883.html<

(0)
运维的头像运维
上一篇2025-04-06 21:46
下一篇 2025-04-06 21:47

相关推荐

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注