网站首页 > 开源技术 正文
ApacheTika是一个库,用于文档类型检测和从各种文件格式中提取内容。参考:https://www.tutorialspoint.com/tika/tika_overview.htm
使用代码
在本文中,我将提供一个示例,说明如何在Eclipse中创建新项目,并尝试运行一个示例以使用Apachetika库检测文件类型。
脚步
我正在使用Apache-tika1.20版本。可以从http://tika.apache.org/download.html下载。下载jar文件并将其保存在您的计算机上。
打开Eclipse并创建一个新的Java项目,如下所示:
给项目起个名字;说“DetectType”并设置您正在使用的JRE版本。如果列表中没有梳妆台,请安装它。
右键单击“src”,然后选择“新建”->“类”。给它起个名字,说'DetectType'。刷新项目,您将看到src中添加了新文件。
添加body到新添加的文件中:
public class DetectType
{
public static void main(String[] args) throws Exception
{
}
}
}1234567复制代码类型:[html]
在与上述相同的工作空间下创建一个文件夹'lib',然后将jar文件复制到该lib文件夹中。
将jar文件添加到您的DetectType项目中。右键单击您的项目,然后选择属性->Java构建路径->添加JAR。
在您的项目中选择新复制的jar文件。如果看不到jar文件,请刷新您的项目,然后重试。您的属性窗口现在应如下所示:
刷新您的项目,然后在ProjectExplorer上,您现在可以看到正在添加的jar文件。
更新您的代码主体以包括Tika该类并检测文件类型。
import org.apache.tika.Tika;
public class DetectType
{
public static void main(String[] args) throws Exception
{
// Create a Tika instance with the default configuration
Tika tika = new Tika();
// Parse all given files and print out the extracted
// text content
for (String file : args) {
String fileType = tika.detect(file);
System.out.println("File type of '" + file + "' is : " + fileType);
}
}
}12345678910111213141516复制代码类型:[java]
Projectheirachy应该如下所示(请注意,您可以将软件包名称设置为'defaultpackage'。我将其保留为'org.apache.tika'。在下一节中,我将导入整个tika源代码,以防万一。的调试)。
上面的程序期望输入参数作为文件名。这可以作为参数传递。像这样:
现在运行程序,您应该在控制台中获得结果。像这样的东西:
格式'1.vsd'的文件类型为application/vnd.visio。
上面的示例是一个用于检测文件类型的小示例。有很多公开的API,可用于提取更多的元数据,甚至文件类型的内容。有关完整列表,请参见https://tika.apache.org/1.20/api/。
Tika支持以下各种功能:
文件类型检测
内容提取
元数据提取
语言检测
调试ApacheTika外观
如果您希望将整个Apachetika源代码添加到Eclipse项目中并调试Facade类/函数,请遵循以下步骤。
org.apache.tika在您的src中创建一个新包''(如上一节中的第11点所示)
在“org.apache.tika”下创建一个新类。右键单击'org.apache.tika'->New->Class。给它一个您选择的名称,说'DetectType'。
从http://tika.apache.org/download.html下载源代码“适用于tika-1.20-src.zip的镜像”。
解压缩上面的代码将为您提供可用于我们调试上面代码中分类的外观的程序包。
tika-core从上方进入并将“tika-core\src\main\java\org\apache\tika”文件夹中的内容复制到工作区“DetectType\src\org\apache\tika”的文件夹中。在Eclipse中刷新项目,您将把所有这些视为软件包。我有一些但不是全部的屏幕截图:
如果您在项目中看到任何错误,那是由于“package-info.java”引起的。删除此文件,因为该文件的唯一目的是为程序包级文档和程序包级注释提供一个主页。
在任何级别开始调试,您都找不到源代码,进入第4点的文件结构,并将其复制到org/apache/tika中的相应工作区结构中。
如果在使用“org.osgi.framework”,“org.osgi.util”时出现错误,请访问http://www.java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm万维网。java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm并下载jar文件。在步骤8中添加tika-app.jar时,将其添加到您的项目中。
同样,您可能在同一站点上找不到更多的软件包,因为它们可能会使您喜欢'org.sqlite.SQLiteConfig'。
猜你喜欢
- 2025-04-11 Intel架构的基本知识(intel 架构)
- 2025-04-11 虚拟机panic问题排查(虚拟机问题汇总)
- 2025-04-11 Tauri:快速、跨平台的桌面应用程序
- 2025-04-11 「直播」WPS「CHAO」办公大会:WPS的2020和下一个十年
- 2025-04-11 django框架中富文本的应用库(react富文本框)
- 2025-04-11 Froala:下一代所见即所得编辑器(秀米编辑器)
- 2025-04-11 喜讯Android 6.0隐藏功能:终于拥有内置资源管理器
- 2025-04-11 「装个系统」直接在浏览器运行体验Windows 11 真的不用安装
- 2025-04-11 系统小技巧:软件寻替代 任务管理更轻松
- 2025-04-11 2021年Win10又要大改:全新界面,不强制选择
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)