使用 SpringBoot + Apache Tika 实现多种文档的内容解析-CFANZ编程社区

在日常开发中，我们经常需要解析不同类型的文档，如 PDF、Word、Excel、HTML、TXT 等。Apache Tika 是一个强大的内容解析工具，可以轻松地提取文档中的内容和元数据信息。本文将通过 SpringBoot 和 Apache Tika 的结合，介绍如何实现对多种文档格式的内容解析。

一、Apache Tika 简介

Apache Tika 是一个用于提取文件内容和元数据的工具库，支持解析各种常见的文档格式，包括但不限于：

文本文件（TXT、CSV）
办公文档（Word、Excel、PowerPoint）
PDF 文档
图像（JPEG、PNG、TIFF）中的文本
音视频文件的元数据
HTML 和 XML 文件

特点：

广泛的格式支持：几乎支持所有常见的文档格式。
简单易用：几行代码即可实现内容解析。
跨平台：基于 Java，可在任何支持 Java 的环境中运行。

二、SpringBoot 集成 Apache Tika

1. 添加 Maven 依赖

在 SpringBoot 项目中引入 Apache Tika 的依赖：

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.7.0</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>2.7.0</version>
</dependency>

2. 定义文档解析服务

创建一个服务类，使用 Apache Tika 提取文档内容：

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.springframework.stereotype.Service;
import java.io.IOException;
import java.io.InputStream;

@Service
public class DocumentParserService {

    private final Tika tika;

    public DocumentParserService() {
        this.tika = new Tika(); // 初始化 Tika 实例
    }

    /**
     * 解析文档内容
     * @param inputStream 文件输入流
     * @return 提取的内容
     * @throws IOException 文件读取异常
     * @throws TikaException Tika 解析异常
     */
    public String parseContent(InputStream inputStream) throws IOException, TikaException {
        return tika.parseToString(inputStream); // 提取文档内容
    }
}

3. 创建上传与解析接口

为了实现文档解析功能，我们需要提供一个接口，允许用户上传文档并返回解析内容：

import org.apache.tika.exception.TikaException;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;

import java.io.IOException;

@RestController
@RequestMapping("/documents")
public class DocumentController {

    @Autowired
    private DocumentParserService documentParserService;

    /**
     * 上传文档并解析内容
     * @param file 上传的文档
     * @return 解析的内容
     */
    @PostMapping("/upload")
    public String uploadDocument(@RequestParam("file") MultipartFile file) {
        try {
            return documentParserService.parseContent(file.getInputStream());
        } catch (IOException | TikaException e) {
            return "文档解析失败: " + e.getMessage();
        }
    }
}

三、测试文档解析

启动 SpringBoot 项目后，可以使用 Postman 或 cURL 发送请求：

curl -X POST -F "file=@example.pdf" http://localhost:8080/documents/upload

示例解析结果

假设上传了一个 PDF 文件 example.pdf，解析结果可能如下：

This is a sample PDF document.
Content extraction with Apache Tika is easy and efficient.

四、支持更多功能

1. 提取元数据

Apache Tika 还支持提取文档的元数据，例如标题、作者、创建日期等：

import org.apache.tika.metadata.Metadata;

public String parseMetadata(InputStream inputStream) throws IOException, TikaException {
    Metadata metadata = new Metadata();
    tika.parse(inputStream, metadata);

    StringBuilder metadataInfo = new StringBuilder();
    for (String name : metadata.names()) {
        metadataInfo.append(name).append(": ").append(metadata.get(name)).append("\n");
    }
    return metadataInfo.toString();
}

2. 文档类型识别

识别文档的 MIME 类型：

public String detectDocumentType(InputStream inputStream) throws IOException {
    return tika.detect(inputStream);
}

3. 添加日志记录

在解析文档时，记录解析的文件名、时间等信息：

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

@Service
public class DocumentParserService {

    private static final Logger logger = LoggerFactory.getLogger(DocumentParserService.class);
    private final Tika tika;

    public DocumentParserService() {
        this.tika = new Tika();
    }

    public String parseContent(InputStream inputStream, String fileName) throws IOException, TikaException {
        long startTime = System.currentTimeMillis();
        String content = tika.parseToString(inputStream);
        logger.info("Parsed file [{}] in {} ms", fileName, System.currentTimeMillis() - startTime);
        return content;
    }
}

五、完整示例：解析多种文档

将上述功能整合到一个完整的系统中，可以支持上传、解析内容、提取元数据等功能。

目录结构

src
├── main
│   ├── java
│   │   ├── com.example.tika
│   │   │   ├── DocumentParserService.java
│   │   │   ├── DocumentController.java
│   ├── resources
│   │   └── application.yml