如何在 Java 中获取 Word 文档内容？(java怎么获取word文档内容)-编程学习网

在 Java 开发中，有时我们需要获取 Word 文档的内容，这在很多业务场景中都非常有用，比如数据提取、文档处理等。下面我们将详细介绍在 Java 中如何获取 Word 文档内容的步骤。

一、引入相关库

首先，我们需要在 Java 项目中引入用于处理 Word 文档的库。常用的库有 Apache POI 和 OpenOffice。这里我们以 Apache POI 为例，它是一个流行的 Java API，用于处理 Microsoft Office 格式的文件，包括 Word、Excel 和 PowerPoint。

在项目的构建文件（如 Maven 的 pom.xml 或 Gradle 的 build.gradle）中添加以下依赖：

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>4.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>4.1.2</version>
</dependency>

添加完依赖后，我们就可以在 Java 代码中使用 Apache POI 来处理 Word 文档了。

二、获取 Word 文档内容的步骤

加载 Word 文档

使用 XSSFWorkbook 类来加载 Word 文档。XSSFWorkbook 是 Apache POI 中用于处理 XLSX 格式（Excel 2007 及以上版本）的类，它也可以用于处理 DOCX 格式（Word 2007 及以上版本）的文档。以下是加载 Word 文档的代码示例：

import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.FileInputStream;
import java.io.IOException;

public class WordContentExtractor {
    public static void main(String[] args) {
        try {
            // 加载 Word 文档
            FileInputStream fis = new FileInputStream("path/to/your/word.docx");
            XSSFWorkbook workbook = new XSSFWorkbook(fis);

            // 在这里进行后续的操作，如获取工作表、读取单元格内容等

            // 关闭输入流
            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述代码中，我们通过 FileInputStream 类加载了指定路径的 Word 文档，并使用 XSSFWorkbook 类创建了一个工作簿对象。请将 "path/to/your/word.docx" 替换为你实际的 Word 文档路径。

获取工作表

Word 文档可以包含多个工作表，我们需要获取要读取内容的工作表。可以通过工作簿对象的 getSheetAt(int sheetIndex) 方法来获取指定索引的工作表，或者通过 getSheet(String sheetName) 方法来获取指定名称的工作表。以下是获取工作表的代码示例：

import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.FileInputStream;
import java.io.IOException;

public class WordContentExtractor {
    public static void main(String[] args) {
        try {
            // 加载 Word 文档
            FileInputStream fis = new FileInputStream("path/to/your/word.docx");
            XSSFWorkbook workbook = new XSSFWorkbook(fis);

            // 获取第一个工作表
            XSSFSheet sheet = workbook.getSheetAt(0);

            // 在这里进行后续的操作，如读取单元格内容等

            // 关闭输入流
            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述代码中，我们通过 getSheetAt(0) 方法获取了工作簿中的第一个工作表。你可以根据实际情况修改索引或使用 getSheet(String sheetName) 方法来获取指定名称的工作表。

读取单元格内容

获取到工作表后，我们可以通过行和列的索引来读取单元格的内容。工作表是由行和列组成的，行索引从 0 开始，列索引也从 0 开始。可以使用 getRow(int rowIndex) 方法获取指定行的行对象，然后使用 getCell(int columnIndex) 方法获取指定列的单元格对象。以下是读取单元格内容的代码示例：

import org.apache.poi.xssf.usermodel.XSSFCell;
import org.apache.poi.xssf.usermodel.XSSFRow;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.FileInputStream;
import java.io.IOException;

public class WordContentExtractor {
    public static void main(String[] args) {
        try {
            // 加载 Word 文档
            FileInputStream fis = new FileInputStream("path/to/your/word.docx");
            XSSFWorkbook workbook = new XSSFWorkbook(fis);

            // 获取第一个工作表
            XSSFSheet sheet = workbook.getSheetAt(0);

            // 遍历工作表的每一行
            for (int rowIndex = 0; rowIndex < sheet.getPhysicalNumberOfRows(); rowIndex++) {
                XSSFRow row = sheet.getRow(rowIndex);
                if (row!= null) {
                    // 遍历每一行的每一列
                    for (int columnIndex = 0; columnIndex < row.getPhysicalNumberOfCells(); columnIndex++) {
                        XSSFCell cell = row.getCell(columnIndex);
                        if (cell!= null) {
                            // 根据单元格的类型读取内容
                            switch (cell.getCellType()) {
                                case STRING:
                                    System.out.print(cell.getStringCellValue() + "\t");
                                    break;
                                case NUMERIC:
                                    System.out.print(cell.getNumericCellValue() + "\t");
                                    break;
                                case BOOLEAN:
                                    System.out.print(cell.getBooleanCellValue() + "\t");
                                    break;
                                default:
                                    System.out.print("");
                            }
                        }
                    }
                    System.out.println();
                }
            }

            // 关闭输入流
            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在上述代码中，我们使用两个嵌套的循环遍历了工作表的每一行和每一列，并根据单元格的类型读取了单元格的内容。通过 getCellType() 方法可以获取单元格的类型，然后根据不同的类型进行相应的处理。

通过以上步骤，我们就可以在 Java 中获取 Word 文档的内容了。当然，这只是一个基本的示例，实际应用中可能需要根据具体的需求进行更复杂的处理，比如处理表格样式、处理合并单元格等。但基本的获取内容的思路是相同的。

总之，使用 Java 可以很方便地获取 Word 文档的内容，通过引入 Apache POI 库，我们可以轻松地加载 Word 文档、获取工作表和读取单元格内容。希望这篇教程对你有所帮助。