如何使用Java的Files.lines读取大文件

P粉602998670 2025-11-10 00:00:00 次阅读

使用Files.lines()可高效读取大文件，它返回Stream实现惰性加载，避免内存溢出；支持指定字符集如GBK；结合Stream API可过滤、统计或转换数据；需用try-with-resources防止资源泄漏；避免collect到List以防加载全部内容；也可用BufferedReader替代以获得更细粒度控制。

使用 Java 的 Files.lines() 方法读取大文件是一种高效且内存友好的方式，因为它返回一个 Stream，可以按行惰性加载内容，避免一次性将整个文件读入内存。

1. 基本用法：Files.lines() 读取文件

下面是一个简单的例子，展示如何使用 Files.lines() 逐行处理大文件：

import java.nio.file.*;
import java.io.IOException;
import java.util.stream.Stream;

public class ReadLargeFile {
    public static void main(String[] args) {
        Path path = Paths.get("large-file.txt");

        try (Stream lines = Files.lines(path)) {
            lines.forEach(System.out::println);
        } catch (IOException e) {
            System.err.println("读取文件时出错：" + e.getMessage());
        }
    }
}

这个方法适用于 UTF-8 编码的文本文件。如果文件使用其他编码（如 GBK），可以传入第二个参数指定字符集：

Charset charset = Charset.forName("GBK");
try (Stream lines = Files.lines(path, charset)) {
    lines.forEach(System.out::println);
}

2. 处理过程中过滤或转换数据

利用 Stream API，可以在读取时进行过滤、统计或转换，而不会增加内存负担：

try (Stream lines = Files.lines(path)) {
    long count = lines
        .filter(line -> line.contains("ERROR"))
        .count();
    System.out.println("包含 ERROR 的行数：" + count);
}

这样即使文件有几十 GB，也只会逐行处理，不会 OOM（内存溢出）。

3. 注意事项与最佳实践

必须使用 try-with-resources：Files.lines() 返回的 Stream 底层持有文件句柄，不关闭会导致资源泄漏。
避免 collect 到 List：不要调用 .collect(Collectors.toList())，这会把所有行加载到内存，失去流式处理优势。
异常处理：文件不存在或权限不足时会抛出 IOException，需妥善捕获。
性能考虑：虽然流式读取节省内存，但大量 IO 操作仍可能较慢，可结合并行流（谨慎使用）或缓冲优化。

4. 替代方案：BufferedReader 配合流

如果需要更细粒度控制，也可以用 BufferedReader 的 lines() 方法：

try (BufferedReader reader = Files.newBufferedReader(path)) {
    reader.lines().forEach(System.out::println);
}

这种方式同样支持指定编码，并且在某些复杂场景下更灵活。

基本上就这些。只要记得及时关闭流、合理使用 Stream 操作，Files.lines() 是处理大文本文件的简洁又安全的选择。

上一篇文章

Java中如何实现多线程资源池管理

2025-11-10 1617次阅读

下一篇文章

使用Selenium进行条件式单选按钮操作的正确姿势

2025-11-10 1487次阅读