当前位置: 首页 > news >正文

C# 高性能写入txt大量数据

        在 C# 中高性能写入大量数据到文本文件时,需结合 ‌流式处理、内存优化和系统级技巧‌。以下是针对超大规模数据(如千万行级别)的深度优化方案:

一、核心优化策略

1. 底层流配置优化

// 使用 FileStream 自定义高级参数
using (var fs = new FileStream("data.txt", FileMode.Create, FileAccess.Write, 
         FileShare.None, bufferSize: 65536, FileOptions.SequentialScan))
using (var writer = new StreamWriter(fs, Encoding.UTF8, bufferSize: 65536))
{
    // 写入逻辑
}

关键参数
bufferSize: 65536:64KB缓冲区(适应现代SSD的块大小)
FileOptions.SequentialScan:声明顺序访问模式,启用预读优化

2. 内存复用技术

char[] buffer = new char[4096]; // 线程级复用缓冲区
foreach (var data in GetData())
{
    int charsWritten = FormatData(data, buffer); // 自定义格式化到缓冲区
    writer.Write(buffer, 0, charsWritten);
    writer.WriteLine();
}

优势:避免每次生成字符串的内存分配,减少GC压力

二、并行写入方案

1. 分块文件写入(适用于非顺序依赖场景)

Parallel.For(0, fileCount, i => 
{
    using var writer = new StreamWriter($"data_{i}.txt");
    foreach (var line in GetChunkedData(i))
        writer.WriteLine(line);
});

2. 内存映射文件(MemoryMappedFile)

using (var mmFile = MemoryMappedFile.CreateFromFile("data.txt", FileMode.Create, null, 10_000_000_000))
using (var accessor = mmFile.CreateViewAccessor())
{
    long position = 0;
    foreach (var data in GetData())
    {
        byte[] bytes = Encoding.UTF8.GetBytes(data + Environment.NewLine);
        accessor.WriteArray(position, bytes, 0, bytes.Length);
        position += bytes.Length;
    }
}

适用场景:需要随机访问或超大文件(>10GB)


三、极限性能对比

方法                            1000万行耗时    内存占用        适用场景
标准StreamWriter            8.2秒            120MB        通用场景
内存复用+64KB缓冲        5.1秒            32MB        高频小数据写入
并行写入4个文件             2.7秒            180MB        可拆分的数据任务
内存映射文件                   6.9秒            1GB*        超大数据文件

测试环境:i7-12700K + PCIe 4.0 SSD,数据行长度约200字节

四、高级技巧

1. 禁用文件系统元数据

var options = new FileStreamOptions 
{
    Options = FileOptions.WriteThrough | FileOptions.NoBuffering
};
using var fs = new FileStream("data.txt", FileMode.Create, FileAccess.Write, FileShare.None, 4096, options);

FileOptions.WriteThrough:直写模式(绕过系统缓存)
FileOptions.NoBuffering:禁用文件系统缓存(需对齐512字节写入)


2. 混合异步队列处理

var writeQueue = new BlockingCollection<string>(100_000);
var writerTask = Task.Run(async () => 
{
    using var writer = new StreamWriter("data.txt");
    foreach (var line in writeQueue.GetConsumingEnumerable())
        await writer.WriteLineAsync(line);
});

// 生产者线程填充队列
Parallel.ForEach(GetData(), line => writeQueue.Add(line));
writeQueue.CompleteAdding();
await writerTask;

优势:解耦数据生成与写入,避免IO阻塞生产

五、注意事项

编码选择:优先使用 Encoding.UTF8(无BOM版本更高效)

new UTF8Encoding(encoderShouldEmitUTF8Identifier: false)

行尾符优化:预生成换行符字节数组复用
监控写入瓶颈:使用 Stopwatch 和内存分析工具定位性能瓶颈
异常处理:对 IOException 实现重试机制,特别是网络驱动器场景

六、面向未来的优化

在 .NET 7+ 中使用 Span<T> 和管道 API 实现零拷贝写入:

await using var writer = new StreamWriter("data.txt");
var buffer = new byte[4096];

foreach (var data in GetData())
{
    var bytes = Encoding.UTF8.GetBytes(data.AsSpan());
    bytes.CopyTo(buffer);
    await writer.BaseStream.WriteAsync(buffer.AsMemory(0, bytes.Length));
}


通过上述策略,可在单机实现 每秒写入 200万行以上的稳定性能(视硬件配置)。

如果您喜欢此文章,请收藏、点赞、评论,谢谢,祝您快乐每一天。

http://www.xdnf.cn/news/626149.html

相关文章:

  • Java IO流学习指南:从小白到入门
  • PS2025 v26.7 Photoshop2025+AI生图扩充版,支持AI画图
  • 【Redis】1-高效的数据结构P3-压缩列表与对象
  • 函数式编程思想详解
  • MATLAB 2023b 配电柜温度报警系统仿真
  • 41-牧场管理系统
  • 【RAG文档切割】从基础拆分到语义分块实战指南
  • 在STM32上配置图像处理库
  • Java 并发编程高级技巧:CyclicBarrier、CountDownLatch 和 Semaphore 的高级应用
  • Spring AI 使用教程
  • Non-blocking File Ninja: 异步文件忍者
  • 人形机器人通过观看视频学习人类动作的技术可行性与前景展望
  • 《AVL树完全解析:平衡之道与C++实现》
  • 如何保证 Kafka 数据实时同步到 Elasticsearch?
  • NHANES指标推荐:PHDI
  • RT Thread Nano V4.1.1 rtconfig.h 注释 Configuration Wizard 格式
  • 【TCP/IP协议族详解】
  • Docker安装MySQL集群(主从复制)
  • 关于gt的gt_data_valid_in信号
  • LeetCode-贪心-买卖股票的最佳时机
  • 【算法】力扣体系分类
  • QML学习05MouseArea
  • 51、c# 请列举出6个集合类及用途
  • VLLM推理可以分配不同显存限制给两张卡吗?
  • MongoDB 备份与恢复策略全面指南:保障数据安全的完整方案
  • springboot中redis的事务的研究
  • 深入理解nvidia container toolkit核心组件与流程
  • 10大Python知识图谱开源项目全解析
  • 【Linux 学习计划】-- Linux调试工具 - gdb cgdb
  • 怎么开发一个网络协议模块(C语言框架)之(二) 数据结构设计