当前位置：首页 > news >正文

Coze Studio 概览（十）--文档处理详细分析

news 2025/8/14 20:11:14

文档处理对于知识库建设尤为重要。本文详细分析Coze Studio中对各种文档是如何处理及向量化的。

Coze Studio 文档处理详细分析

Word文档处理机制

1. Word文档解析流程

基于代码分析，Word文档(.docx)的处理采用Python解析器协议：

2. Word文档分段策略

核心分段组件：

自动分段：基于文档结构（段落、标题）
手动分段：自定义分隔符
层级分段：按标题层级分段

分段配置参数：

type ChunkingStrategy struct {ChunkType       parser.ChunkType  // 分段类型ChunkSize       int64            // 分段最大长度(字符数)Separator       string           // 分段标识符Overlap         int64            // 分段重叠长度TrimSpace       bool             // 移除空白字符TrimURLAndEmail bool             // 移除URL和邮箱MaxDepth        int64            // 层级分段最大深度SaveTitle       bool             // 保留层级标题
}

Word文档特殊处理：

标题识别：根据样式识别H1-H6标题
段落分离：保持段落完整性
列表处理：保持列表项的层级结构
图片提取：转换为base64并可选OCR识别
表格提取：转换为HTML表格格式

Excel文档处理机制

1. Excel文档解析流程

Excel文档(.xlsx)使用excelize库进行解析：

2. Excel合并单元格处理

合并单元格处理策略：

// Excel处理核心逻辑
func (k *knowledgeSVC) LoadSheet(ctx context.Context, b []byte, ps *entity.ParsingStrategy, fileExtension string, sheetName *string, columns []*entity.TableColumn) (*rawSheet, error) {// 1. 使用excelize解析Excel文件pConfig := convert.ToParseConfig(parser.FileExtension(fileExtension), ps, nil, false, columns)p, err := k.parseManager.GetParser(pConfig)// 2. 解析文档获取结构化数据docs, err := p.Parse(ctx, bytes.NewReader(b))// 3. 处理合并单元格：// - 合并单元格的值会填充到第一个单元格// - 其他单元格保持空值// - 在数据类型推断时会忽略空值单元格return &rawSheet{sheet: sheet,cols:  cols,  // 列定义vals:  vals,  // 实际数据}, nil
}

合并单元格具体处理逻辑：

值分布：合并单元格的值只存储在合并区域的第一个单元格
空值处理：其他合并单元格位置保持为空值
类型推断：基于非空单元格进行数据类型推断
索引策略：合并单元格按第一个单元格位置建立索引

3. Excel数据类型处理

支持的数据类型：

const (TableColumnTypeString  = 1  // 文本类型TableColumnTypeInteger = 2  // 整数类型TableColumnTypeTime    = 3  // 时间类型TableColumnTypeNumber  = 4  // 数字类型TableColumnTypeBoolean = 5  // 布尔类型TableColumnTypeImage   = 6  // 图片类型
)

类型转换策略：

func TransformColumnType(src, dst document.TableColumnType) document.TableColumnType {if src == document.TableColumnTypeUnknown {return dst}if dst == document.TableColumnTypeUnknown {return src}if dst == document.TableColumnTypeString {return dst  // 字符串类型优先级最高}if src == dst {return dst}if src == document.TableColumnTypeInteger && dst == document.TableColumnTypeNumber {return dst  // 整数可以转换为数字}return document.TableColumnTypeString  // 默认转换为字符串
}

文本文件处理机制

1. 文本文件分段处理

分段策略类型：

自动分段：基于自然语言处理
手动分段：用户指定分隔符
层级分段：按标题层级

分段实现流程：

2. 自定义分段配置

前端分段配置界面：

interface CustomSegmentRule {separator: {type: SeperatorType;           // 分隔符类型customValue: string;           // 自定义分隔符};maxTokens: number;               // 最大Token数(100-5000)overlap: number;                 // 重叠比例(0-90%)preProcessRules: PreProcessRule; // 预处理规则
}// 支持的分隔符类型
enum SeperatorType {PARAGRAPH = 'paragraph',        // 段落分隔SENTENCE = 'sentence',          // 句子分隔NEWLINE = 'newline',           // 换行分隔CUSTOM = 'custom'              // 自定义分隔符
}

3. 层级分段处理

层级分段特点：

标题识别：自动识别H1-H6标题
层级保持：维护文档的层级结构
上下文保留：可选择保留上级标题作为上下文
深度控制：限制最大分段深度

特殊格式处理

1. PDF文档处理

PDF解析策略：

快速解析：提取纯文本内容
精确解析：保留格式和结构
页面过滤：支持指定页面范围
表格提取：识别并提取表格结构
图片OCR：可选的图片文字识别

2. Markdown文档处理

Markdown特殊处理：

标题层级：保持原有的#标题结构
代码块：保持代码块的完整性
表格格式：转换为HTML表格
链接图片：处理外部链接和图片

3. 图片文档处理

图片处理流程：

图片上传：存储到对象存储(TOS/MinIO)
OCR识别：可选的文字识别
描述生成：AI生成图片描述
向量化：将描述转换为向量

各类型文档分段策略详析

1. 分段策略类型体系

核心分段策略枚举：

type ChunkType int64
const (ChunkType_DefaultChunk ChunkType = 0  // 自动分段ChunkType_CustomChunk  ChunkType = 1  // 自定义分段ChunkType_LevelChunk   ChunkType = 2  // 层级分段
)

分段策略配置结构：

type ChunkingStrategy struct {ChunkType       ChunkType `json:"chunk_type"`// 自定义分段配置ChunkSize       int64     `json:"chunk_size"`        // 分段最大长度(字符数)Separator       string    `json:"separator"`         // 分段标识符Overlap         int64     `json:"overlap"`           // 分段重叠百分比TrimSpace       bool      `json:"trim_space"`        // 移除多余空白TrimURLAndEmail bool      `json:"trim_url_and_email"` // 移除URL和邮箱// 层级分段配置MaxDepth        int64     `json:"max_depth"`         // 层级分段最大深度SaveTitle       bool      `json:"save_title"`        // 保留层级标题
}

2. 文本类文档分段策略

支持的文档类型：

Markdown文件：保持原有标题结构，支持代码块完整性
TXT文件：基于自然语言处理的智能分段
PDF文件：快速解析和精确解析两种模式

分段策略选项：

2.1 自动分段 (DefaultChunk)

特点：基于自然语言处理算法自动识别段落边界
适用场景：通用文本文档，新闻文章，小说等
技术实现：使用Python解析器协议进行语义分析

2.2 自定义分段 (CustomChunk)

分隔符类型：

enum SeperatorType {PARAGRAPH = 'paragraph',    // 段落分隔(\n\n)SENTENCE = 'sentence',      // 句子分隔(.!?)NEWLINE = 'newline',       // 换行分隔(\n)CUSTOM = 'custom'          // 用户自定义分隔符
}

配置参数：
- 最大Token数：100-5000
- 重叠比例：0-90%
- 预处理规则：移除URL/邮箱、压缩空白字符

2.3 层级分段 (LevelChunk)

标题识别：自动识别H1-H6标题层级
层级保持：维护文档的层级结构关系
上下文保留：可选择保留上级标题作为上下文
深度控制：限制最大分段深度(1-6级)

3. Excel表格文档分段策略

Excel特殊处理机制：

3.1 行级分段策略

单行分段：每行作为一个独立的分段
多行批量分段：按指定行数批量分段
智能分段：基于数据密度自动调整分段大小

3.2 合并单元格处理

// 合并单元格处理逻辑
func processMergedCells(sheet *excelize.File) {// 1. 合并单元格的值只存储在第一个单元格// 2. 其他合并位置保持空值// 3. 类型推断时忽略空值单元格// 4. 按第一个单元格位置建立索引
}

3.3 数据类型推断分段

类型优先级：字符串 > 数字 > 整数 > 时间 > 布尔
转换策略：智能类型转换，失败时降级为字符串
空值处理：合并单元格中的空值不参与类型推断

4. Word文档分段策略

Word文档专项处理：

4.1 结构化分段

段落完整性：保持段落的完整性，不在段落中间断开
列表处理：维持有序/无序列表的层级结构
表格提取：表格转换为HTML格式并独立分段

4.2 样式识别分段

标题样式：根据Word样式自动识别标题层级
字体格式：保留重要的字体格式信息
图片处理：图片转换为base64，可选OCR文字识别

5. 向量化策略详析

5.1 向量化模型支持

Embedding模型接口：

type Embedder interface {embedding.EmbedderEmbedStringsHybrid(ctx context.Context, texts []string, opts ...embedding.Option) ([][]float64, []map[int]float64, error)Dimensions() int64SupportStatus() SupportStatus
}type SupportStatus int
const (SupportDense          SupportStatus = 1  // 仅支持稠密向量SupportDenseAndSparse SupportStatus = 3  // 支持稠密+稀疏混合向量
)

5.2 向量化策略类型

5.2.1 稠密向量化 (Dense Embedding)

模型支持：Doubao-Embedding、OpenAI系列模型
向量维度：通常512-1536维
适用场景：语义相似性检索、通用文本匹配

5.2.2 混合向量化 (Hybrid Embedding)

稠密向量：捕获语义信息
稀疏向量：保留关键词信息
融合策略：RRF(Reciprocal Rank Fusion)重排序算法
优势：兼顾语义理解和精确匹配

5.3 向量化配置策略

向量化配置参数：

interface VectorStrategy {vectorModel: {name: string;           // 向量模型名称dimensions: number;     // 向量维度};vectorIndexing: boolean;  // 是否开启向量索引hybridSearch: boolean;    // 是否启用混合搜索
}