“Datawhale AI夏令营”「结构化数据的用户意图理解和知识问答挑战赛」1
前言:本篇文章是Datawhale AI夏令营2025年第2期的内容,大模型技术方向,科大讯飞「结构化数据的用户意图理解和知识问答挑战赛」的赛事项目实践。
- 理解用AI理解列车信息表,究竟有哪些难点和价值
- 具体要如何判断AI是否真的理解了列车信息表
- 基于列车信息表,使用大模型构建QA对
一、本次赛事目标:让大模型理解表格数据(列车信息表)
知识点提要 : 表结构数据处理、微调数据集构造、模型蒸馏
相关知识点清单:
学习模块 | 核心知识点 | 一句话介绍 |
大语言模型基础 | 大模型 API 调用方法 | 学习如何通过 API 使用大语言模型,发送请求并获取结果。 |
Prompt 工程 | 掌握如何编写有效的提示词,引导模型输出期望的结果。 | |
参数高效微调 | LoRA 和合并精调的区别 | 了解 LoRA(低秩适配)与合并精调在模型微调中的不同原理和使用场景。 |
全量微调 | 对整个模型的所有参数进行训练,以适应特定任务或数据集。 | |
数据集构建 | pandas 的基本使用 | 学习使用 pandas 进行数据读写、整理和基础操作。 |
pandas 的数据筛选 | 掌握 pandas 中按条件筛选和提取数据的方法,如 loc、iloc 和布尔索引等。 |
赛事背景
在智慧交通平台中,乘客和调度人员需快速从庞杂的列车时刻表中获取精准信息(如检票口位置、停留时间、跨车次关联)。
传统方法依赖人工查询和分析,效率低且难以应对复杂问题。
大模型在表格理解方面已经取得了显著的进展,正在帮助用户以更直观、更高效的方式处理和解释数据。
本次赛事聚焦 铁路运输场景 ,基于真实列车时刻表数据,要求参赛者 构建能够理解表格语义、处理时间计算、跨字段推理的大模型 问答系统 ,提升信息查询自动化水平。
赛题解读
本次大赛提供了结构化数据表格(列车时刻表)作为数据集,参赛者需基于讯飞星辰MaaS平台构建一个人工智能模型。
该模型能基于给定表格中的结构化数据,结合表格内容提取信息并回答指定的问题。
赛事任务分为两个阶段:
-
让模型学习如何解析和表示表格数据。【生成可用于微调的QA对】
-
回答与表格数据对应的自然语言问题。【微调,让大模型掌握这个表格的知识并进行回答】
该模型应具备自然语言处理(NLP)能力,能够理解用户自然语言问题中的意图(如查询始发站、终到站、检票口等),以支持多种问题类型,例如:
赛题要点与难点
核心要点 |
|
主要难点 |
|