当前位置: 首页 > ai >正文

【Datawhale AI夏令营】科大讯飞AI大赛(大模型技术)/夏令营:让AI理解列车排期表

跑的时候有些地方需要修改,在此记录。

一、硅基流动注册&API密钥使用

baseline.ipynb的此处需要进行修改:

如果不知道自己的token是什么,可参考:免费调用DeepSeek-R1!硅基流动注册&API密钥使用全攻略 | 手把手教程https://zhuanlan.zhihu.com/p/21156769766

二、json数组转换为独立json对象

由于baseline跑出来的结果是json数组,如果不转换直接在MaaS平台上训练,会产生如下报错:

{"category": "数据集错误","reason" :"JSON parse error: Column() changed from object to array in row 0"}

因此在baseline代码基础上,增加以下脚本:

# 把json数组转换独立的json对象({"category": "数据集错误","reason" :"JSON parse error: Column() changed from object to array in row 0"})
import json
import os# === 第一步:转换 JSON 数组为 JSONL 格式 ===
input_json_file = 'single_row.json'
jsonl_file = 'train_data/single_row.jsonl'# 读取 JSON 数组
with open(input_json_file, 'r', encoding='utf-8') as f:data = json.load(f)# 写入 JSONL 格式(每行一个 JSON 对象)
with open(jsonl_file, 'w', encoding='utf-8') as f:for item in data:json.dump(item, f, ensure_ascii=False)f.write('\n')print(f"转换完成,已保存为 JSONL 文件:'{jsonl_file}'")# === 第二步:修复 JSONL 文件中的 output 字段 ===
temp_file = jsonl_file + '.tmp'with open(jsonl_file, "r", encoding="utf-8") as infile, open(temp_file, "w", encoding="utf-8") as outfile:for line_num, line in enumerate(infile, start=1):line = line.strip()if not line:continuetry:data = json.loads(line)if "output" in data and not isinstance(data["output"], str):data["output"] = str(data["output"])json.dump(data, outfile, ensure_ascii=False)outfile.write("\n")except json.JSONDecodeError as e:print(f"第 {line_num} 行解析错误:{e}")# 替换原文件
os.replace(temp_file, jsonl_file)
print(f"修复完成,JSONL 文件已更新:'{jsonl_file}'")

http://www.xdnf.cn/news/16356.html

相关文章:

  • 【计算机网络架构】网状型架构简介
  • 栈----4.每日温度
  • 226. 翻转二叉树
  • C语言(长期更新)第6讲:函数
  • (LeetCode 每日一题) 2210. 统计数组中峰和谷的数量 (数组)
  • 【RAG技术权威指南】从原理到企业级应用实践
  • Spring Boot音乐服务器项目-查询音乐模块
  • 【自动化运维神器Ansible】Ansible常用模块之archive模块详解
  • QT---概览
  • Spring AI 学习笔记
  • Datawhale 科大讯飞AI大赛(模型蒸馏)
  • 电科金仓 KingbaseES 深度解码:技术突破・行业实践・沙龙邀约 -- 融合数据库的变革之力
  • i节点学习
  • 7月27日星期日今日早报简报微语报早读
  • 从0开始学linux韦东山教程Linux驱动入门实验班(6)
  • Flink2.0学习笔记:Stream API 常用转换算子
  • Java面试实战:电商高并发与分布式事务处理
  • QT开发---网络编程下
  • JVM工具
  • Item16:成对使用new和delete时要采取相同形式
  • Milvus 实战全流程
  • 【重学数据结构】堆 Heap - 最小堆最大堆
  • Qt GUI缓存实现
  • SpringIoCDI
  • Adobe Animate中文版 v2024.24.0.10.14
  • python---类型转换
  • Flink窗口:解锁流计算的秘密武器
  • 9.SpringBoot Web请求参数绑定方法
  • RTSP|RTMP播放器 in Unity:开源不够用?从工程视角重新定义播放器选型
  • 【优选算法】BFS解决最短路问题(单源)