当前位置: 首页 > ai >正文

Datawhale AI夏令营-记录2

任务

实现“基于给定的pdf知识库的、可溯源的多模态”问答。
给出一些图文混合的pdf,训练一个大模型,当用户提出问题时,大模型能够以这些pdf为背景,给出回答,并指出回答的来源,具体到pdf的名称和对应页数,避免大模型“理直气壮”地编造数据。

task2的操作步骤

将task1中下载的文件全部删除,随后在终端执行下列命令

git lfs install
git clone https://github.com/li-xiu-qi/spark_multi_rag
cd spark_multi_rag
pip install -r requirements.txt
cd ..
pip install uv
cd spark_multi_rag
uv sync
source .venv/bin/activate
python mineru_pipeline_all.py

随后执行python rag_from_page_chunks.py

task3

http://www.xdnf.cn/news/17368.html

相关文章:

  • NVIDIA Jetson实战笔记
  • 【c++】探秘Loop机制:C++中优雅的双向数据交互模式
  • 力扣 hot100 Day70
  • 【Python 高频 API 速学 ⑥】
  • CrystalDiskInfo 9.0.1 安装教程 - 硬盘检测工具下载安装步骤详解
  • 基于迁移学习的伺服电机轴承故障诊断
  • Python变量引用拷贝
  • 求和算法的向后稳定性 backward stable
  • 大模型“涌现”背后的暗线——规模、数据、目标函数的三重协奏
  • Spring 的原理探究
  • 服务器硬件电路设计之I2C问答(二):I2C总线的传输速率与上拉电阻有什么关系?
  • vs2022编译Activemq
  • 创建一个django项目
  • 【js】判断异步函数的返回值要加await
  • 大语言模型提示工程与应用:大语言模型对抗性提示安全防御指南
  • springboot 2.4跨域变化和swagger结合的问题
  • orcad的操作(1)
  • BGP笔记
  • 微积分 | 外微分
  • vue+flask山西非遗文化遗产图谱可视化系统
  • 通过 SCP 和 LXD 配置迁移 CUDA 环境至共享(笔记)
  • AI编程工具 | Trae介绍
  • 智能的本质
  • 实数与复数及欧拉公式关系
  • 卷板矫平机:金属板材的“脊椎按摩师”
  • 代理人工智能的隐藏威胁
  • 数学学习 | 高数、线代、概率论及数理统计荐书
  • 人脸情绪检测数据集-9,400 张图片 智能客服系统 在线教育平台 心理健康监测 人机交互优化 市场研究与广告 安全监控系统
  • ADB(Android Debug Bridge)—— Android调试桥
  • day22|学习前端ts语言