当前位置: 首页 > backend >正文

探索Trae:使用Trae CN爬取 Gitbook 电子书

请添加图片描述
在以前使用过Cursor,但是后期由于试用资源很少,免费资源用完我就卸载掉啦,最近又需要开展相关工作,因此下载了最新版的Trae。Trae 2.0最近很火,我正好想要爬取某一个Gitbook 电子书,因此尝试使用Trae和Python进行爬取,在尝试完成后,大感AI代码编辑器真好!!!尽管我没啥爬虫基础,但是也完成了目标。

我使用Kimi-K2模型,第一次代码基本是成功运行,但是存在几个小的问题:重新爬取,总体上爬取成功,但是我有三个新的要求:(1)要把图片也保存下来,目前图片没有成功保存,例如是这样的内容:(assets/WebGIS.png) ;(2)每一个md文档末尾都有# results matching “”# No results matching ""这样的内容,请删除;(3)将所有的文件合并成一个md文档,并且按照情况调整大纲级别。

第二次也是运行成功,但是出现了新的小问题:(1)图片保存在assets文件夹内,在md文档中 图片使用相对路径 assets/xxx.png这样的路径;(2)很多图片没有下载成功,需要重新下载,打开后显示图片损坏;(3)删除原文链接相关的内容。因此,第三次运行脚本。

此次修改后仍旧有问题,再次提示:我在先前已经执行过了3次命令,并且已经生成了第三版的代码。我的目的是将目标网站的章节爬取下来,保存为md文档。第三版已经基本成功,但是出现了两个补充修改:(1)二级标题很多是重复出现了3次,并且部分标题的大纲级别不对,要按照科学的情况组织大纲级别;(2)把所有的代码块的代码语言设置成JS。

这样处理完后:

http://www.xdnf.cn/news/17358.html

相关文章:

  • Java 8 特性
  • 网络管理实战
  • 【QT】常⽤控件详解(六)多元素控件 QListWidget Table Widget Tree Widget
  • QT第三讲- 机制、宏、类库模块
  • MBR分区nvme固态硬盘安装win7--非UEFI启动和GPT分区
  • ruoyi关闭shiro校验,任何接口可以直接访问
  • 可直接运行的 Playwright C# 自动化模板
  • 贪心----1.买卖股票的最佳时机
  • 基于 InfluxDB 的服务器性能监控系统实战(二)
  • 代码随想录day59图论9
  • [已解决]VSCode右键菜单消失恢复
  • GPT-4 vs GPT-5 深度分析
  • 制作浏览器CEFSharp133+X86+win7 之配置环境(一)
  • Product Hunt 每日热榜 | 2025-08-09
  • 【C++详解】AVL树深度剖析与模拟实现(单旋、双旋、平衡因⼦更新、平衡检测)
  • 基于clodop和Chrome原生打印的标签实现方法与性能对比
  • 【MySQL】事务的基本概念
  • 揭秘MyBatis核心类MappedStatement
  • 【Datawhale AI夏令营】基于多模态RAG的企业财报问答系统
  • Vue3 生命周期
  • Go语言实战案例:表单提交数据解析
  • 多模态RAG赛题实战--Datawhale AI夏令营
  • 39.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--调整发布脚本
  • 通过 Docker 运行 Prometheus 入门
  • C# 通过第三方库INIFileParser管理INI配置文件
  • 2025年渗透测试面试题总结-09(题目+回答)
  • 实战:MyBatis 中 db.properties 的正确配置与最佳实践
  • RAGFoundry:面向检索增强生成的模块化增强框架
  • 五、RuoYi-Cloud-Plus 前端项目部署以及如何改后端请求地址。
  • 【CTF】PHP反序列化基础知识与解题步骤