当前位置: 首页 > news >正文

爬取小红书相关数据导入到excel

本期我们来进行实战,爬取小红书的相关数据导入到excel中,后续可进行些数据分析,今后或者已经在运营小红书的小伙伴应该比较喜欢这些数据。今天我们的主角是DrissionPage,相对于之前介绍的selenium省去了很多的配置,直接安装了就能使用。

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。

使用pip进行安装

pip install DrissionPage

控制浏览器事例

from DrissionPage import ChromiumPage
# 创建页面对象,并启动或接管浏览器
page = ChromiumPage()
# 跳转到登录页面
page.get('https://gitee.com/login')
# 定位到账号文本框,获取文本框元素
ele = page.ele('#user_login')
# 输入对文本框输入账号
ele.input('您的账号')
# 定位到密码文本框并输入密码
page.ele('#user_password').input('您的密码')
# 点击登录按钮
page.ele('@value=登 录').click()

获取页面数据事例

from DrissionPage import SessionPage
# 创建页面对象
page = SessionPage()
# 爬取3页
for i in range(1, 4):   # 访问某一页的网页   page.get(f'https://gitee.com/explore/all?page
http://www.xdnf.cn/news/1067707.html

相关文章:

  • SQL关键字三分钟入门:UPDATE —— 修改数据
  • Redis 分布式锁原理与实战-学习篇
  • 【计算机网络】期末复习
  • 轻量化实物建模革命:WebGL如何实现复杂模型的高效加载与交互
  • 14.OCR字符识别
  • 同济大学多模态感知具身导航全面综述
  • 10-Python模块详解
  • Netty内存池核心PoolArena源码解析
  • 机器学习×第十四卷:集成学习中篇——她从每次错误中修正自己
  • 基于目标驱动的分布式敏捷开发
  • 闲庭信步使用SV搭建图像测试平台:第九课——初步使用类
  • 浅谈开源在线客服系统与 APP 集成的技术方案与优劣势
  • 基于单片机的语音控制设计(论文)
  • 黑马Day01-03集开始
  • Springboot项目中使用手机号短信验证码注册登录实现
  • 北京及其周边理工科大学高考招生情况
  • 前端登录状态管理:主流方案对比与安全实践指南
  • Android系统常见有线网卡丢包问题的调试排查方案
  • 【Linux网络编程】多路转接I/O(一)select,poll
  • ci | cd
  • mapbox基础,导出地图
  • Java+GcExcel,生成自定义工作表
  • Rust 项目实战:多线程 Web 服务器
  • 报错:macOS 安装 sentencepiece
  • CentOS 7 通过YUM安装MySQL 8.0完整指南
  • 专题:2025大模型2.0:GPT到DeepSeek技术演进与产业落地报告|附200+份报告PDF汇总下载
  • 云原生周刊:Argo CD v3.1 正式发布
  • MySQL优化:使用 LIMIT 进行分页查询时,偏移量过大造成查询性能降低问题分析
  • AS32A601与ASM1042芯片在电力系统自动化监控中的应用效能分析
  • 基于PostgreSQL的百度或高德等POI多层级分类的数据库设计