当前位置: 首页 > java >正文

爬虫学习笔记(一)

目的

通过编写程序爬取互联网上的优质资源

爬虫必须要使用python吗

非也~

编程语言知识工具,抓取到数据才是目的,而大多数爬虫采用python语言编写的原因是python的语法比较简单,python写爬虫比较简单!好用!而且python有很多第三方支持的库。很多繁琐复杂的工作直接交给这些第三方库就可以,自己不需要做这些额外的准备工作只需要导入库就好

爬虫合法吗

爬虫在法律上不禁止,但是有违反的风险(类比菜刀,法律上允许菜刀的存在,但是有人会使用菜刀做一些非法的事)

爬虫分为善意的和恶意的,如下图所示

反爬机制

门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取,如加密机制

反反爬机制

爬虫程序通过制定相关的策略或者技术手段,破解门户网站的反爬机制,获取门户网站的相关数据

robots.txt协议

君子协议(防君子不防小人),规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取,所有网站的君子协议所在地都是,网站名后加子目录/robots.txt,如下面的百度的君子协议

网址:https://www.baidu.com/robots.txt

第一个爬虫程序

使用工具:pycharm

爬取百度页面的资源

代码:

from urllib.request import urlopen
url = "https://www.baidu.com"
response = urlopen(url)#打开网址会返回响应的数据
#response.read()读取响应回的数据中的内容(内容是字节的形式,所以要解码成文字)
with open("myBaidu.html", mode="w",encoding="utf-8") as f:#写入模式f.write(response.read().decode("utf-8"))

保存文件中的内容:

 点击谷歌浏览器,对爬取到的html页面进行打开

结果如下图,和真正的百度页面完全相同

为什么拿到的是html代码,浏览器页面显示却不是?

其实浏览器拿到的也是html代码,只是浏览器会把html代码(源代码)运行成正常的页面动画及数据,因此爬虫读取到的实际上是网页的源代码

http://www.xdnf.cn/news/2695.html

相关文章:

  • 云原生--核心组件-容器篇-6-Docker核心之-镜像仓库(公共仓库,私有仓库,第三方仓库)
  • AI智能体开发新范式:多智能体协作与自进化系统的构建之道
  • jenkins容器提示磁盘空间过低
  • 大模型的scaling laws:Scaling Laws for Neural Language Models
  • 一文了解无人机系统
  • 集成学习详解
  • 03 构造与析构
  • 【OSG学习笔记】Day 13: 事件处理——响应键盘与鼠标
  • 12前端项目----添加购物车1.0
  • 计算机视觉——通过 OWL-ViT 实现开放词汇对象检测
  • Dockerfile 编写根据需求阶段而出现
  • Android wifi开发调试总结
  • 【ACL系列论文写作指北08-图表设计规范】-让数据与结构一目了然
  • STM32的SysTick
  • 9. 使用Gazebo和Rviz显示机器人(包括运动控制,雷达,摄像头仿真以及显示)
  • 【强化学习系列】贝尔曼最优方程
  • C语言-函数的嵌套调用,链式访问,函数的声明和函数的定义
  • Python数据结构与算法(5)——动态规划
  • CUDA 编程相关的开源库
  • 【深度学习】评估模型复杂度:GFLOPs与Params详解
  • 人脑、深思考大模型与其他大模型的区别科普
  • Kubernetes》》k8s》》Taint 污点、Toleration容忍度
  • 香橙派打包qt文件报错“xcb 插件无法加载”与“QObject::moveToThread”线程错误的解决方案
  • ElasticSearch深入解析(五):如何将一台电脑上的Elasticsearch服务迁移到另一台电脑上
  • 【Spark入门】Spark RDD基础:转换与动作操作深度解析
  • vr全景相机如何选择?
  • Android Studio学习记录1
  • Python(15)迭代器和生成器
  • IP SSL证书常见问题:快速实现HTTPS加密
  • 使用Docker安装Harbor