当前位置: 首页 > ai >正文

爬虫基础学习day2

# 爬虫设计领域

  • 工商:企查查、天眼查
  • 短视频:抖音、快手、西瓜 ---> 飞瓜
  • 电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名
  • 航空:抓取所有航空公司价格 ---> 去哪儿
  • 自媒体:采集自媒体数据进行汇总 ---> 新榜
  • 外卖:饿了么、美团

# 爬虫基本原理解读

  • 数据采集三大领域:网站、app、小程序
  • 基本流程:采集数据、提取信息(结构化信息+非结构化数据)、保存数据

# 网络核心请求

  1. 请求方法
    方法描述
    get请求页面,返回页面内容
    head

    类似于get请求,只不过返回的响应中无具体内容,用于获取报头

    post

    用于表单提交、上传文件,数据包含在请求体中
    put

    从客户端向服务器传送的数据取代指定文档中的内容

    delete请求服务器删除指定的页面
    connect请求服务器当做挑板,让服务器代替客户端访问其他网页
    options

    允许客户端查看服务器的性能 

    trace回显服务器收到的请求,主要用于测试或者诊断

  2. 请求网址
  3. 请求头
  4. 请求体

# 网络响应核心

http://www.xdnf.cn/news/12982.html

相关文章:

  • 解密鸿蒙系统的隐私护城河:从权限动态管控到生物数据加密的全链路防护
  • C++编译之导入库理解与使用
  • React Hooks 的原理、常用函数及用途详解
  • crackme006
  • 抽象类和接口(全)
  • 98.错误走百度翻译API的苦98步
  • 深入浅出JavaScript中的ArrayBuffer:二进制数据的“瑞士军刀”
  • 从数据到价值:企业构建大数据价值链的核心战略
  • 闭合逻辑检测(保留最大连通分量)
  • 浏览器中 SignalR 连接示例及注意事项
  • 信创领域下的等保合规建设及解读
  • ava多线程实现HTTP断点续传:原理、设计与代码实现
  • 大学生职业发展与就业创业指导教学评价
  • 用 FFmpeg 实现 RTMP 推流直播
  • ArcGIS Pro裁剪栅格影像
  • 洞见未来医疗:RTC技术如何重塑智慧医疗新生态
  • __VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined.
  • android RecyclerView 加载不同的item
  • 基于STM32物联网智能鱼缸智能家居系统
  • Android Framework 之 AudioDeviceBroker
  • 关于TFLOPS、GFLOPS、TOPS
  • 高等三角函数大全
  • 基于Flask,MySQL和MongoDB实现的在线阅读系统
  • (每日一道算法题)子集
  • day51 python CBAM注意力
  • 当文化遇见科技:探秘国际数字影像创新生态高地
  • python爬虫——气象数据爬取
  • 了解Android studio 初学者零基础推荐(4)
  • LangChain + LangSmith + DeepSeek 入门实战:构建代码生成助手
  • 深入理解 React 样式方案