当前位置: 首页 > news >正文

爬过这些网站才算会爬虫

640?wx_fmt=jpeg

摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。

网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题,爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容,很花时间。

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢,从效率上来讲,其实大可不必,已经有前人替我们造好轮子了。

最近发现一个神库,汇总了数十个主流网站的模拟登陆方法:

  • 知乎

  • 微信网页版登录并获取好友列表

  • Bilibili

  • Facebook

  • 无需身份验证即可抓取Twitter前端API

  • 微博网页版

  • QQZone

  • CSDN

  • 淘宝

  • Baidu

  • 果壳

  • JingDong 模拟登录

  • 163mail

  • 拉钩

  • 豆瓣

  • Baidu2

  • 猎聘网

  • Github

  • 爬取图虫相应的图片

  • 网易云音乐

  • 糗事百科

这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码,拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」,假如我们想爬取知乎主页的 HTML 内容,就必须要先登陆才能爬,不然看不到这个界面。下面来简单梳理一下流程。

640?wx_fmt=png
640?wx_fmt=png

知乎需要手机号才能注册登陆。为了方便测试,可以随便找个手机号,手机号到哪儿去找呢,我上周写的那篇文章就发挥作用了。文章里介绍了一个免费电话号码网站,用上面的手机号可以成功注册。

文章传送门:两个神网站保护你的隐私

640?wx_fmt=png
640?wx_fmt=png

顺利登录后就可以进入主页了。

下面,我们用这个库提供的代码来模拟登陆,输出主页 HTML 内容作测试。操作很简单,只需要输入手机号、密码和验证码就可以了。

640?wx_fmt=gif

成功登陆后,接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息,分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来,比如:昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的,应该会很有趣。

640?wx_fmt=gif

还可以爬 B 站:

640?wx_fmt=gif

还可以爬链家租房信息:

640?wx_fmt=gif


还有很多实用有趣的内容,就不一一罗列了,感兴趣的话可以试试,最后放上大神的 GitHub 库地址:

https://github.com/CriseLYJ/awesome-python-login-model

不要闷头造轮子,多抬抬头会发现你在做/想做的东西,别人早已经弄好了,拿来用或者参考学习都是件好事。

本文完。



/今日留言主题/

你爬过什么难爬的网站,用了什么方法搞定?

(留言格式:Dayxx:blahblah)

http://www.xdnf.cn/news/824293.html

相关文章:

  • 什么是HBA(Host Bus Adapter,HBA)
  • OpenJudge-1.8.01:矩阵交换行
  • c++ 构造函数详细介绍
  • 如何使用IPFS命令行/js代码上传文件
  • 深入理解同步阻塞、同步非阻塞、异步阻塞、异步非阻塞
  • Js日期函数-Date方法
  • 颜表情记录(自用
  • extjs Ext.data.Store store学习
  • 什么是802.11ac和802.11ac Wave2
  • 【模拟集成电路】鉴频鉴相器设计(Phase Frequency Detector,PFD)
  • think PHP之环境配置windows+Wamp+Composer+PHP
  • 2024年网络安全最全网工必备工具SecureCRT_crt工具(1),瞬间高大上了
  • 数据流图(DFD)
  • 数据归档与清理功能大幅升级,NineData重磅升级!
  • CSS中实现元素居中的七种方法
  • iOS 苹果授权登录(Sign in with Apple)系列之Apple Developer配置篇
  • 放弃Python拥抱Mojo?鹅厂工程师真实使用感受
  • 推荐几个好用实用的免费图标素材(好看的icon)
  • 开窗函数(分析函数)使用详解
  • 最新配置淘宝镜像的方法
  • Ubuntu安装和配置ssh教程
  • document.getElementById()方法使用
  • equalsIgnoreCase() 方法
  • 【软件开发流程】
  • OSPF协议详解
  • B/S结构和C/S结构详细介绍
  • HDU之算法初步
  • disruptor原理详解
  • 网安学途—SQL SERVER 2008安装教程
  • Apache Log4j2 详解 (一)