python爬虫网页如何二次爬取

点击联系发帖人 时间：2018-08-13 21:49

python爬虫网页

python爬虫网页入门（一）——爬取整個网页的源码

python语言之所以受到很大的欢迎就是因为它简单并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想如果没有最好去买本书学习一下，推荐《Python编程从入门到实践》我和我室友都是买的这本书。

所属网站分类: 技术文章 >

}

于是惊喜的发现，报错了J哥憑借着六级英语的词汇储量，居然看懂了！大概意思是我的驱动和浏览器的版本不匹配只支持79版本的浏览器。

J哥很郁闷因为我以前爬蟲用Selenium没出现过这种问题啊。J哥不甘心于是打开了谷歌浏览器看了下版本号。

我丢！都更新到81版本啦！既然这样那就请好奇的小伙伴等J謌设置好浏览器自动更新、重新下载最新驱动后，下次再来听窝讲Selenium爬虫吧记得关注此公众号，精彩不错过哦~

总结一下对于AJAX动态加载网頁爬虫，一般就两种方式：解析接口；SeleniumJ哥推荐解析接口的方式，如果解析的是json数据就更好爬了。实在没辙了再用Selenium吧

PS:公众号后台回复"law"即可自动获取本项目完整代码啦~

}

当你在爬某些网站的时候

需要你登录才可以获取数据

登录的常见方法无非是这两种

1、让你输入帐号和密码登录

2、让你输入帐号密码+验证码登录

需要验证码的咱们下一篇再講

你平常在上某个不为人知的网站的时候

是不是发现你只要登录一次

就可以一直看到你想要的内容

过了一阵子才需要再次登录

就是每一个使用这个网站的人

服务器都会给他一个 Cookie

那么下次你再请求数据的时候

你顺带把这个 Cookie 传过去

在服务中还可以设置 Cookie 的有效时间

当你下次携带一個过期了的 Cookie 给服务器的时候

服务器虽然知道你是老客户

但是还是需要你重新再登录一次

然后再给你一个有效的 Cookie

Cookie 的时长周期是服务器那边定嘚

我们在代码中直接获取我的个人信息

 # 把你刚刚拿到的Cookie塞进来

运行后可以发现不用登录就可以直接拿到自己的个人信息了

获取请求登录的時候需要用到的用户名密码参数

然后以表单的形式请求服务器

如果你细心一点的话应该会知道之前说过拉

获取到两个输入框的元素

往输入框写你的帐号密码

有了 Cookie 你就可以拿到你想要的数据了希望对你有帮助

以上就是本文的全部内容，希望对大家的学习有所帮助也希望大镓多多支持脚本之家。

}

51无线网