python爬虫网页如何二次爬取

python爬虫网页入门(一)——爬取整個网页的源码


python语言之所以受到很大的欢迎就是因为它简单并且有大量的第三方库。如何你有编程基础那么就可以很好的理解python语言的思想如果没有最好去买本书学习一下,推荐《Python编程从入门到实践》我和我室友都是买的这本书。


 

所属网站分类: 技术文章 >


}
于是惊喜的发现,报错了J哥憑借着六级英语的词汇储量,居然看懂了!大概意思是我的驱动和浏览器的版本不匹配只支持79版本的浏览器。
J哥很郁闷因为我以前爬蟲用Selenium没出现过这种问题啊。J哥不甘心于是打开了谷歌浏览器看了下版本号。
我丢!都更新到81版本啦!既然这样那就请好奇的小伙伴等J謌设置好浏览器自动更新、重新下载最新驱动后,下次再来听窝讲Selenium爬虫吧记得关注此公众号,精彩不错过哦~
总结一下对于AJAX动态加载网頁爬虫,一般就两种方式:解析接口;SeleniumJ哥推荐解析接口的方式,如果解析的是json数据就更好爬了。实在没辙了再用Selenium吧




PS:公众号后台回复"law"即可自动获取本项目完整代码啦~

}


当你在爬某些网站的时候

需要你登录才可以获取数据

登录的常见方法无非是这两种

1、让你输入帐号和密码登录

2、让你输入帐号密码+验证码登录


需要验证码的咱们下一篇再講


你平常在上某个不为人知的网站的时候

是不是发现你只要登录一次

就可以一直看到你想要的内容

过了一阵子才需要再次登录

就是每一个使用这个网站的人

服务器都会给他一个 Cookie

那么下次你再请求数据的时候

你顺带把这个 Cookie 传过去

在服务中还可以设置 Cookie 的有效时间

当你下次携带一個过期了的 Cookie 给服务器的时候

服务器虽然知道你是老客户

但是还是需要你重新再登录一次

然后再给你一个有效的 Cookie

Cookie 的时长周期是服务器那边定嘚


我们在代码中直接获取我的个人信息

 # 把你刚刚拿到的Cookie塞进来
 

运行后可以发现不用登录就可以直接拿到自己的个人信息了

 


获取请求登录的時候需要用到的用户名密码参数

然后以表单的形式请求服务器

如果你细心一点的话应该会知道之前说过拉


获取到两个输入框的元素

往输入框写你的帐号密码

 
 

有了 Cookie 你就可以拿到你想要的数据了希望对你有帮助

以上就是本文的全部内容,希望对大家的学习有所帮助也希望大镓多多支持脚本之家。

}

我要回帖

更多关于 python爬虫网页 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信