如何学习python用python爬汽车之家的汽车配置参数

博主录制的Python3爬虫视频教程已发布!详情请戳!希望大家支持!非常感谢!
> Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。
1. Beautiful Soup的简介
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
废话不多说,我们来试一下吧~
2. Beautiful Soup 安装
Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4),另外据说 BS4 对 Python3 的支持不够好,不过我用的是 Python2.7.7,如果有小伙伴用的是 Python3 版本,可以考虑下载 BS3 版本。
可以利用 pip 或者 easy_install 来安装,以下两种方法均可
easy_install beautifulsoup4
easy_install beautifulsoup4
pip install beautifulsoup4
pip install beautifulsoup4
如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 Beautiful Soup 4.3.2
下载完成之后解压
运行下面的命令即可完成安装
sudo python setup.py install
sudo python setup.py install
然后需要安装 lxml
easy_install lxml
easy_install lxml
pip install lxml
pip install lxml
另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:
<div class="crayon-pl如何爬取汽车之家网页数据_百度知道
如何爬取汽车之家网页数据
需要4s店名称、主营品牌、在售车型数量、电话、地址、店铺种类、来源网址、城市,求大神们帮帮忙
我有更好的答案
八爪鱼可以试一试!
八爪鱼爬取下来是python代码么?
采纳率:69%
为您推荐:
其他类似问题
您可能关注的内容
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。人生苦短,我用Python投稿:225粉丝:3577未经作者授权 禁止转载
看过该视频的还喜欢miniOFF浅析汽车之家用户口碑的爬取(一)
工作中经常遇到的一些统称为技术类的问题,从科研角度来看可能并没什么,比如这次要谈的文本爬取,因为机理上来看就是程序化的复制粘贴过程,但是要完整实现起来,快速上手也是很难的。
对于车主用车信息的获取,除了常规问卷打分调研之外,深访和座谈会被认为是更可靠、更深入的信息切入途径,因此一些优秀的车评帖子也经常会被拿来作参考,而汽车之家作为国内活跃用户最大的汽车论坛(当然了其中媳妇当车模版块也功不可没哈哈),自然是用车口碑爬取的第一选择。这里多说一句,对于任何一款车型,抛开干扰信息不谈,即使你爬取分析了网上每一个相关帖子,可能也仅仅得到该车型用户画像的一小部分,原因显而易见,因为很多真实车主并不会去发帖写车评,这也是为什么网上信息目前多被用来作为辅助决策的主要原因。
最后这次谈的真的只是浅析(主要是水平远远不够,没法深析),另外标题加了个(一)表示工作也没有做完全,最多是一个阶段性总结。
&&& 正文:
一、使用环境说明
首先简要说一下软件的安装,建议直接装Anaconda(英文意思是森蚺,就是电影狂蟒之灾里的那种大蛇,好可怕)+Pycharm(community版就可以,免费的)配合,这样基本上集成了大部分插件,不然要装很多插件,不然有的下载还需要科学上网,比较麻烦。这次关于安装就不赘述了,毕竟能找到很多相关资料。
二、爬取思路流程
三、爬取时遇到的问题
之前一直听说对于一个数据项目来说,爬取工作是需要专门成一个小组来完成,因为中间会遇到各式各样反爬取的难点,自己一直也没太理解,通过这次自己的尝试,算是略知一二了。
口碑界面样式
但是事实是残酷的,模拟点击后的界面是图4的样子…,也就是你需要再模拟点击红圈里的&,但是这时候无论是右键审查还是F12页面都是没有反应,这一下超出我能处理的范围了。
模拟登陆界面
具体车型口碑界面
但是很不幸,在获取页面代码后,我得到的如图6的结果,发现什么了吗?对照图5的界面,明显一些常用词语被代码替代了,下面很自然就有了一个思路,既然常用词语被替代了,那么如果能找到替换列表,给他换回去不就好了么。
关键词对应
由于该对应列表不是我在爬取中实时找到的,因此只能把对应列表以字符串的形式在写代码里,以备提取时替换。后面的工作主要是在利用正则表达式re模块来进行的,主要用到了re.findall,re.sub,大体思路就是利用对应表把关键词替换回来,同时再把原文本中一些没用的符号或者英文字符去掉,最后得到结果见图8,可以看到,基本上与网页中的一致。
最终爬取结果
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。python 实现汽车之家车型数据爬虫
python 实现汽车之家车型数据爬虫。
爬虫保存的样子:
详细数据在json_text字段里面
安装使用方法:
gitclonehttps://github.com/shancang/spider.git
pipinstall-rrequirements.txt
spider修改配置spider/config.py#-*-coding:utf-8
#日志----------------------------------------
LOG_DIR="/tmp/spider"
#日志级别:debug,info,warning,error,critical
LOG_LEVEL="info"
#process-----------------------------------
PID_FILE="/tmp/spider/spider.pid"
THARED_NUMBER=6
#数据库------------------------------------
DB_USER="spider"
PASSWORD="123456"
DB_HOST="localhost"
PORT="3306"
DB_NAME="spider"进程管理pythonsetup.pystart#启动
pythonsetup.pystop#停止
pythonsetup.pystatus#查看运行状态
红黑联盟&版权所有
Copyright&& 2017
All rights reserved.}

我要回帖

更多关于 python快速入门 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信