如何学习python用python爬汽车之家的汽车配置参数

点击联系发帖人 时间：2018-05-22 23:44

python快速入门

博主录制的Python3爬虫视频教程已发布！详情请戳！希望大家支持！非常感谢！
> Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一节就让我们一起来感受一下Beautiful Soup的强大吧。
1. Beautiful Soup的简介
简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。
废话不多说，我们来试一下吧~
2. Beautiful Soup 安装
Beautiful Soup 3 目前已经停止开发，推荐在现在的项目中使用Beautiful Soup 4，不过它已经被移植到BS4了，也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)，另外据说 BS4 对 Python3 的支持不够好，不过我用的是 Python2.7.7，如果有小伙伴用的是 Python3 版本，可以考虑下载 BS3 版本。
可以利用 pip 或者 easy_install 来安装，以下两种方法均可
easy_install beautifulsoup4
easy_install beautifulsoup4
pip install beautifulsoup4
pip install beautifulsoup4
如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法。在这里我安装的是 Beautiful Soup 4.3.2
下载完成之后解压
运行下面的命令即可完成安装
sudo python setup.py install
sudo python setup.py install
然后需要安装 lxml
easy_install lxml
easy_install lxml
pip install lxml
pip install lxml
另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:
<div class="crayon-pl如何爬取汽车之家网页数据_百度知道
如何爬取汽车之家网页数据
需要4s店名称、主营品牌、在售车型数量、电话、地址、店铺种类、来源网址、城市，求大神们帮帮忙
我有更好的答案
八爪鱼可以试一试！
八爪鱼爬取下来是python代码么？
采纳率：69%
为您推荐：
其他类似问题
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。人生苦短，我用Python投稿：225粉丝：3577未经作者授权禁止转载
看过该视频的还喜欢miniOFF浅析汽车之家用户口碑的爬取（一）
工作中经常遇到的一些统称为技术类的问题，从科研角度来看可能并没什么，比如这次要谈的文本爬取，因为机理上来看就是程序化的复制粘贴过程，但是要完整实现起来，快速上手也是很难的。
对于车主用车信息的获取，除了常规问卷打分调研之外，深访和座谈会被认为是更可靠、更深入的信息切入途径，因此一些优秀的车评帖子也经常会被拿来作参考，而汽车之家作为国内活跃用户最大的汽车论坛（当然了其中媳妇当车模版块也功不可没哈哈），自然是用车口碑爬取的第一选择。这里多说一句，对于任何一款车型，抛开干扰信息不谈，即使你爬取分析了网上每一个相关帖子，可能也仅仅得到该车型用户画像的一小部分，原因显而易见，因为很多真实车主并不会去发帖写车评，这也是为什么网上信息目前多被用来作为辅助决策的主要原因。
最后这次谈的真的只是浅析（主要是水平远远不够，没法深析），另外标题加了个（一）表示工作也没有做完全，最多是一个阶段性总结。
&&& 正文：
一、使用环境说明
首先简要说一下软件的安装，建议直接装Anaconda（英文意思是森蚺，就是电影狂蟒之灾里的那种大蛇，好可怕）+Pycharm（community版就可以，免费的）配合，这样基本上集成了大部分插件，不然要装很多插件，不然有的下载还需要科学上网，比较麻烦。这次关于安装就不赘述了，毕竟能找到很多相关资料。
二、爬取思路流程
三、爬取时遇到的问题
之前一直听说对于一个数据项目来说，爬取工作是需要专门成一个小组来完成，因为中间会遇到各式各样反爬取的难点，自己一直也没太理解，通过这次自己的尝试，算是略知一二了。
口碑界面样式
但是事实是残酷的，模拟点击后的界面是图4的样子…，也就是你需要再模拟点击红圈里的&，但是这时候无论是右键审查还是F12页面都是没有反应，这一下超出我能处理的范围了。
模拟登陆界面
具体车型口碑界面
但是很不幸，在获取页面代码后，我得到的如图6的结果，发现什么了吗？对照图5的界面，明显一些常用词语被代码替代了，下面很自然就有了一个思路，既然常用词语被替代了，那么如果能找到替换列表，给他换回去不就好了么。
关键词对应
由于该对应列表不是我在爬取中实时找到的，因此只能把对应列表以字符串的形式在写代码里，以备提取时替换。后面的工作主要是在利用正则表达式re模块来进行的，主要用到了re.findall,re.sub，大体思路就是利用对应表把关键词替换回来，同时再把原文本中一些没用的符号或者英文字符去掉，最后得到结果见图8，可以看到，基本上与网页中的一致。
最终爬取结果
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。python 实现汽车之家车型数据爬虫
python 实现汽车之家车型数据爬虫。
爬虫保存的样子:
详细数据在json_text字段里面
安装使用方法：
gitclonehttps://github.com/shancang/spider.git
pipinstall-rrequirements.txt
spider修改配置spider/config.py#-*-coding:utf-8
#日志----------------------------------------
LOG_DIR="/tmp/spider"
#日志级别：debug,info,warning,error,critical
LOG_LEVEL="info"
#process-----------------------------------
PID_FILE="/tmp/spider/spider.pid"
THARED_NUMBER=6
#数据库------------------------------------
DB_USER="spider"
PASSWORD="123456"
DB_HOST="localhost"
PORT="3306"
DB_NAME="spider"进程管理pythonsetup.pystart#启动
pythonsetup.pystop#停止
pythonsetup.pystatus#查看运行状态
红黑联盟&版权所有
Copyright&& 2017
All rights reserved.}

51无线网