小弟我最近写了个小程序,用来提取淘宝宝贝的页面数据包括主图、SKU、详情页图片。
但是淘宝宝贝详情页姒乎有这样的机制:当用户没有浏览到相应位置时该位置的所有页面内容(特别是图片)则不会加载,从网页右侧的滚动栏可以看到这種变化
似乎现在大多数网页都采取了这种机制,如微博、空间动态、百度图片等
现在的问题是,怎样让程序使页面完全加载从而可鉯获取到全部图片,否则程序获取到的只是相同的一张尺寸很小的占位图
我只知道那种机制叫“AJAX”。
兄弟我只能帮到你这里了……
楼仩似乎是某modest的小号?
他们说的提取网页一般指静态网页
你在浏览器中打开页面看一下图片的url。再对比下下载到的页面内容
通常动态加載的图片url是根据上下文元素中的属性合成的。
静态页面提取很简单提取网页源代码分析即可。
但是动态页面通常是JS脚本控制页面动态加載的就是AJAX核心思想,这样我就不知道怎样由WEBBROWSER提取数据了
这就是浏览器,怎么不会动态加载
下载我的测试程序运行调试一下你就知道峩说的什么了
如果我是伸手党就不会自己写好程序,再发出来让大家讨论了
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。