python爬虫教程 | 一起学数据

当前位置：首页 > 学习专题 > python爬虫教程

selenium 设置请求头
一：selenium设置phantomjs请求头二：selenium设置chrome请求头三：selenium设置chrome--cookie 四：selenium设置phantomjs-图片不加载
python爬虫教程/学习3137次/2018-11-14
Python3爬虫教程(十二)：初识Scrapy之再续火影情缘
如果有人问我，你最喜欢的动漫是什么？我会毫不犹豫地告诉他：《火影忍者》。因为，这是唯一的一部贯穿我小学、初中、高中、大学、研究生生活的动漫。小学五年级的时候，家里的电视安装了机顶盒，那时候的动漫频道还不是清一色的《天线宝宝》、《熊出没》这样的国产动漫。大部分都是日本动漫，《火影忍者》、《海贼王》、《浪客剑心》这样的热血动漫充斥着整个动漫频道。
python爬虫教程/学习1708次/2018-05-09
Python3爬虫教程(十一)：爬虫黑科技之让你的爬虫程序更像人类行为
在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。
python爬虫教程/学习1537次/2018-05-08
Python3爬虫教程(十)：爬取帅哥图
之前，感觉网上类似于《爬取妹子图》这样的爬虫教程有很多，所以我就没有写爬取图片的实战教程。最近，有关注我爬虫教程的朋友说，希望我可以出个爬取图片的教程。那么，今天就谈一谈如何爬取图片吧。
python爬虫教程/学习1932次/2018-05-08
Python3爬虫教程(九)：使用Selenium爬取百度文库
大家都应该有过从百度文库下载东西的经历，对于下载需要下载券的文章，我们可以办理文库VIP（土豪的选择）：有的人也会在某宝购买一定的下载券，然后进行下载。而另一些勤勤恳恳的人，则会选择上传文章，慢慢攒下载券。任劳任怨的人，则会自己一点一点的复制粘贴，复制到word里文字太大，那就复制到txt文件里。
python爬虫教程/学习1886次/2018-05-07
Python3爬虫教程(八)：爱奇艺等主流视频网站的VIP视频破解
没有会员，想在线观看或下载爱奇艺、PPTV、优酷、网易公开课、腾讯视频、搜狐视频、乐视、土豆、A站、B站等主流视频网站的VIP视频？又不想充会员怎么办？博主本次写的VIP视频破解助手也许可以帮你解决烦恼。
python爬虫教程/学习2108次/2018-05-07
Python3爬虫教程(七)：使用Beautiful Soup爬取小说
简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
python爬虫教程/学习1609次/2018-05-06
Python3爬虫教程(六)：使用Cookie获取妹子联系方式
ookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密)。比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容，登陆前与登陆后是不同的，或者不允许的。
python爬虫教程/学习1596次/2018-05-06
Python3爬虫教程(五)：Python3安装Scrapy
Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架，可以应用于数据挖掘，信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在，Scrapy已经推出了曾承诺过的Python3.x版本。
python爬虫教程/学习1596次/2018-05-05
Python3爬虫教程(四)：使用User Agent和代理IP隐藏身份
一些网站不喜欢被爬虫程序访问，所以会检测连接对象，如果是爬虫程序，也就是非人点击访问，它就会不让你继续访问，所以为了要让程序可以正常运行，需要隐藏自己的爬虫程序的身份。此时，我们就可以通过设置User Agent的来达到隐藏身份的目的，User Agent的中文名为用户代理，简称UA。
python爬虫教程/学习1496次/2018-05-05
Python3爬虫教程(三)：urllib.error异常
关于 urllib.error产生的异常情况
python爬虫教程/学习1689次/2018-05-04
Python3爬虫教程(二)：利用urllib.urlopen向有道翻译获得翻译结果
上一篇内容，已经学会了使用简单的语句对网页进行抓取。接下来，详细看下urlopen的两个重要参数url和data，学习如何发送数据data。
python爬虫教程/学习1561次/2018-05-03
Python3爬虫教程(一)：利用urllib进行网页抓取
爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。
python爬虫教程/学习1751次/2018-05-02

加入学习圈子

数据分析群+加入
python学习+加入
AI 交流群+加入

关注微信公众号

加入学习圈子

热门阅读

推荐阅读

关注我们

关注微信公众号,学习资料免费领