2.python-爬虫的基础认知,如何学好爬虫?简单认识,简单学习

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 21:04   4717   0

作为一个小白来说,看那多原理,等于天书,看不懂,但是为啥是叫了解爬虫,而不是懂里边内容,框架(Scrapy)怎么写的,我作为小白知道怎么用,不就行了吗,之后在了解深入.


作为小白呢?知道爬虫是爬取网络数据的就行了.


网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。
很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。
爬虫是服务器有喜欢,又讨厌的,因为爬虫是干嘛的,模拟人的操作啊,这是什么就是像淘宝,
用户浏览商品啊,一个网店没人来,它能得到钱?显然不能,所以喜欢,但是爬虫又不是人啊,人浏览
完了,还能买商品,但是爬虫得到信息啊,这些信息是什么,价格竞争啊,知道我卖多少钱了,再去别
的地方看,怎么办,还有就是爬虫没人管了,放到服务器上自动爬,我一个公司或者网店它的服务器就这么大,全是你这个爬虫,别人还来的了吗?资源拥堵了,所以又是喜欢又是讨厌.


爬虫类型


作为我们使用的爬虫,一个小白写半天有啥用,就是帮助公司获取想要的数据的爬虫.


常见的优秀网络爬虫有以下几种类型:

1.批量型网络爬虫:限制抓取的属性,包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面,总之明显的特征就是受限;

2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序;

3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。


爬虫使用


这些网络爬虫的功能不一,使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫,提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取,这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活,很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站,都是先通过一般爬虫或者人工批量抓取内容,然后给用户一些可选项,让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容,整个过程极大的降低了资源和时间的消耗。

相反如果这些内容全部用聚焦爬虫来完成,不仅要消耗大量的网络资源,而且会延长搜索时间,影响客户体验。

  • 思考下你要是去公司上班了,专门做爬虫要用什么爬虫? 怎么爬?

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP