当前位置：首页 > 编程知识 > 正文内容

黑客专用爬虫（爬虫攻击网站原理）

hacker2年前 (2022-06-03)编程知识75

本文导读目录：

1、网络爬虫是什么？

2、如何入门 python 爬虫

3、python爬虫被当做黑客攻击是怎么回事呢

4、淘宝12亿条客户信息遭爬取，黑客非法获利34万，客户信息是如何泄露的？

5、网络爬虫的几种常见类型

6、网络爬虫是什么？具体要学哪些内容？

网络爬虫是什么？

网络爬虫就是一种从互联网抓取数据信息的自动化程序，如果我们将互联网比作一张大的蜘蛛网，数据就是存放在蜘蛛网的一个节点，爬虫就是一个小蜘蛛，沿着网络抓取数据。

爬虫可以在抓取的过程中进行各种异常处理、错误重试等操作，确保抓取持续高效运行。

爬虫分为通用爬虫以及专用爬虫，通用爬虫是搜索引擎抓取系统的重要组成部分，主要目的将互联网网页下载到本地，形成一个互联网内容的镜像备份;专用爬虫主要为某一类特定的人群提供服务。

如何入门 python 爬虫

先自己答一个，期待牛人的回答。

自己学Python不久，列举自己做过的和知道的。

1. Python做爬虫很方便，有现成的库。我在学习python的过程中也遇到过一个非常简单的例子，代码：python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有开源的项目叫什么supercrawler，具体可以看看。

2.Python做游戏。Pygame还是不错的，但只适合做小游戏。用Pygame写个植物大战僵尸还是可以的。推荐教程用Python和Pygame写游戏。Python在游戏服务器方面也有应用。EVE这种游戏都大量用Python。

3.Python作为黑客第一语言，在黑客领域的应用就不多说了。

4.Python做网站，有几个web框架 WebFrameworks。用得最多的是Django。

5......各方面都有，什么推荐系统，都是用python，在此就不一一列举了。

python爬虫被当做黑客攻击是怎么回事呢

网站有专门的条款说明用户应当遵守的规定，比如百度知道就对其内容拥有知识产权，在未经允许不能转载传播。网站虽然不知道你是否会去传播，但是可以通过访问网页的速度判断你是否是一个机器人。

要想避免网站发现你在爬内容，可以适当限制爬去网页的速度。

淘宝12亿条客户信息遭爬取，黑客非法获利34万，客户信息是如何泄露的？

他使用了爬虫软件，偷取了客户的名字和电话，然后卖给了他的一些违法公司。

网络爬虫的几种常见类型

版权归作者所有，任何形式转载请联系作者。

作者：盛世阳光（来自豆瓣）

来源：https://www.douban.com/note/617498592/

1.批量型网络爬虫：限制抓取的属性，包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面，总之明显的特征就是受限；

2.增量型网络爬虫（通用爬虫）：与前者相反，没有固定的限制，无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序；

3.垂直网络爬虫（聚焦爬虫）：简单的可以理解为一个无限细化的增量网络爬虫，可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

这些网络爬虫的功能不一，使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫，提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取，这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活，很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站，都是先通过一般爬虫或者人工批量抓取内容，然后给用户一些可选项，让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容，整个过程极大的降低了资源和时间的消耗。相反如果这些内容全部用聚焦爬虫来完成，不仅要消耗大量的网络资源，而且会延长搜索时间时间，影响客户体验。