个人博客无用和恶意爬虫整理

数据来源于 2022/6/27-2022/7/11 本人 CDN 日志

# 无用爬虫

以下信息均来源于各自爬虫的官网，如需知道详细信息请进入 UA 中的官网查看

# AhrefsBot

Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具，通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

robot.txt

	User-agent: AhrefsBot
	Disallow: /

爬虫 IP 范围

	54.36.148.0/24
	54.36.149.0/24
	195.154.122.0/24
	195.154.123.0/24
	195.154.126.0/24
	195.154.127.0/24
	51.222.253.0/26
	168.119.64.245
	168.119.64.246
	168.119.64.247
	168.119.64.248
	168.119.64.249
	168.119.64.250
	168.119.64.251
	168.119.64.252
	168.119.64.253
	168.119.64.254
	168.119.65.107
	168.119.65.108
	168.119.65.109
	168.119.65.110
	168.119.65.111
	168.119.65.112
	168.119.65.113
	168.119.65.114
	168.119.65.115
	168.119.65.116
	168.119.65.117
	168.119.65.118
	168.119.65.119
	168.119.65.120
	168.119.65.121
	168.119.65.122
	168.119.65.123
	168.119.65.124
	168.119.65.125
	168.119.65.126
	168.119.65.43
	168.119.65.44
	168.119.65.45
	168.119.65.46
	168.119.65.47
	168.119.65.48
	168.119.65.49
	168.119.65.50
	168.119.65.51
	168.119.65.52
	168.119.65.53
	168.119.65.54
	168.119.65.55
	168.119.65.56
	168.119.65.57
	168.119.65.58
	168.119.65.59
	168.119.65.60
	168.119.65.61
	168.119.65.62
	168.119.68.117
	168.119.68.118
	168.119.68.119
	168.119.68.120
	168.119.68.121
	168.119.68.122
	168.119.68.123
	168.119.68.124
	168.119.68.125
	168.119.68.126
	168.119.68.171
	168.119.68.172
	168.119.68.173
	168.119.68.174
	168.119.68.175
	168.119.68.176
	168.119.68.177
	168.119.68.178
	168.119.68.179
	168.119.68.180
	168.119.68.181
	168.119.68.182
	168.119.68.183
	168.119.68.184
	168.119.68.185
	168.119.68.186
	168.119.68.187
	168.119.68.188
	168.119.68.189
	168.119.68.190
	168.119.68.235
	168.119.68.236
	168.119.68.237
	168.119.68.238
	168.119.68.239
	168.119.68.240
	168.119.68.241
	168.119.68.242
	168.119.68.243
	168.119.68.244
	168.119.68.245
	168.119.68.246
	168.119.68.247
	168.119.68.248
	168.119.68.249
	168.119.68.250
	168.119.68.251
	168.119.68.252
	168.119.68.253
	168.119.68.254

# SemrushBot

SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。

Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

robot.txt

	User-agent: SemrushBot
	Disallow: /
	User-agent: SiteAuditBot
	Disallow: /
	User-agent: SemrushBot-BA
	Disallow: /
	User-agent: SemrushBot-SI
	Disallow: /
	User-agent: SemrushBot-SWA
	Disallow: /
	User-agent: SemrushBot-CT
	Disallow: /
	User-agent: SemrushBot-BM
	Disallow: /
	User-agent: SplitSignalBot
	Disallow: /
	User-agent: SemrushBot-COUB
	Disallow: /

无固定 IP 范围

# Barkrowler

Barkrowler 爬虫为 Babbar.tech 提供在线营销和 SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。

Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)

robot.txt

	User-agent: barkrowler
	Disallow: /

无固定 IP 范围

# PetalBot

PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品，但实际上国内并不能正常访问，所以可以考虑将其屏蔽。

Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

robot.txt

	User-agent: PetalBot
	Disallow: /

未明确提及 IP 范围

# coccocbot-web

coccocbot 是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南，所以对国内网站没有任何帮助。

Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)

robot.txt

	User-agent: coccocbot-web
	Disallow: /

未明确提及 IP 范围

# CensysInspect

Censys 平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。

Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)

robot.txt

	User-agent: CensysInspect
	Disallow: /

爬虫 IP 范围

	162.142.125.0/24
	167.94.138.0/24
	167.94.145.0/24
	167.94.146.0/24
	167.248.133.0/24
	2602:80d:1000:b0cc:e::/80
	2620:96:e000:b0cc:e::/80

# BLEXBot

BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息，以避免任何技术和可能的法律问题，并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

robot.txt

	User-agent: BLEXBot
	Disallow: /

未明确提及 IP 范围

# SeznamBot

SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克，所以对国内网站没有任何帮助。

UA：

	Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)
	Mozilla/5.0 (compatible; SeznamBot/3.2-test4; +http://napoveda.seznam.cz/en/seznambot-intro/)
	Mozilla/5.0 PhantomJS (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
	Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/)
	Mozilla/5.0 (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
	Mozilla/5.0 (Linux; U; Android 4.1.2; cs-cz; Seznam screenshot-generator Build/Q3) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30

robot.txt

	User-agent: SeznamBot
	Disallow: /

爬虫 IP 范围

	SeznamBot
	77.75.76.x
	77.75.77.x
	77.75.78.x
	77.75.79.x
	2a02:598:aaaa:2::x
	2a02:598:bbbb:2::x
	FreshBot
	77.75.77.31
	77.75.79.31
	Test version
	77.75.73.26
	screenshot-generator
	77.75.77.123
	77.75.77.174
	77.75.77.200
	77.75.79.123
	77.75.79.200
	2a02:598:2::1123
	2a02:598:2::1200

# DataForSeoBot

DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。

Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

robot.txt

	User-agent: DataForSeoBot
	Disallow: /

未明确提及 IP 范围

# 恶意爬虫

# 爬取 wp-login.php

wp-login.php 为 WordPress 站点登录页面，不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用 WordPress 建站的需要考虑采用保护措施，如修改登录文件名，或通过 nginx 禁止访问请求。
本次采用的 Hexo 静态建站，所以并不存在该文件，但仍然在日志中找到了大量 IP 尝试寻找该文件，请注意提防。

# 服务器攻击

通过攻击命令寻找服务器漏洞，并进行攻击，多使用 getshell 漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞：

Ueditor 编辑器任意文件上传漏洞
DedeCMS 5.7 远程文件包含漏洞
FCKeditor 编辑器上传漏洞
ECSHOP 远程代码执行漏洞
SiteServer CMS 漏洞
PHPCMS 任意文件上传漏洞
TPshop 漏洞
thinkPHP 远程代码执行漏洞
狮子鱼社区团购系统 CMS 任意文件上传漏洞

攻击命令不便展示，请注意以上漏洞并及时修复！

# 虚假爬虫

本人在翻看 CDN 日志时发现了百度爬虫大量爬取本人的网站，其 UA 非常正常

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

但通过百度站长后台可以知道百度爬虫根本就没有爬取（泪目）。
windows 下可以通过以下命令来查询爬虫

nslookup [爬虫的IP地址]

如果是官方的爬虫则会显示 IP 的 DNS 记录，并该记录与官方所提供的相符

	名称: baiduspider-220-181-108-91.crawl.baidu.com
	Address: 220.181.108.91

虚假爬虫会显示找不到，或与与官方所提供的不符，注意屏蔽

*** 找不到 [IP地址]: Non-existent domain

# 个人爬虫

个人爬虫如果没有指定 UA 的话，默认可能会显示如下的 UA，请注意屏蔽

	libcurl-agent
	python-requests
	Jakarta Commons-HttpClient
	curl
	Java
	feedfinder2

爬虫

# 无用爬虫

# AhrefsBot

# SemrushBot

# Barkrowler

# PetalBot

# coccocbot-web

# CensysInspect

# BLEXBot

# SeznamBot

# DataForSeoBot

# 恶意爬虫

# 爬取 wp-login.php

# 服务器攻击

# 虚假爬虫

# 个人爬虫

《大家的日语》文法整理

数据库系统概念 学习笔记

数据库系统概念学习笔记