数据来源于 2022/6/27-2022/7/11 本人 CDN 日志

# 无用爬虫

以下信息均来源于各自爬虫的官网,如需知道详细信息请进入 UA 中的官网查看

# AhrefsBot

Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具,通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。

UA

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

robot.txt

User-agent: AhrefsBot
Disallow: /

爬虫 IP 范围

54.36.148.0/24
54.36.149.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
51.222.253.0/26
168.119.64.245
168.119.64.246
168.119.64.247
168.119.64.248
168.119.64.249
168.119.64.250
168.119.64.251
168.119.64.252
168.119.64.253
168.119.64.254
168.119.65.107
168.119.65.108
168.119.65.109
168.119.65.110
168.119.65.111
168.119.65.112
168.119.65.113
168.119.65.114
168.119.65.115
168.119.65.116
168.119.65.117
168.119.65.118
168.119.65.119
168.119.65.120
168.119.65.121
168.119.65.122
168.119.65.123
168.119.65.124
168.119.65.125
168.119.65.126
168.119.65.43
168.119.65.44
168.119.65.45
168.119.65.46
168.119.65.47
168.119.65.48
168.119.65.49
168.119.65.50
168.119.65.51
168.119.65.52
168.119.65.53
168.119.65.54
168.119.65.55
168.119.65.56
168.119.65.57
168.119.65.58
168.119.65.59
168.119.65.60
168.119.65.61
168.119.65.62
168.119.68.117
168.119.68.118
168.119.68.119
168.119.68.120
168.119.68.121
168.119.68.122
168.119.68.123
168.119.68.124
168.119.68.125
168.119.68.126
168.119.68.171
168.119.68.172
168.119.68.173
168.119.68.174
168.119.68.175
168.119.68.176
168.119.68.177
168.119.68.178
168.119.68.179
168.119.68.180
168.119.68.181
168.119.68.182
168.119.68.183
168.119.68.184
168.119.68.185
168.119.68.186
168.119.68.187
168.119.68.188
168.119.68.189
168.119.68.190
168.119.68.235
168.119.68.236
168.119.68.237
168.119.68.238
168.119.68.239
168.119.68.240
168.119.68.241
168.119.68.242
168.119.68.243
168.119.68.244
168.119.68.245
168.119.68.246
168.119.68.247
168.119.68.248
168.119.68.249
168.119.68.250
168.119.68.251
168.119.68.252
168.119.68.253
168.119.68.254

# SemrushBot

SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。

UA

Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

robot.txt

User-agent: SemrushBot
Disallow: /
User-agent: SiteAuditBot
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SplitSignalBot
Disallow: /
User-agent: SemrushBot-COUB
Disallow: /

无固定 IP 范围

# Barkrowler

Barkrowler 爬虫为 Babbar.tech 提供在线营销和 SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。

UA

Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler)

robot.txt

User-agent: barkrowler
Disallow: /

无固定 IP 范围

# PetalBot

PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品,但实际上国内并不能正常访问,所以可以考虑将其屏蔽。

UA

Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

robot.txt

User-agent: PetalBot
Disallow: /

未明确提及 IP 范围

# coccocbot-web

coccocbot 是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南,所以对国内网站没有任何帮助。

UA

Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)

robot.txt

User-agent: coccocbot-web
Disallow: /

未明确提及 IP 范围

# CensysInspect

Censys 平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。

UA

Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/)

robot.txt

User-agent: CensysInspect
Disallow: /

爬虫 IP 范围

162.142.125.0/24
167.94.138.0/24
167.94.145.0/24
167.94.146.0/24
167.248.133.0/24
2602:80d:1000:b0cc:e::/80
2620:96:e000:b0cc:e::/80

# BLEXBot

BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息,以避免任何技术和可能的法律问题,并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。

UA

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

robot.txt

User-agent: BLEXBot
Disallow: /

未明确提及 IP 范围

# SeznamBot

SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克,所以对国内网站没有任何帮助。

UA:

Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)
Mozilla/5.0 (compatible; SeznamBot/3.2-test4; +http://napoveda.seznam.cz/en/seznambot-intro/)
Mozilla/5.0 PhantomJS (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/)
Mozilla/5.0 (Linux; U; Android 4.1.2; cs-cz; Seznam screenshot-generator Build/Q3) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30

robot.txt

User-agent: SeznamBot
Disallow: /

爬虫 IP 范围

SeznamBot
77.75.76.x
77.75.77.x      
77.75.78.x
77.75.79.x
2a02:598:aaaa:2::x
2a02:598:bbbb:2::x
FreshBot
77.75.77.31
77.75.79.31
Test version
77.75.73.26
screenshot-generator
77.75.77.123
77.75.77.174
77.75.77.200
77.75.79.123
77.75.79.200
2a02:598:2::1123
2a02:598:2::1200

# DataForSeoBot

DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。

UA

Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)

robot.txt

User-agent: DataForSeoBot
Disallow: /

未明确提及 IP 范围

# 恶意爬虫

# 爬取 wp-login.php

wp-login.php 为 WordPress 站点登录页面,不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用 WordPress 建站的需要考虑采用保护措施,如修改登录文件名,或通过 nginx 禁止访问请求。
本次采用的 Hexo 静态建站,所以并不存在该文件,但仍然在日志中找到了大量 IP 尝试寻找该文件,请注意提防。

# 服务器攻击

通过攻击命令寻找服务器漏洞,并进行攻击,多使用 getshell 漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞:

  • Ueditor 编辑器任意文件上传漏洞
  • DedeCMS 5.7 远程文件包含漏洞
  • FCKeditor 编辑器上传漏洞
  • ECSHOP 远程代码执行漏洞
  • SiteServer CMS 漏洞
  • PHPCMS 任意文件上传漏洞
  • TPshop 漏洞
  • thinkPHP 远程代码执行漏洞
  • 狮子鱼社区团购系统 CMS 任意文件上传漏洞

攻击命令不便展示,请注意以上漏洞并及时修复!

# 虚假爬虫

本人在翻看 CDN 日志时发现了百度爬虫大量爬取本人的网站,其 UA 非常正常

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

但通过百度站长后台可以知道百度爬虫根本就没有爬取(泪目)。
windows 下可以通过以下命令来查询爬虫

nslookup [爬虫的IP地址]

如果是官方的爬虫则会显示 IP 的 DNS 记录,并该记录与官方所提供的相符

名称:    baiduspider-220-181-108-91.crawl.baidu.com
Address:  220.181.108.91

虚假爬虫会显示找不到,或与与官方所提供的不符,注意屏蔽

*** 找不到 [IP地址]: Non-existent domain

# 个人爬虫

个人爬虫如果没有指定 UA 的话,默认可能会显示如下的 UA,请注意屏蔽

libcurl-agent
python-requests
Jakarta Commons-HttpClient
curl
Java
feedfinder2