数据来源于 2022/6/27-2022/7/11 本人 CDN 日志
# 无用爬虫
以下信息均来源于各自爬虫的官网,如需知道详细信息请进入 UA 中的官网查看
# AhrefsBot
Ahrefs Bot 为 Ahrefs 在线营销工具集的数据库提供支持。Ahrefs 作为国外的 SEO 工具,通常被用在 SEO 关键字调研、独立站外链建设、竞争对手外链反查上。而对于面向国内个人博客的网站则没什么明显用途。
UA
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/) |
robot.txt
User-agent: AhrefsBot | |
Disallow: / |
爬虫 IP 范围
54.36.148.0/24 | |
54.36.149.0/24 | |
195.154.122.0/24 | |
195.154.123.0/24 | |
195.154.126.0/24 | |
195.154.127.0/24 | |
51.222.253.0/26 | |
168.119.64.245 | |
168.119.64.246 | |
168.119.64.247 | |
168.119.64.248 | |
168.119.64.249 | |
168.119.64.250 | |
168.119.64.251 | |
168.119.64.252 | |
168.119.64.253 | |
168.119.64.254 | |
168.119.65.107 | |
168.119.65.108 | |
168.119.65.109 | |
168.119.65.110 | |
168.119.65.111 | |
168.119.65.112 | |
168.119.65.113 | |
168.119.65.114 | |
168.119.65.115 | |
168.119.65.116 | |
168.119.65.117 | |
168.119.65.118 | |
168.119.65.119 | |
168.119.65.120 | |
168.119.65.121 | |
168.119.65.122 | |
168.119.65.123 | |
168.119.65.124 | |
168.119.65.125 | |
168.119.65.126 | |
168.119.65.43 | |
168.119.65.44 | |
168.119.65.45 | |
168.119.65.46 | |
168.119.65.47 | |
168.119.65.48 | |
168.119.65.49 | |
168.119.65.50 | |
168.119.65.51 | |
168.119.65.52 | |
168.119.65.53 | |
168.119.65.54 | |
168.119.65.55 | |
168.119.65.56 | |
168.119.65.57 | |
168.119.65.58 | |
168.119.65.59 | |
168.119.65.60 | |
168.119.65.61 | |
168.119.65.62 | |
168.119.68.117 | |
168.119.68.118 | |
168.119.68.119 | |
168.119.68.120 | |
168.119.68.121 | |
168.119.68.122 | |
168.119.68.123 | |
168.119.68.124 | |
168.119.68.125 | |
168.119.68.126 | |
168.119.68.171 | |
168.119.68.172 | |
168.119.68.173 | |
168.119.68.174 | |
168.119.68.175 | |
168.119.68.176 | |
168.119.68.177 | |
168.119.68.178 | |
168.119.68.179 | |
168.119.68.180 | |
168.119.68.181 | |
168.119.68.182 | |
168.119.68.183 | |
168.119.68.184 | |
168.119.68.185 | |
168.119.68.186 | |
168.119.68.187 | |
168.119.68.188 | |
168.119.68.189 | |
168.119.68.190 | |
168.119.68.235 | |
168.119.68.236 | |
168.119.68.237 | |
168.119.68.238 | |
168.119.68.239 | |
168.119.68.240 | |
168.119.68.241 | |
168.119.68.242 | |
168.119.68.243 | |
168.119.68.244 | |
168.119.68.245 | |
168.119.68.246 | |
168.119.68.247 | |
168.119.68.248 | |
168.119.68.249 | |
168.119.68.250 | |
168.119.68.251 | |
168.119.68.252 | |
168.119.68.253 | |
168.119.68.254 |
# SemrushBot
SemrushBot 为 Semrush 发现和收集新的和更新的 Web 数据。SemrushBot 收集的数据主要用于分析页面 SEO、外链搜索等。同样对于面向国内个人博客的网站没什么明显用途。
UA
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) |
robot.txt
User-agent: SemrushBot | |
Disallow: / | |
User-agent: SiteAuditBot | |
Disallow: / | |
User-agent: SemrushBot-BA | |
Disallow: / | |
User-agent: SemrushBot-SI | |
Disallow: / | |
User-agent: SemrushBot-SWA | |
Disallow: / | |
User-agent: SemrushBot-CT | |
Disallow: / | |
User-agent: SemrushBot-BM | |
Disallow: / | |
User-agent: SplitSignalBot | |
Disallow: / | |
User-agent: SemrushBot-COUB | |
Disallow: / |
无固定 IP 范围
# Barkrowler
Barkrowler 爬虫为 Babbar.tech 提供在线营销和 SEO 参考工具。其对于面向国内个人博客的网站没什么明显用途。
UA
Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) |
robot.txt
User-agent: barkrowler | |
Disallow: / |
无固定 IP 范围
# PetalBot
PetalBot 是 Petal 搜索引擎的爬虫。该搜索引擎虽然是华为出品,但实际上国内并不能正常访问,所以可以考虑将其屏蔽。
UA
Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | |
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) |
robot.txt
User-agent: PetalBot | |
Disallow: / |
未明确提及 IP 范围
# coccocbot-web
coccocbot 是 Coc Coc 搜索引擎的爬虫。该搜索引擎来自越南,所以对国内网站没有任何帮助。
UA
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine) |
robot.txt
User-agent: coccocbot-web | |
Disallow: / |
未明确提及 IP 范围
# CensysInspect
Censys 平台帮助信息安全从业人员发现、监控和分析网络设备。对于个人网站也没有什么实际用途。
UA
Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/) |
robot.txt
User-agent: CensysInspect | |
Disallow: / |
爬虫 IP 范围
162.142.125.0/24 | |
167.94.138.0/24 | |
167.94.145.0/24 | |
167.94.146.0/24 | |
167.248.133.0/24 | |
2602:80d:1000:b0cc:e::/80 | |
2620:96:e000:b0cc:e::/80 |
# BLEXBot
BLEXBot 帮助互联网营销人员获取有关网站链接结构及其在网络上的相互链接的信息,以避免任何技术和可能的法律问题,并改善整体在线体验。其对于面向国内个人博客的网站没什么明显用途。
UA
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) |
robot.txt
User-agent: BLEXBot | |
Disallow: / |
未明确提及 IP 范围
# SeznamBot
SeznamBot 是 Seznam 搜索引擎的爬虫。该搜索引擎来自捷克,所以对国内网站没有任何帮助。
UA:
Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/) | |
Mozilla/5.0 (compatible; SeznamBot/3.2-test4; +http://napoveda.seznam.cz/en/seznambot-intro/) | |
Mozilla/5.0 PhantomJS (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/) | |
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/) | |
Mozilla/5.0 (compatible; Seznam screenshot-generator 2.1; +http://fulltext.sblog.cz/screenshot/) | |
Mozilla/5.0 (Linux; U; Android 4.1.2; cs-cz; Seznam screenshot-generator Build/Q3) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30 |
robot.txt
User-agent: SeznamBot | |
Disallow: / |
爬虫 IP 范围
SeznamBot | |
77.75.76.x | |
77.75.77.x | |
77.75.78.x | |
77.75.79.x | |
2a02:598:aaaa:2::x | |
2a02:598:bbbb:2::x | |
FreshBot | |
77.75.77.31 | |
77.75.79.31 | |
Test version | |
77.75.73.26 | |
screenshot-generator | |
77.75.77.123 | |
77.75.77.174 | |
77.75.77.200 | |
77.75.79.123 | |
77.75.79.200 | |
2a02:598:2::1123 | |
2a02:598:2::1200 |
# DataForSeoBot
DataForSEO Link Bot 确保 SEO 社区的每个成员都能接触到 Google 排名算法的核心元素关键。其对于面向国内个人博客的网站没什么明显用途。
UA
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) |
robot.txt
User-agent: DataForSeoBot | |
Disallow: / |
未明确提及 IP 范围
# 恶意爬虫
# 爬取 wp-login.php
wp-login.php 为 WordPress 站点登录页面,不法分子可以通过机器扫描该文件来尝试爆破攻击你的网站。如果采用 WordPress 建站的需要考虑采用保护措施,如修改登录文件名,或通过 nginx 禁止访问请求。
本次采用的 Hexo 静态建站,所以并不存在该文件,但仍然在日志中找到了大量 IP 尝试寻找该文件,请注意提防。
# 服务器攻击
通过攻击命令寻找服务器漏洞,并进行攻击,多使用 getshell 漏洞或远程代码执行漏洞。
在日志中了解到已知的攻击命令包含漏洞:
- Ueditor 编辑器任意文件上传漏洞
- DedeCMS 5.7 远程文件包含漏洞
- FCKeditor 编辑器上传漏洞
- ECSHOP 远程代码执行漏洞
- SiteServer CMS 漏洞
- PHPCMS 任意文件上传漏洞
- TPshop 漏洞
- thinkPHP 远程代码执行漏洞
- 狮子鱼社区团购系统 CMS 任意文件上传漏洞
攻击命令不便展示,请注意以上漏洞并及时修复!
# 虚假爬虫
本人在翻看 CDN 日志时发现了百度爬虫大量爬取本人的网站,其 UA 非常正常
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
但通过百度站长后台可以知道百度爬虫根本就没有爬取(泪目)。
windows 下可以通过以下命令来查询爬虫
nslookup [爬虫的IP地址] |
如果是官方的爬虫则会显示 IP 的 DNS 记录,并该记录与官方所提供的相符
名称: baiduspider-220-181-108-91.crawl.baidu.com | |
Address: 220.181.108.91 |
虚假爬虫会显示找不到,或与与官方所提供的不符,注意屏蔽
*** 找不到 [IP地址]: Non-existent domain |
# 个人爬虫
个人爬虫如果没有指定 UA 的话,默认可能会显示如下的 UA,请注意屏蔽
libcurl-agent | |
python-requests | |
Jakarta Commons-HttpClient | |
curl | |
Java | |
feedfinder2 |