5

【故障公告】它(变异的百度蜘蛛)又来了,雪上加霜又添恐怖的三月 - 博客园团队

 1 year ago
source link: https://www.cnblogs.com/cmt/p/17254793.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【故障公告】它(变异的百度蜘蛛)又来了,雪上加霜又添恐怖的三月

今天12点左右,它又来了,熟悉的恐怖身影(116开头IP段、山西的某个城市),不是cc攻击,是那只令人“敬畏”的蜘蛛。

2022年4月3日,它的首次来访在园子里掀起狂风暴浪,数据库连接数过万,负载均衡带宽跑满,带宽扩容50%依然跑满,当时我们通过限制同一个IP每天的请求数侥幸躲过。

2022年5月4日,它如同吃了兴奋剂般变得格外疯狂,由于触发IP请求数限制被重定向到登录站点,但它那龙卷风般的天量请求直接冲垮登录站点,无奈之下,我们屏蔽了这个IP网段。

它有成千上万的IP,我们屏蔽的IP网段只有255个IP,看索引量没有大的变化,我们天真地以为影响不大,却不知因此得罪了中文互联网的老大。

得罪老大的后果就是:园子遭遇2022年最悲惨的境遇——被它拉黑,在搜索结果中对园子全面降权,让我们切身体会老大的厉害。

后悔自己的天真,感叹老大的厉害,我们亡羊补牢以求老大网开一面——放开了被屏蔽的IP网段。

解除屏蔽后观察了1-2月,搜索流量并没有明显的回升,看来这次真的是惹怒了老大,我们会后悔莫及,见识了真正霸气的老大不会给你悔过的机会。

在观察期间,我们有了一个惊人的发现——每天光临园子最多的竟然是它,每天竟然访问1000多万次,园子的博文总数也就在1000万篇左右,日理万机的它竟然会每天看园子的每篇博文,难道准备以后改行当程序员?

接着,我们又有一个发现,每天千万次的访问竟然消耗了园子近一半的带宽费用,对于囊中羞涩的园子来说有点吃不消,每天让它看园子的每篇博文,还得给它倒贴带宽费,而且在搜索排名中继续被拉黑着。

于是,我们采取了一个应对之策,专门提供一个负载均衡给它访问并限制了峰值带宽,这样不仅可以控制带宽费用,而且在它发飙的时候可以减少宕机。

从去年到今天中午,它被我们这个对应之策通过专用负载均衡关进笼子里,即使被限制了带宽,它也会很多时候给园子带来3000-4000的QPS,所以来个cc攻击,园子就格外难以撑住。

今天中午,恐怖的事情发生了,它开始不遵守针对搜索引擎的dns解析,从笼子里跑出来了!

近一年后它依然如此彪悍,如此毫无忌惮,园子依然扛不住,除非屏蔽 IP 段,但又不敢再次得罪依然威风凛凛的老大,目前只是临时限制它所访问的负载均衡的带宽,但这会让访问这些负载均衡的正常用户受影响。

非常抱歉,这个突发问题给您带来了麻烦,我们正在进一步想办法,争取找到更好的解决方法。

【16:30】刚刚试着放开一些带宽,数据库连接数很快飙升,这种并发疯狂爬取不同博文,缓存发挥不了作用。

【16:50】这只蜘蛛今天已疯,我们不想陪着疯,已暂时屏蔽去年屏蔽过的那个网段,屏蔽后立马恢复正常。如此疯狂的爬取已经和cc攻击没什么区别了。

【19:00】今年2月,我们通过“百度搜索资源平台-反馈中心”反馈“抓取频次高的离谱,百度蜘蛛每秒请求数(QPS)既然高达4000多”问题,百度客户竟然回复让我们“自查整改”,吓得我们在意不敢向百度客服反馈问题了。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK