5

Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

 3 years ago
source link: https://zhang.ge/4284.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去Debug一些已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了。

现在博客联盟也收录的博客也已破200了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖。由于大部分都是建站不过半年的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来。

上午用PHP做了一个放到了京东云试了下,发现检测速度一般,要等上半天(我写的php太蹩脚,就不献丑了)。

随后,我在VPS上写了一个多线程的网站状态检测脚本,直接从数据库load站点地址,然后用curl去检测返回码,发现速度非常好,基本1分钟内就能出结果

以下是脚本代码:

#!/bin/bash
#Author:ZhangGe
#Date:2014-08-21
#Desc:Check the site of ZGboke Alliance.
#取出网站数据
data=`/usr/bin/mysql -uroot -p123456 -e "use zgboke;select web_url from dir_websites where web_status='3';" -N -B | awk '{print $1}'`
if [ -z "$data" ];then
echo "Faild to connect database!"
exit 1
test -f result.log && rm -f result.log
function delay {
sleep 3
tmp_fifofile=/tmp/$$.fifo
mkfifo $tmp_fifofile
exec 6<>$tmp_fifofile
rm $tmp_fifofile
#定义并发线程数,需根据vps配置进行调整。
thread=100
for ((i=0 ;i<$thread;i++ ))
done>&6
#开始多线程循环检测
for url in $data
read -u6
#curl抓取网站http状态码
code=`curl -o /dev/null --retry 3 --retry-max-time 8 -s -w %{http_code} $url`
echo "$code ---> $url">>result.log
#判断子线程是否执行成功,并输出结果
delay && {
echo "$code ---> $url"
echo "Check thread error!"
echo >& 6
#等待所有线程执行完毕
exec 6>&-
#找出非200返回码的站点
echo List of exception website:
cat result.log | grep -v 200
exit 0

Ps:关于shell多线程脚本,后续文章会有一个详细说明,本文篇幅有限,就不多说了。

以下是中国博客联盟第一次成员站点存活检测的结果:

①、 非200返回码的异常站点:

②、脚本抓取的无法访问站点:

人工访问筛选结果:

wangyingxue.net(王英学博客):无法访问,经确认处于备案中  √

www.tao0102.com(长江博客):可以访问  √

blog.hack7d.com(Mcdull技术博客):无法访问  ×

www.1992621.com(教师日记):可以访问  √

www.3miaotu.com(三秒兔):无法访问   ×

xiaoxiaomayi.com(小小蚂蚁博客):可以访问 √

www.awrui.com(李文栋博客):可以访问  √

Ps:脚本检测机制为:8s内未连通的判定为异常,并重试3次,最后输出结果,若三次均异常则为000。从图中和人工筛选可以看出,存在一些误杀,这个和8s的设定有一定关系。可以考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,所以也没多大关系。

后续,中国博客联盟会制订一个检查周期,最短每星期检查一次,最长一个月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果公布在中国博客联盟的站长资讯专栏,方便所有成员查看。

由于目前中国博客联盟部署在京东云擎,无法远程操控数据库,所以只好暂时用半自动的模式。等以后有时间搬到了阿里云等VPS上后,将会将脚本改成全自动状态,当有网站联系多次检测为失联状态时,将会暂时将其设置为隐藏状态。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK