177-1430-0462
您的当前位置:主页 > 营销推广 > SEO >

Linux查看Apache日志百度蜘蛛爬行记录

联系电话:17714300462

Linux查看Apache日志百度蜘蛛爬行记录

SEO的人都希望百度蜘蛛能够经常光顾自己的网站,快速收录页面。那么通过分析Apache日志文件,就可以知道百度蜘蛛抓取过哪些连接,抓取的时间,抓取了哪些不希望被抓取的连接……

今天介绍Linux系统下面如何分析Apache日志中的蜘蛛记录。

首先查看Apache配置文件httpd.conf,找到这么两句话:

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

CustomLog logs/access_log combined

这两句话规定了Apache日志的格式和存放位置。

然后使用如下命令过滤日志,并将内容存储到txt文件里:

find /etc/httpd/logs/access_log | xargs grep "+http://www.baidu.com/search/spider.htm" > baiduspider.txt

查看百度蜘蛛爬行记录:

vim baiduspider.txt

举一个例子:

220.181.108.161 - - [03/Dec/2016:10:53:14 +0800] "GET /sitemap.xml HTTP/1.1" 200 2158 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

本例中,IP地址为220.181.108.161的蜘蛛,在东八区时间2016.12.03 10:53:14,抓取了sitemap.xml文件,文件状态码200,文件大小2158字节。

通过分析百度蜘蛛抓取记录,可以知道百度抓取过哪些页面,页面状态码是否正常,是否抓取了不希望被抓取的页面等等。对于网站的SEO优化是很有帮助的。

上一篇:挖掘高质量外链资源的六大方法
下一篇:没有了
文章关键词
SEO
Linux
Apache
百度蜘蛛

Copyright © 南京爱思亿欧 2010-2017 苏ICP备16056277号