来源: 作者: 发布:2020/2/1 浏览次数:2011
网站日志分析的作用大致包括:记录你的网站在什么时间更新过什么东西,有没有被黑客攻击你的网站,记录谁来点击进过你的网站,记录蜘蛛什么时间来抓取的,抓取的深度是多深,抓到那个页面下不抓了.这样当你的网站,发现蜘蛛长时间不来抓取后就可以找到问题根源,找到根源就能找到解决的办法,而不会像一个无头的苍蝇到处乱转,或者干等奇迹的发生,首先蜘蛛不来抓取,我们首先要看百度的抓取频次,是从那天开始不抓的?不抓取之前自己是否做过什么违反搜索引擎规则的事...等等这一系列跟网站日志有关的。
1、使用日志分析工具-金花站长工具
百度金花站长工具去下载
打开金花站长工具->数据分析->网站日志分析,选择日志文件目录
2、分析是否收录
举例1月31日发布文章网站优化一-写好title很重要,2月1日我查看网站日志看这篇文章是否被百度收录了
找到1月31日日志文件
查看百度抓取记录,如果查找很麻烦也可以导出到excel中查找
查看是否收录
3、404错误
404错误就是网页打不开,可以检查下网页的地址是否改变了,及时修复404错误避免搜索引擎经常抓取错误网页给搜索引擎留下不好的印象。
状态码200、304都是成功的
4、日志文件大小
日志文件大小反应了网站的受欢迎程度,访问量越大日志文件就越大。通常关注下日志文件大小变化趋势,如果突然增加很多或减少很多就用看是什么原因引起的。
5、日志文件包含的信息
经过上面的讲解大家应该对日志文件有了初步的了解,接着我们讲点更专业的,一条标准的日志记录应该包含哪些信息
远程主机(Remote Host)的IP地址/名字
登录名(Log Name)
登录全名(Full Name)
请求发生的日期(Date)
请求发生的时间(Time)
和标准格林威治时间的差值(GMT Offset)
请求的方法(Request Method)
请求的文件的地址(File)
请求遵守的协议(Protocol)
请求的状态(Status)
被请求文档的长度(Length)
下面是一条标准的日志文件记录:
2020-01-31 13:01:17 192.168.0.5 GET /news_view3.asp id=1381 80 - 220.181.108.186 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - 200 0 0 132
由于服务器的设置问题,格式会有所不同,但是包含的内容是一样的。
6、分析来访者身份
在某些特殊情况下我们需要确认某个访问IP,下面举例说明。
比如我使用了百度商桥,看到每天都有一个来自北京的IP访问我网站,而且每次都只访问一个页面就退出
记录下这个IP:111.206.36.135,然后直接在日志文件里查询
2020-01-31 13:01:05 192.168.0.5 GET /uploadfile/20191020153017659.jpeg - 80 - 111.206.36.135 Mozilla/5.0+(Linux;+Android+6.0;+Redmi+Note+4+Build/MRA58K;+wv)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Version/4.0+Chrome/76.0.3809.89+Mobile+Safari/537.36+T7/11.19+SP-engine/2.15.0+baiduboxapp/11.19.0.11+(Baidu;+P1+6.0) http://www.jlnrj.com/products_view.asp?id=42&tid=42 200 0 0 460
分析发现baiduboxapp是百度手百UA程序,这个访问者对我网站是有用的,果断打个标记
来源:巨灵鸟 欢迎分享本文
上一个文章:网站优化五-H1标签
下一个文章:网站优化一-写好title很重要