事实上,在我们的日志中有许多错误。来解决这个问题。我们必须努力验证baiduspider的真实性。本文详细介绍了爬行动物的识别方法。
当我们根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,其实很多网站都有一些冒充baiduspider的访客。这些数据会严重影响我们对测井分析后的判断。
为什么这些访问者以baiduspider的身份来访问我们的网站?最典型的是那些收集你的内容的人。他们知道很多工具可以看出哪些ip访问量网站太大。比如今天一个ip访问你的网站一万次,这正常吗?肯定是不正常的。但如果他是拜杜斯皮尔呢?哈哈,这很正常。
Mozilla/5.0(兼容;baiduspider/2.0;/search/spider.html)
Mozilla/5.0(兼容;baiduspider-render/2.0;/search/spider.html)
Mozilla/5.0(Linux;u;andro id 4 . 2 . 2;zh-cn;)applebwebkit/534.46(KHTML,likeGecko)版本/5.1MobileSafari/10600.6.3(兼容;baiduspider/2.0;/search/spider.html)
Mozilla/5.0(iphone;CpUiphoneOS9 _ 1 likemacosx)applebwebkit/601 . 1 . 46(KHTML,likeGecko)版本/9.0Mobile/13B143Safari/601.1(兼容;baiduspider-render/2.0;/search/spider.html)
如上所述,它包括百度,的常规爬虫和渲染爬虫。这两种爬行动物的区别用红色标出。
这个问题可以通过DNS反向查找来解决。根据不同平台如linux/windows/os的不同认证方式,认证方式如下:
1.在linux平台下,可以使用hostip命令反向ip,判断是否被Baiduspider抓取。Baiduspider的主机名以. baidu.com或baidu.jp的格式命名,如果不是. baidu.com或baidu.jp,就是冒名顶替。
2.在windows平台或IBMOS/2平台上,可以使用nslookupip命令反向ip,判断是否被Baiduspider抓取。打开命令处理器,输入nslookupxxx . XXX . XXX . XXX . XXX(Ip地址),然后就可以解析Ip,判断是否被Baiduspider抓取。Baiduspider的主机名是以. baidu.com或. baidu.jp的格式命名的,如果不是. baidu.com或. baidu.jp,就是假的。
3.在macos的平台上,可以使用dig命令反向ip,判断是否来自Baiduspider。打开命令处理器,输入digxxx.xxx.xxx.xxx(Ip地址),然后就可以解析Ip,判断是否被Baiduspider抓取。Baiduspider的主机名以. baidu.com或. baidu.jp的格式命名,如果不是. baidu.com或. baidu.jp,就是冒名顶替。
文章来源:黎宋庆SEO博客
来源:SEO baike/SEO rumenjiaoocheng/2005 . html