
百度用于抓取网页的程序(procedure)叫做Baiduspider - 百度蜘蛛(baiduspider),我们查看(view)网站(website)被百度抓取的情况主要是分析(Analyse),网站日志里百度蜘蛛Baiduspider的活跃(Active)性:抓取频率(frequency),返回的HTTP状态(state)码。
查看(view)日志的方式(fāng shì):
通过( tōng guò)FTP,在网站根目录找到一个日志文件,文件名一般包含(bāo hán)log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问(fǎng wèn)和操作(cāo zuò)的情况(qíng kuàng)。
因为各个服务(service)器和主机的情况(qíng kuàng)不同,不同的主机日志功能(Funcyusa)记录的网站内容不同的甚至没有日志功能。
常熟做网站不仅仅是提供域名注册、空间租用、网站开发、网站建设与网络营销策划相关的企业组织。只要关于网络方面的问题,可以提供给用户解决问题的,都可以成为网络公司。
日志网站内容如下:
61.135.168.22 - - [11/Jan/200
9:0
4:0
2:45 +0800] "GET //thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+search/spider.htm)"
分析:
GET //thread-7303-1-1.html 代表,抓取//thread-7303-1-1.html 这个页面。
常熟做网站不仅仅是提供域名注册、空间租用、网站开发、网站建设与网络营销策划相关的企业组织。只要关于网络方面的问题,可以提供给用户解决问题的,都可以成为网络公司。
200 代表成功(success)抓取。
8450 代表抓取了8450个字节。
如果你的日志里格式(form )不是如此,则代表日志格式设置(shè zhì)不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常(zhèng cháng)抓取。
抓取频率(frequency)是通过( tōng guò)查看每日的日志里百度蜘蛛(baiduspider)抓取次数(time)来获知。
常熟做网站不仅仅是提供域名注册、空间租用、网站开发、网站建设与网络营销策划相关的企业组织。只要关于网络方面的问题,可以提供给用户解决问题的,都可以成为网络公司。抓取频率并没有一个标准的时间表或频率数字,我们一般通过多日的日志对比来判断(pàn duàn)。当然,我们希望百度蜘蛛每日抓取的次数越多越好。