Skip to main content
 首页 » 网络技术

百度站长平台ETag的作用,站点服务器配置ETag

2015年11月17日74

sitemap如何开启ETag很重要,到底ETag是什么东西呢,对于很多新站长或者不是太在意的SEOER都不了解,下面是详细讲解:

一、ETag简介

ETag(EntityTags)是URL的tag,用来标示URL对象是否改变,这样可利用客户端(例如浏览器)的缓存。由服务器首先产生ETag,客户端通过将该记号传回服务器要求服务器验证其(客户端)缓存。服务器使用它来判断页面是否已经被修改,如果未修改返回304,而不必重新传输整个对象。

二、现在站点sitemap存在的问题

1、发现更新不及时 当站点或其sitemap发生更新时,百度难以及时发现并响应,因为百度难以无时无刻地持续检查站点内容和sitemap是否更新。

2、全量抓取,消耗带宽 现在百度对站点sitemap的抓取会将sitemap文件完整下载下来,鉴于sitemap文件一般较大,而这种下载可能存在多次,故比较消耗网站的流量和带宽。

三、ETag作用

HTTP1.1用Etag来判断请求的文件是否被修改,主要为了解决Last-Modified无法解决的一些问题

1、一些文件也许会周期性的更改,但是他的内容并不改变(仅仅改变的修改时间),这个时候并不希望客户端认为这个文件被修改了重新GET;

2、某些文件修改非常频繁, 1秒内修改了N次,If-Modified-Since能检查到的粒度是秒级的,这种修改无法判断

3、某些服务器不能精确的得到文件的最后修改时间;为此,HTTP1.1引入了Etag.但标准并没有规定Etag的内容是什么或者说要怎么实现,唯一规定的是Etag需要放在双引号内。Etag由服务器端生成,客户端通过If-Match或者说If-None-Match这个条件判断请求来验证资源是否修改。

四、站点启用ETag的好处

1、对sitemap启用ETag后,百度可以更快速地响应sitemap的更新,没有更改内容的情况下,服务器只发回304应答头,对流量的消耗极小,在每个head平均227B大小的通常情形下,一整天二十四小时每秒都回应的流量消耗仅为18.7M。

2、现在站长平台对每个站点的sitemap主动抓取次数设有上限,且这项功能没有对所有站开放,如果您的站点sitemap启用了ETag,并通过了测试,那么就可以用很小的流量享受百度及时更新您的sitemap的功能,以便于百度更好地收录您网站的内容。

对站点服务器如何配置ETag

一、ApacheApache根据配置文件中的配置来设置Etag值,默认的Apache的FileEtag设置为:

FileEtagINode Mtime Size 也就是根据这三个属性来生成Etag值,他们之间通过一些算法来实现,并输出成hex的格式,相邻属性之间用-分隔,比如:2e681a-6-5d044840,这里面的三个段,分别代表了INode,MTime,Size根据算法算出的值的Hex格式,可以改变Apache的FileEtag设置,比如设置成FileEtagSize,那么得到的Etag可能为:6,设置了几个段,Etag值就有几个段。更多具体配置参照百度官方地址:http://zhanzhang.baidu.com/college/articleinfo?id=457

不管怎么样的ETag,在服务器端都要进行计算,计算就有开销,会带来性能损失。一些网站把Etag禁用了,这其实不符合HTTP1.1的规定,因为HTTP/1.1总是鼓励服务器尽可能的开启Etag。

为了确定ETag对性能造成的具体影响。我们在服务器上(CPU Intel E5-2620 2.00GHz,内存65G,Web Server使用此CPU的两个核心)进行压力测试,在逐渐增加并发用户数目的情况下,查看CPU消耗率和服务器吞吐率在有无设置ETag情况下的具体对比。