网站访问统计术语和度量方法

类别:Java 点击:0 评论:0 推荐:

一、介绍 

    中国互联网络信息中心(CNNIC)是成立于1997年6月3日的非盈利管理与服务机构,行使国家互联网络信息中心的职责。其宗旨是为我国互联网络用户服务,促进我国互联网络健康、有序地发展。随着互联网络在国内的飞速发展,广大互联网站迫切地需要了解他们的网站的访问量信息,于是他们采用了一些国内或国外的对于网站的访问量进行测算和度量的服务。然而,这些服务面临着一个重要的难题,即缺乏对访问统计指标的权威定义和度量标准,既缺乏官方的标准也缺乏事实上的标准。各个服务提供商提供了不同统计口径的统计指标,出于商业考虑,服务提供商往往也不公开他们的统计度量方法。对于网站来讲,由于使用了不同的网站访问统计服务,因而他们获得的报告无法和其它网站的访问统计报告进行比较。这种报告缺乏对广告客户的吸引力,一方面制约了网站的盈利空间,另一方面也制约了互联网络的发展。对于广告客户来讲,他们同样面临着困惑,因为他们判断不出选择哪一个网站播出他们的广告会收到更好的效果,他们的广告投资应该与网站访问量成正比,而可比较的网站访问统计报告是他们进行投资的依据。

    中国互联网络信息中心(CNNIC)建议的网站访问统计术语和度量方法正是希望能够提出一种具有可比性的、可被广泛接受的网站访问统计的标准。我们的任务就是建立一套网站访问统计的术语,并对其度量方法提出建议。我们希望以此文档作为网站访问统计的指导方针,帮助网站的建设者、网站的访问者、网站的广告客户更全面更准确地获得他们想要了解的信息,为他们精确地计划、执行、实现他们的网上商业项目提供依据。

    此文档提供了网站访问统计术语的解释和对度量方法的建议,这将有助于网站使用一种通用的语言向外界发布访问统计的信息。

    我们起草这个建议是为了促进互联网络事业在国内的发展。我们也希望此文档能够引起互联网络界的注意,使大家关注网站访问信息的度量。因为我们真诚地希望互联网网站能成为广告客户更为友好的媒体平台,使互联网站能够走上持续发展的道路。


二、统计实现方式 

    对网站的访问信息的统计,我们建议采用如下的实现方式:

    这种方式是对Web服务器生成的日志文件进行分析,这种日志文件有时是原始的文件,有时是由第三方统计机构在服务器端加入的模块生成的。这种方式的优点是可以定制自己格式的日志文件,采用加密算法和压缩日志文件的技术,以保证日志文件的真实性和可靠性,并且降低传递日志文件所产生的网络流量,适用于第三方机构进行网站访问量的认证度量工作。当然这种方式也有自己的不足之处,包括难以做到实时的统计分析,而且在服务器端的附加模块有可能降低Web服务器的性能。

    在文档中,当提及此方式时,我们称为分析日志文件的方式。


三、如何标识访问者
 
    标识网站的访问者是网站访问统计的基础。不恰当的对访问者的标识是目前多种访问统计服务提供的报告难以比较的根本原因。目前还没有十全十美的标识访问者的方法,因此多种访问统计服务使用了不同的标识访问者的方法是可以理解的。我们希望能够提出一种具有可比性的、可被广泛接受的网站访问统计度量的标准。 访问者(Visitor)定义:一个与网站有交互操作的个人。度量方法:

    我们建议采用以下方法作为度量、识别访问者的方法。先采用IP地址来标识访问者,不同的IP地址表明不同的访问者。当来访的IP地址相同的时候试图通过跟踪文件(Cookie)来标识访问者,不同的跟踪文件(Cookie)表明不同的访问者。在服务器端加入的模块生成的含有扩展内容的日志文件可识别出访问者的跟踪文件(Cookie),这将弥补原始日志文件未记录跟踪文件(Cookie)的不足。跟踪文件(Cookie)是指由服务器向浏览器发送带有Set-cookie头信息的HTTP响应,支持跟踪文件(Cookie)的浏览器将在本机硬盘上保留一小片用于标识自己身份的信息。不同的跟踪文件(Cookie)可以表明不同的访问者。评论:

    标识网站的访问者是网站访问统计的基础。
    用户(User)和访问者是同一术语,它们的含义相同。1,单纯使用跟踪文件(Cookie)的方法存的问题。(1)并不是所有浏览器都支持跟踪文件(Cookie)。(2)支持跟踪文件(Cookie)的浏览器中有些允许采用不接受任何跟踪文件(Cookie)的策略。(3)跟踪文件(Cookie)可以被某些程序或被手工删除掉。(4)如果用户同时使用多种浏览器,则每个浏览器会保存不同的跟踪文件(Cookie)。(5)当用户重新安装操作系统或重新安装浏览器时,跟踪文件(Cookie)都有可能丢失,除非用户手工保存它们。(6)浏览器只能保存总共300个跟踪文件(Cookie),每个跟踪文件(Cookie)有4K的容量限制,每个域或服务器只可以在客户端放置20个跟踪文件(Cookie)。(7)存在着关于跟踪文件(Cookie)侵犯访问者隐私权的争论。

    跟踪文件(Cookie)存在着种种争议,但它仍然是值得推荐的方法之一,支持使用跟踪文件(Cookie)的意见包括:(1)由Web服务器响应的包含Set-cookie的头信息不会被代理服务器(Proxy)缓存(Cache),代理服务器(Proxy)将传送Set-cookie头信息给客户浏览器。同样地,包含Cookie的客户请求的头信息也将被代理服务器(Proxy)转发给Web服务器。因此,跟踪文件(Cookie)是目前简单而有效的识别使用代理服务器(Proxy)访问网络的用户的方法。(2)目前国内使用最广泛的浏览器Internet Explorer 3.x、4.x、5.x、Netscape 3.x、4.x及Opera 3.x均支持跟踪文件(Cookie),只有1%的访问者使用除此之外的其它浏览器。 (3)在默认状态下,上述浏览器都采用接受所有跟踪文件(Cookie)的策略。(4)对于大多数友善的网站,跟踪文件(Cookie)提供了一种方便访问者访问的机制,而不是一种偷窥用户访问路径的工具。 2,通过IP地址识别访问者是一种很常用而且值得推荐的方法之一,使用IP地址识别访问者的优点是:(1)对于直接连接在互联网络上具有唯一IP地址的计算机,IP地址可以准确地标识计算机及其来源。(2)相对跟踪文件(Cookie)来讲,IP地址跟踪到计算机,而跟踪文件(Cookie)跟踪到浏览器。同一IP地址的计算机有可能由于同时使用多种浏览器而保留有多个跟踪文件(Cookie),因此IP地址更好地标识了单独的计算机。

    通过IP地址识别用户也存在一些问题。从Web服务器的访问日志中无法全部识别通过代理服务器(Proxy)访问网络的用户。尽管有时可以从HTTP_USER_AGENT环境变量看出访问者使用了某种代理服务器(Proxy),但仍然无法得知他到底是哪个访问者。因此我们选择采用IP地址为主,跟踪文件(Cookie)为辅的方式来标识访问者。


四、网站访问量指标及度量 

    唯一访问者(Unique Visitor)

    定义:

     唯一访问者是指在一特定时间内第一次进入网站,具有唯一访问者标识(唯一地址)的访问者。这一特定时间建议为一整天。

    度量方法:

    在同一天内,只记录第一次进入网站的具有唯一访问者标识的访问者,在同一天内再次访问该网站则不计数。

    评论:

    也称日唯一访问者(Daily Unique Visitor)。独立访问者、独立访客、独立用户、唯一用户和唯一访问者是同一术语。唯一访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。

    月唯一访问者(Monthly Unique Visitor)

    定义:

    同上。特定时间建议为一整月。

    度量方法:

    在同一月内,只记录第一次进入网站的具有唯一访问者标识的访问者,在同一月内再次访问该网站则不计数。   用户会话(User Session)

    定义:

    用户会话是指具有唯一访问者标识(唯一地址)的访问者进入或再次进入网站的过程。

    度量方法:

    访问者在20分钟内与网站有交互活动则被认为是同一次进入网站,不记录新的用户会话数;当访问者持续20分钟与网站没有交互活动,当他再次访问网站时访问者被认为再一次进入了网站,记录新的用户会话数。

    评论:

    用户进出数、访问数(Visit)和用户会话是同一术语。用户会话不应该被解释为网站的访问人次或访问人数,但是用户会话是相对接近网站访问人次或访问人数的指标。网站的精确的访问人次或访问人数难于被统计。用户会话比唯一访问者更能说明网站的全部活动,它表明了网站的使用频率。

    页面阅览(Page View)

     定义:

    一次页面阅览就是一次页面的下载,访问者成功地阅览到页面应该在他的浏览器上完整地看到该页面。

    度量方法:

    一次浏览器请求即可算作一次页面阅览。

    评论:

    以一次浏览器的请求算作一次页面阅览并不是完全准确的。
    1,代理服务器(Proxy)缓存(Cache)和浏览器缓存(Cache)使服务器记录的请求数少于实际显示在访问者浏览器上的页面数。
    2,在带宽小、响应时间长的情况下,访问者可能在页面显示之前就跳转至其它页面浏览,因此即使服务器记录了访问者的请求,但实际上并没有被访问者阅览到。
    3,醒目页面(Splash Page)和空隙页面(Interstitial)不应该被记录入页面阅览次数之中。
    4,动态的由程序生成的页面应该记入页面阅览次数中。
    5,含有帧(Frame)的页面应该只被记录一次页面阅览,即使含有帧(Frame)的页面会产生对多个文档的请求。

    使用分析日志文件的方式进行统计,醒目页面(Splash Page)和空隙页面(Interstitial)会被日志文件记录,在分析时应该忽略计算特定的醒目页面(SplashPage)和空隙页面(Interstitial)。在日志文件中会记录对特定的程序(如CGI程序)的请求,因而由这些程序动态生成的页面也可以被计算。日志文件识别不出含有帧的页面,使用分析日志文件的方式进行统计,这个误差可以被接受。

    页读数、页面查看、阅览(View)、页面印象(Page Impression)、页面请求(PageRequest)和页面阅览是同一术语。

    请求(Request)

    定义:

    为了获得服务器上的一个资源(可以是文本、图像或任何可以被包含在页面内的元素),浏览器和它连接的服务器之间进行的一次单一连接。

    度量方法:

    对于使用分析日志文件的方式进行的统计,日志文件中一条记录就是一个请求,通过对这些记录的统计来获得度量的数据。

    评论:

    命中(Hit)和请求是同一术语。当页面请求指对HTML文档的请求时,页面请求是请求的一个子集,当页面请求指访问者页面阅览数时,请求和页面请求的含义不同,在某些情况下,请求不被记录在页面阅览或页面请求内。


五、访问者特征指标及度量  浏览器(Browser)定义:

    一个用于定位和阅览HTML文档的程序(例如:Netscape Communicator、Mosaic、Microsoft Internet Explorer)。度量方法:

    可以从日志文件中获得浏览器类型的信息,以此获得统计的数据。评论:

    通常可以获得软件厂商的名字、浏览器的版本等信息。但是浏览器字符串(BrowserString)没有标准的格式,这是分析它的一个困难之处。平台(Platform)定义:

    访问网站的访问者使用的操作平台。度量方法:

    同分析浏览器一样可以分析浏览器字符串(Browser String)来获得关于操作平台的信息。评论:

    考虑到特殊的浏览器如WebTV和SEGA,称为操作平台比称为操作系统更恰当一些。它们可以通过伴随URL请求而来信息加以识别。浏览器语言(Browser Language)定义:

    浏览器所用的语言。度量方法:

    可以通过浏览器字符串(Browser String)来得到浏览器的语言,HTTP_ACCEPT_LANGUAGE环境变量也可以反映浏览器所希望接收的HTML文档的语言。评论:

    并不是所有浏览器都可以获得它所用的语言。使用分析日志文件的方式无法获得浏览器语言的数据。域名(Domain Name)定义:

    互联网络上对应于计算机的IP地址的文本地址,它是连接在互联网络上的计算机的正式的名字。度量方法:

    度量域名实际上是考察远程计算机所在的一级或二级域(Domain),如:.com、.edu、.cn、.com.cn、.net.cn等等。REMOTE_HOST环境变量和日志文件都会记录远程计算机的主机名和域名,但并不是所有情况下都可以获得远程计算机的主机名和域名。评论:

    并不是所有连入互联网络的计算机都可记录其主机名和域名,大部分计算机被记录的仍然是IP地址而不是它们的主机名和域名,对于没有主机名和域名的计算机,统计其所在域时应标明"未知"。不同的服务器及其配置,会影响到是否可以获得远程计算机的主机名和域名。可被反向解析IP地址的远程计算机往往会被记录下其主机名和域名,但是在记录日志文件时进行IP地址的反向解析将增大服务器的负荷,尤其对访问量很大的网站。可以在分析日志文件时再进行IP地址的反向解析,当然这也将减慢分析的速度。指引链接(Referrer、Referral Link)定义:

    访问者点击一个页面中的链接而被引导至当前HTML页面,则该链接是当前页面的指引链接。度量方法:

    从HTTP_REFERER环境变量和对服务器日志文件的分析中可获得指引链接的信息。

    评论:

    有时候也会遇到指引页面(Referring Page)一词,它们的意义相近,在浏览器中总是由指引的URL到达目标的URL。


六、访问者行为指标及度量

    每页面请求的平均时间(Average Time Per Page Request)

    定义:

    访问者每次多个页面请求的平均时间。

    度量方法:

    用户会话的第一次请求至最后一次请求间的时间 ÷ (用户会话期间的页面请求数-1)。

    评论:

    每页面请求的平均时间应该在一个比较大的范围内求得,计算用户会话时长之前应该已计算出这个值。

    用户会话时长(User Session Length)

    定义:

    一次用户会话的时间长度。

    度量方法:

    用户会话的第一次请求至最后一次请求间的时间 + 每页面请求的平均时间。

    评论:

    用户访问时长和用户会话时长是同一术语。

    平均用户会话时长(Average User Session Length)

    定义:

    网站访问者用户会话的平均时间长度。   度量方法:

    总计的用户会话时长 ÷ 用户会话数。

    评论:

    平均用户访问时长和平均用户会话时长是同一术语。

    返回访问(Return Visits)

    定义:

    在一特定时间内,访问者在不同用户会话中再次访问网站的次数。

    度量方法:

    度量在一特定时间内,访问者在不同用户会话中再次访问网站的次数。

    评论:

    这一特定时间可以由进行统计的机构决定。建议的时间可以是一天或者不设置这一特定时间,后者可以表明访问者总共访问该网站的次数。返回访问的次数表明了网站的受欢迎的程度。


七、其它可度量指标 

    带宽(Bandwidth)

    定义:

    网站流量的度量标准(以数据传递的千字节为单位)。

    度量方法:

    使用分析日志文件的方式进行统计可以根据日志文件中每条记录中返回文件的大小来统计网站的带宽。

    重载(Reload)

    定义:

    访问者点击浏览器中的重载(Reload)按钮或者是刷新(Refresh)按钮重新载入当前的页面的动作。

    度量方法:

    用分析访问日志文件的方式进行统计,当访问者执行重载操作时都会重新发起对该页面的请求,可以将30秒内相同的请求判断为访问者执行了重载的操作,记录重载次数。

    评论:

    重载操作的数目无法完全准确的被判断。我们建议并列页面阅览数和重载数,而不必从页面阅览数中减去重载数。迎程度和访问者对网站的忠诚度。点击(Click)

    定义:

    一次点击是指访问者的鼠标在一个超文本链接上的一次单击,目的是为了沿着它的链接获得更多访问者感兴趣的信息。

     度量方法:

    只有使用分析日志文件的方式可以统计出对于某个超文本链接点击次数。

    评论:

    点击数量(Click-Through、Clickthrough)和点击是同一术语。点击通常被用于网络广告的统计。

    点击率(Click Rate)

    定义:

    点击链接的百分比。

    度量方法:

    点击数除以链接所在页面的请求数。

    评论:

    收益(Yield)和点击率是同一术语。点击率有多方面的价值,在网络广告中,它是广告有效性的表现,它表示访问者已到达广告客户的网站,而且这些网站还可以提供其它信息。

    广告请求(Ad Request)

    定义:

    指访问者对页面中广告元素的请求。

    度量方法:

    广告请求的度量方法参考页面阅览的度量方法。


八、讨论(FAQ) 

    Q.

    统计的实现有没有其它方式?

    A.

    另一种方式就是在希望进行统计的页面上嵌入一段统计的代码,这段代码引用了另一服务器上的资源,这个资源通常是由一个CGI程序(或其它类似的程序)动态生成的,当访问者访问该页面时,将向此CGI程序(或其它类似的程序)所在的那一台服务器发出请求,这样该页面被访问的信息及访问者的信息就会同时被那个CGI程序所记录。这种方式易于做到实时的统计分析,统计信息较为丰富,而且不会增加Web服务器端的负荷。但是这种方式容易被欺骗,也容易由于带宽等原因而造成统计信息收集的失败。这种方式由于易被欺骗而存在着不安全的因素,也许在安全问题得以解决之后,它将成为更好的统计实现方式。从易用性,内容丰富的程度来看,对这种统计方式的探索是有价值的。

    Q.

    为什么用户会话的时间期间定为20分钟?

    A.

    我们参考了国际互联网络界关于用户会话时间期间的使用,发现主要使用的时间期间为30分钟和20分钟。这个时间期间将影响到用户会话数的度量,如果该时间期间更加接近于用户在网站上的平均停留时间,则用户会话数将更加接近于网站的用户访问人次数。CNNIC对国内部分网站的统计表明,用户在信息量大的网站上停留的时间更长一些。我们认为目前用户会话时间期间定为20分钟是合适的。我们会调整这个时间期间以适应国内互联网络的发展。

    Q.

    广告客户想知道他们的广告确切地被访问者看到的数目,而不是仅仅知道访问者曾发出过请求。用什么指标可以回答广告客户的问题?

    A.

    我们非常理解广告客户想知道他们广告实际被看到的数目的要求,但实际上是无法完全准确地度量出这样的数据的。如其它媒体一样,广告客户为潜在的阅览数量付费(如按印刷的数量)。我们所能获得的准确的数据只有访问者发出的请求。在此文档中我们建议统计于"请求"的层次而不是"递送"的层次,因为网站是否成功地将内容递送给用户是由多方面因素决定的,其中包括网络的状况和用户的行为偏好等,所以难以被精确统计。可以用广告请求这一指标来近似表明访问者看到的广告的数目。

    Q.

    我们的网站想了解访问者是从哪一个省、市、自治区来访的,可是似乎没有这方面的统计指标?

    A.

    尽管访问者的地理位置是一个很有价值的信息,但列出访问者是由哪个地理区域来访的是很困难的,仅仅由IP地址来判断以地域划分的访问者来源是不可靠的,而且目前也没有近似的指标来表明访问者的地理位置。

    Q.

    页面阅览和页面请求似乎是不同术语,为什么这份文档认为它们是同一术语呢?

    A.

    页面阅览一词侧重于测量访问者真实看到的页面,页面请求则侧重于由访问者发起的请求数量,即使最后可能访问者并未真正阅览到页面。认为它们是同一术语有两个原因,其一是曾经提到的我们建议统计于"请求"的层次而不是"递送"的层次,因此这两个词的度量方法是一致的,其二是我们希望此文档能够简化过于繁杂的术语,将术语的数量精减,并有统一的解释。但当提到服务器接收到的对HTML文档的请求时,仍可以使用页面请求一词。

    Q.

    我看到报纸上有报道说"某某网站首页访问量在两个月内达到70万人次",这是什么意思?

    A.

    这是不准确的说法,因为精确的访问人次在目前的技术水平下是无法被测量到的,将用户会话数解释为访问人次是错误的。如果网站的用户会话数为70万,则报道就应该说"某某网站用户会话数在两个月内达到70万"而不是"某某网站首页访问量在两个月内达到70万人次"。

    Q.

    这些术语的定义和度量方法实现在我们现有的系统上是否很困难?

    A.

    对于大多数网站来讲,这并不会是一个大问题。因为在起草这份文档时,我们参考了一些国内外现有的统计和度量网站访问量的服务和软件工具,事实上它们基本已经在使用这些术语和度量方法。但是网站访问量的统计和度量还是一个缺乏标准的领域,我们起草这份文档的初衷之一正是希望此领域能够变得有章可循。


九、其它术语 

    浏览器缓存(Browser Caching)

     定义:

    为了加速浏览,浏览器在用户磁盘上对最近请求过的文档进行存储,当访问者再次请求这个页面时,浏览器就可以从本地磁盘显示文档,这样就可以加速页面的阅览。但是,Web服务器可能因此而未计算一个页面或广告已被阅览的次数。

    代理服务器缓存(Proxy Caching)

     定义:

    由代理服务器对已下载的页面的存储。代理服务器是作为对互联网上频繁请求的文件的一个容器,这样一些访问者可以下载相同对象而使用更少的带宽。但是,Web服务器可能未计算一个页面或广告已被阅览的次数。
    评论:

    浏览器缓存和代理服务器缓存是网站访问统计最难解决的问题,但缓存的方式节约了网络的资源,提高了网络的效率。

    服务器(Server)   定义:

    向所有访问者提供服务的计算机,有时也指服务器程序。

    客户(Client)

    定义:

    指网络的用户所使用的计算机,有时也指被用于联系和从服务器程序获得数据的程序即客户程序,服务器程序通常在另一台计算机上。

    跟踪文件(Cookie)

    定义:

    永久性的客户端的HTTP跟踪文件(Cookie)是一些包含访问网站的访问者信息(例如用户名)的文件。这些信息由网站在访问者在第一次访问时提供。服务器将信息记录于一个文本文件中并且将文件存储在访问者的硬盘上。当访问者再次访问相同的网站时,服务器会获得这个跟踪文件(Cookie)中的内容,并且根据这些内容向访问者提供相应的内容,或识别访问者的身份。

    日志文件(Log File)

    定义:

    Web服务器或代理服务器创建的文件,包含服务器上访问活动的全部信息。

     页面(Pages)

    定义:

    所有网站是电子页面的集合。每个网页是一个包含文本,图像,或媒体对象的HTML(超文本标记语言)文档。一个页面可以静态或者动态地产生。

    醒目页面(Splash)

    定义:

    醒目页面是指在网站主页面之前的一个基本页面,通常突出网站的特点或作广告。醒目页面在经过短时间后可能移到主页面上来。

    空隙页面(Interstitial)

    定义:

    空隙页面是一个在访问者和网站间内容正常递送之中插入的页面。空隙页面被递送给访问者,但实际上并没有被访问者明确请求过。

    返回代码(Return Code)

    定义:

    服务器对浏览器请求返回的代码,表明传输是否成功以及原因。

    网站(Web Site、Site)

    定义:

    在互联网络上包含访问者可以通过浏览器查看的HTML文档的场所,网站宿主于服务器上。

    统一资源定位器(URL)

    定义:

    统一资源定位器是确定互联网络上一个精确位置的方法。如:http://www.cnnic.net.cn/cnnic/reg/domain/domainapp.html就是一个URL。正如前面例子所示,一个URL由四部分组成:协议类型(http://),机器名(www.cnnic.net.cn),目录路径(/cnnic/reg/domain/),以及文件名(domainapp.html)。

     万维网(World Wide Web、WWW、W3、The Web)

    定义:

    万维网是一个基于超文本的、分布式的计算机系统,万维网被发展用于向互联网络用户提供一种便利直观的访问信息的方法。

    广告(Ad)

    定义:

    网站上任何充当商业工具传送消息或吸引用户的内容。典型地采取图片的形式或文本消息,但是也可以是任何HTML文档元素,例如那些根据需要而运行的Java Applet或Shockwave程序。

    横幅广告(Banner)

    定义:

    在网页上通常链接到广告客户站点的广告图片。横幅广告是网上广告的主要的形式。标准的横幅广告尺寸有:1,468 x 60 像素 2,392 x 72 像素 3,234 x 60 像素4,120 x 240 像素 5,120 x 90 像素 6,120 x 60 像素 7,125 x 125 像素 8,88x 31 像素

    每千次页面阅览成本(CPM)

    定义:

    显示的广告印象1000次的费用总计。

    评论:

    这一量度是从印刷广告借用的。由于不是所有页面阅览最终都看到广告(例如翻滚一个页面)。每千次页面阅览成本常被解释为每千次广告阅览成本。M表示罗马数字的一千。这是一个正在形成的网站广告的标准定价模型。 

本文地址:http://com.8s8s.com/it/it15324.htm