网站日志和js标记所获取的数据具备那些信息、记录的方式有何不同?
大家都知道js页面标记方式因为其使用灵活性,可获取数据的丰富度和统计得到指标的相对准确性已经成为目前最为常用的一种数据获取方式,下面深圳市博纳网络信息技术有限公司(https://www.198bona.com)讲解网站的日志文件和js标记所获取的数据具备那些信息、记录的方式有何不同?
其实无论是那种数据获取方式,最终的输出形式都是网站日志,只是原始日志输出的是既定的记录,而js页面标记输出的是执行过js代码经过处理的图片日志请求记录,而网站分析之后的指标统计和计算基本都来源于这些日志中记录的信息,所以网站的日志记录是网站分析的最原始数据(RawData)。Apache日志的标准格式。
从上图可以看出一些统计中常用的信息字段,主要包括以下几个信息:
访问终端IP地址
即用户访问网站时所用设备的IP地址,这里用了“访问终端”,因为移动设备的兴起使网站访问不再局限于PC,手机、平板电脑等设备同样可以浏览网站,同样也有相应的IP地址。IP地址信息对于指标统计非常重要,在最初的时候IP地址被当成识别访问用户的标志,即使当前还有很多网站把访问IP数作为一个重要指标来衡量网站的热门程度;同时,使用IP地址可以识别访问终端所处的地域,用于地域省份的维度细分。但由于代理、VPN的使用和伪IP的存在,使得IP的统计存在误差。
访问时间戳
访问时间戳记录了用户访问的时间点(其实是资源被请求的时间点,几乎可以认为是同时发起),是统计中必不可少的信息。主要包括日期、时间、时区等信息,可以精确到毫秒级别:
时间戳记录了动作的时间点,是所有统计中时间维度的基础,有了时间戳我们可以判断用户页面浏览的先后顺序,也可以根据时间做基于小时或天等粒度的统计汇总。
访问地址路径
日志里面记录的访问地址一般是相对路径,也就是不包含HTTP+域名信息,由于服务器自身知道指向哪个域名,所以只要有相对路径就能准确获取请求的资源,比如图2-4中用户的完整访问的URL应该是:http://webdataanalysis.net/reference-and-source/weblog-format/,其中http://webdataanalysis.net被省略。所以访问地址路径其实定位了访问的具体对象,网站的页面和内容信息就是通过访问地址来确定的,因为URL唯一地标识了网站的所有资源。
在JS标记的日志中,访问的资源路径是最关键也是信息含量最高的一个字段,所有由JS代码产生的附带信息都会以参数的形式附带在图片URL请求的后面,如pic.gif?a=&b=&c=…通过之后的URL解析可以得到相应参数a、b、c……的值,进而获取统计需要的信息。
访问来源访
问来源对于网站分析而言同样是非常重要的一个信息,它直接关系流量的来源判定和优化,如果是JS标记,来源页信息一般会以参数形式带到URL中,但网站原始日志中就会记录相应页面访问的Referral信息。
浏览的访问来源就是Google搜索关键词“webdataanalysis”后的结果页。通过这个信息可以进一步区分来源的类型(Source),是搜索引擎如Google、Baidu,还是外链网站,或者是直接访问(Direct),当用户直接访问或者由于某些特殊原因Referral丢失时,日志中该字段会显示“-”。
UserAgent
UA中附带了用户终端的一些信息,包括操作系统OS、浏览器Browser的信息,有些“访问者”为了表明自己的身份也可以将一些身份信息写入UA中,如正规搜索引擎的爬虫,所以UA信息用户可以自己定制,如果你详细看过浏览器的设置选项,那么就会发现一般都有设置UA信息的地方。
UA被用于识别用户的身份,统计用户所使用终端设备的产品和版本信息,但由于UA可以自定义,统计的信息也可能因此存在偏差。