在网站分析中我们如果获得网站的数据?
首先我们要了解和监控网站的访问情况,通常需要记录和统计网站流量的基础数据,但是随着网站在技术和运营上不断发展,人们对数据的要求越来越高,以求实现更加精细的运营来提升网站的质量,所以网站的数据获取方式也随着网站技术的进步和人们对网站数据需求的加深而不断的发展。
在网站分析中我们如果获得网站的数据?下面深圳市博纳网络信息技术有限公司(https://www.198bona.com)讲解常见的数据获取方法:
第一种方法:网站日志文件
记录网站日志文件的方式是最原始的数据获取方式,主要在服务端完成,在网站的应用服务器配置相应的写日志的功能能实现。
网站的应用服务器输出的日志所记录的其实是用户终端为了满足用户的访问需要,对服务器发起的所有的资源请求,这些资源请求不仅包含页面请求,页面展现的所有相关元素请求也会被记录,如图片、CSS、文件(Flash、视频、音乐等),另外一些iframe也会被当成请求记录。所以原始的日志文件记录了很多统计中用不到的内容,这些内容产生的筛选和过滤工作带来了巨大成本,同时导致了统计数据的不准确。日志文件的另外一个缺陷就是由于数据获取在服务端进行,很多用户在页面端的操作(如点击、Ajax的使用等)无法被记录,限制了一些指标的统计和计算。
第二种方法:web beacons
为了避免网站日志文件形式给应用服务器带来的额外压力,以及过量的日志记录导致数据筛选过滤的成本,于是就出现了WebBeacons的数据获取方式,貌似还没有正规的中文翻译,一般被称为打点。WebBeacons的实现方式是在需要统计的网站页面或者模块上嵌入一个1×1像素的透明图片,用户完全察觉不到,当用户访问该网页的同时会请求透明图片,并完成页面访问的记录工作,就像是在纸上画了一个不易看到的小点来标记那张纸。
WebBeacons的方式实现了日志记录服务器与网站应用服务器的分离,使用独立的日志记录和处理服务器避免了应用服务器的额外压力,而且可控的图片嵌入方式大幅度降低了日志记录数(对于一般的网站页面而言,当请求一个页面时,传统网站日志记录数是6到10条,也就是说,使用WebBeacons的方式记录的日志数量大约只有原始服务器日志的1/8,传统的流量统计工具如AWStats、Webalizer等用Hits这个指标来记录原始记录数,一般是正常页面浏览PV的6到10倍,对于某些复杂的站点甚至是20多倍),保证了数据统计的效率和准确性。
而WebBeacons的最大劣势就是获取信息的有限性,尤其是记录的来源页面(Referral)为图片所在的页面,而不是该页面的前一个页面,同时由于与网站应用服务器分离,用户cookie等信息的记录也有可能丢失。所以单纯使用WebBeacons的形式无法完全获取网站分析指标需要的信息,于是就出现了JS页面标记。
第三种方法:JS页面标记
JS页面标记同样是对WebBeacons的改进,弥补WebBeacons在信息获取上的不足。JS页面标记同样需要在页面端进行处理,只是嵌入的不再是图片,而是JS标记代码,当用户访问网页时同时出发并执行JS代码,JS代码会将一些统计需要的信息以URL参数的形式附带在图片请求地址的后面,然后再向日志服务器请求图片,这样日志服务器就可以获取比较完整的访问数据。
JS页面标记数据获取方式JS页面标记的方式具备了数据获取的灵活性和可控性,以及获取信息的完整性等优势,同时可以监控页面端的各种操作,如点击、Ajax等,唯一的缺点就是当用户禁用JS功能时,所有的信息将无法获取。