比较不同服务提供商的数据

正如前面所示，实际上不能将一种收集数据的方法与另一种方法进行比较。这种比较简直是无效。但是，假定是两种可比较的数据收集方法——都是页面标签——能否获得一致性？不幸的是，即使比较比较两个使用页面标签的服务提供商的数据也有困难。

下面几段内容描述了导致不同服务提供商之间数据差异的因素。

第一方cookiesVS第三方cookies

这两者之间几乎没有相关，因为，用户、防火墙和反间谍软件对第三方cookies禁用率较高。例如，如果一个网站没有精简隐私原则，那么最新版本的微软IE将自动阻止第三方cookies。（看一下www.w3.org/P3P）。

页面标签：位置的思考

页面标签服务提供商通常推荐将页面标签刚好放置在HTML页面</body>标签的前面，以确保页面因素，比如文本、图像先加载。这意味着来自服务提供商服务器的延迟不会影响页面加载。这里可能的问题是回访者，他们对网站导航更熟悉，能够很快的导航，在页面标签加载完成开始收集数据之前，已经点击了其他页面。很明显，延迟的时间越长，则差异越大。

TagMan.com在2009年研究了标签的位置。他们关于延迟效应的研究反映增加一秒的加载时间，将丢失大约10%的报告流量。另外，将Google Analytics的页面标签从页面的顶部移到顶部增加报告流量的20%。

Stone Temple Consulting在2007年进行了类似的研究（www.stonetemple.com/articles/analytics-report-august-2007-part2.shtml）。结果表明，设置在页面顶部与页面底部的页面标签的独立访问者的计算有4.3%的差异。这被归因为执行页面标签有1.4秒的差异。

另外，放置在页面顶部的JavaScript能影响放置在后面的JavaScript页面标签。大多数服务提供商的页面标签都能独立于其他JavaScript而工作，并且能与其他服务提供商的页面标签并行不悖——就像Stone Temple Consulting的报告中一样，页面放置了五个不同的服务提供商的标签。但是，在同一页上JavaScript的错误将引起浏览器脚本引擎停止，并阻止下面的JavaScript运行，包括页面标签。

你标记了所有的东西吗？

许多分析工具需要进行修改，以跟踪链接到文件比如PDFs、word文档、可执行文件下载或到其他网站的外链。修改到文件的链接将是一个手动过程。修改代表点击时的一个事件或动作，有时这被视为一个虚拟的页面浏览。比较不同服务提供商，需要在他们的特定代码中完成这个行为几次（通常是JavaScript）。考虑到无论什么时候在页面上设置标记，都有可能发生语法错误。如果经常更新，需要定期检查页面标签的有效性。

页面浏览：访问或访问者？

页面浏览可以方便快捷的跟踪；因为，它们只需要从页面到跟踪服务器的一次请求，在服务提供商之间是相似。问题是区别一次访问和一个访问者，因为，每一个服务提供商使用的算法不同，没有单一的算法提供同一个值。

Cookies：超时

允许的超时时间——访问者在页面上不活动的时间多长——在不同的服务提供商之间是不同的。大多数页面标签服务提供商使用延迟30分钟的访问者会话cookies。这意味着在连续浏览同一页面30分钟没有活动，就会被视为新的回访。但是，一些服务提供商提供了修改这一设置的选项。这样做将调整数据，因此，影响对所报道访问者的分析。其他cookies，诸如，存储推介源细节的cookies，有不同的超时量。例如，Google Analytics推介源的cookies将存储6个月。这些不同网站分析服务提供商之间超时设定上的差异，将显著影响他们报告的访问者数量。

页面标签代码劫持

根据你的服务提供商，你的页面标签编码可能被劫持、复制或在其他不相关的网站上执行。这种污染导致了你的报告中错误的页面浏览量。通过使用过滤器，你能确保报告仅是来自你的域的数据。

数据采样

这是从你的网站流量选择一个子集的过程。取样在统计分析中被广泛应用，是因为分析一个数据的子集与分析全部数据能得到一个很相近的结果，然而，在处理大量信息时，有显著的速度优势。不同的服务提供商可能使用不同的取样技术和原则，可能会导致数据偏差。Google Analytics的数据采样技术思考在第五章“报告解释”的“理解数据采样”中讨论。

PDF文件：特别考虑

对页面标签法来说，不是报告PDF下载完成，而事实上报告的是访问者点击PDF文件的下载链接。这是有重要的区别的，因为，我们无法知道访问者是否完成下载——比如，一个50页的PDF文件——的信息。因此，点击PDF链接只被报告为一次单独的事件或页面浏览。

注：这种情况对日志文件是不同的。当在浏览器中浏览PDF文件时，Adobe Reader每次下载一页，而不是全部。这与写入日志文件时有小小的不同，标注一个HTTP状态代码206（部分文件下载）。日志文件法能将每个写入的206状态代码视为个体的页面浏览。当所有PDF文件的下载完成后，会在日志文件中登录一个最终HTTP状态200标签（下载完成）。因此，日志文件法能将完整的50页的PDF文件报告为一个下载和50个页面浏览。

电子商务：负交易

所有的电子商务企业都得在某些时候处理退货，要么因为货物的损坏或出现问题，要么是订单错误或其他的原因。人们通常在网站分析报告中忘记计算这些退货。对一些服务提供商来说，这需要手动添加一些等价的负购买交易。另外一些需要重新处理电子商务数据文件。无论使用哪种方法，网站访问者与内部系统的数据调整都不是天衣无缝的。例如，交易的取消或赊欠通常发生在原始购买之后很久，因此，在不同的报告阶段。

过滤器和设置：潜在的障碍

当在一个服务提供商的方法设置过滤器而另一个没有设置过滤器时，数据将有差异。一些工具不能设置与其他工具完全相同的过滤器，要么以一种不同的方式应用过滤器，要么在数据处理过程中的不同时期使用过滤器。

设想一下，例如，一个页面水平的过滤器从你的报告中排除了所有的错误页。访问指标比如停留时间、页面深度等等，是不是也调整则取决于服务提供商。这是因为，一些服务提供商分别处理页面水平的指标与访问者水平的指标。

时间差异

对于某一次访问者会话涉及的网站或网页停留时间的计算，包括如何计算最后一页的时间，对任何服务提供商来说都是一个难题。例如，在页面A上停留的时间是通过访问者页面A的时间戳与接下来的页面B时间戳求差计算出来的，等等。但是，如果没有页面C；如果没有下一个时间戳，如何计算页面B的停留时间？

不同的服务提供商用不同的方法解决这一问题。一些在计算中忽略最后的页面浏览；其他的服务提供商使用onunload事件来为访问者关闭浏览器或去其他网站时添加一个时间戳。两种都是无效的方法，尽管并不是每一个服务提供商都是用onunload法。一些服务提供商更喜欢忽略最后一页的原因在于，这被认为是最不准确的时间点观点——可能访问者被一些其他的事打断或者继续去做其他事而将其浏览器保持在当前的状态：许多用户都这样干；即，他们浏览完了以后，仅是将浏览器打开在最后一页，就接着运行了另一个应用程序。这样的少量页面流量将极大的歪曲网站和页面的停留时间计算；因此，大多数服务提供商避免这一问题。

注：Google Analytics在计算网站或页面停留时间时，忽略一次访问者会话中的最后的页面浏览。

处理频率

Google Analytics每个小时完成它的数据处理，并产生报告就是解释处理频率的最好例子。但是，因为，从世界各地的数据收集服务器核对所有的日志文件需要时间，因此，报告将延迟3到4小时。在大多数情况下，这一个过程是流畅的，但是有些时候会失败。例如，如果日志文件的传输中断了，那么将只有部分日志文件得到处理。因为这一缘故，Google在每天结束后，会收集并重新处理24小时的数据。其他服务提供商也会如此，因此，不必关注在当天出现的不一致。

注：这也是为什么当你从报告中注意到“缺失数据”时不用恐慌的原因，例如，在上午10点到11点没有数据。这些数据将在每天结束时发生的数据再加工中获得。如果，你等了24小时后，数据仍然缺失，那你应在http://www.google.com/support/googleanalytics/bin/request.py联系Google Analytics的支持团队。

目标转化VS页面浏览：确立一致性

使用图2.4作为例子，假设5页是你定义的渠道的一部分（点击流路径），其中最后一步（第5步）是目标转化（购买）。在付款页，一个访问者返回上一页检查邮费（步骤A），然后接着完成支付。这名访问者对整个过程的便利很满意，接着，她使用完全相同的路径在同一次访问者会话中购买了第二件商品（步骤B）。

根据你所使用的服务提供商，这一过程将被以不同的方式计数，如下：

·12次渠道页浏览、两次转化、两笔交易

·10次渠道页浏览（忽略步骤A）、两次转化、两笔交易

·五次渠道页浏览、两次转化、两笔交易

·五次渠道页浏览、一次转化（忽略步骤B），两笔交易

图2.4 一个访问者访问网站、进入了五页的渠道，并完成了两次交易

大多数服务提供商，但不是全部，在报告中使用最后一种方法。即，访问者变成了购买者（一次转化）。这在一次会话中只能发生一次，因此，额外的转化（假设同一个目标）被忽略。为了使这样有效，渠道页也必须使用相同的方法。以这种方式，数据变得更加以访问者为中心。

注：在图2.4的例子中，页面浏览的总量等于12，将包含在所有综合浏览量的报告中。只是渠道和目标转化报告将不同。