




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)站分析我們的數(shù)據(jù)準(zhǔn)確嗎?導(dǎo)言】在做網(wǎng)站分析的漫長(zhǎng)歷程中,被問到最多的問題就是“你的數(shù)據(jù)精確嗎?”網(wǎng)站分析的數(shù)據(jù)究竟準(zhǔn)確與否,如何看待網(wǎng)站分析數(shù)據(jù)可能存在的偏差,本文將會(huì)給出答案。 【正文】準(zhǔn)確和精確在漢語里面是近義詞,我們?cè)诳谡Z中是可以混用的,英語中也如此,accurate和precise人們也是隨性而用,脫口而出。可是,既然有兩個(gè)詞存在,而沒有在文字演化的長(zhǎng)河中消亡其中一個(gè),就說明它們還是有微妙的不同。事實(shí)上,準(zhǔn)確和精確絕對(duì)不是同一個(gè)概念,它們?cè)诠こ虒W(xué)、統(tǒng)計(jì)學(xué)以及其他許許多多的科學(xué)中都被嚴(yán)格的區(qū)分,對(duì)于網(wǎng)站分析這么新興的學(xué)科而言,也完全如此。我們先看看準(zhǔn)確和精確到底有什么不同,然
2、后再看看網(wǎng)站分析工具能夠做到準(zhǔn)確還是精確,或是二者皆備。何為準(zhǔn)確,何為精確維基百科上有關(guān)于準(zhǔn)確和精確的極佳的解釋,堪稱經(jīng)典詞條。這里我用漢語向它致敬:準(zhǔn)確是指現(xiàn)象或者測(cè)量值相對(duì)事實(shí)之間的離散程度小,也就是我們口語的“接近事實(shí)、符合事實(shí)”等;精確是指在條件不變的情況下,現(xiàn)象或者測(cè)量值能夠低離散程度的反復(fù)再現(xiàn),也就是我們口語說的“次次如此、回回一樣”等。如果我們把準(zhǔn)確和精確作為兩個(gè)不同的維度建立矩陣,可以得到下面的圖:圖1:準(zhǔn)確和精確矩陣(圖片來源:)左上象限是我們最喜歡的,既準(zhǔn)確,且精確對(duì)物理學(xué)和絕大多數(shù)理工科的要求就是如此;右下角是最糟糕的情況,不僅不精確,而且不準(zhǔn)確這是生活中最常見的,我們的
3、社會(huì)生活其實(shí)很離散也很混沌。那么,自然而然的你會(huì)問,網(wǎng)站分析屬于哪個(gè)象限呢?一定是左上角的象限對(duì)嗎?網(wǎng)站分析是準(zhǔn)確的嗎?首先,這個(gè)問題沒有固定的答案,因?yàn)榫W(wǎng)站分析的準(zhǔn)確度很大程度上取決于你的期望和所采用的監(jiān)測(cè)方法和所使用的工具。不過,就我們最常使用的網(wǎng)站分析方法而言,網(wǎng)站分析絕對(duì)不屬于圖3中左邊的兩個(gè)象限(即不屬于既準(zhǔn)確又精確的象限,也不屬于準(zhǔn)確但不精確的象限),更簡(jiǎn)單說,就是網(wǎng)站分析的數(shù)據(jù)不會(huì)準(zhǔn)確。這可能會(huì)讓你失望,但相信并不出乎你的意料。你肯定已經(jīng)發(fā)現(xiàn),如果我們使用不同的網(wǎng)站分析工具衡量同一個(gè)網(wǎng)站的時(shí)候,各工具的結(jié)果之間有令人費(fèi)解的差異,而且我們也無法知道哪個(gè)工具是更準(zhǔn)確的還原了事實(shí)上的數(shù)
4、據(jù)。所以,如果GA顯示你的網(wǎng)站在一個(gè)月內(nèi)有36,954個(gè)Unique Visitor,你的網(wǎng)站的真實(shí)訪問者(一個(gè)個(gè)活生生的網(wǎng)友!)肯定不是36,954個(gè)!事實(shí)上,我們幾乎找不出來任何一個(gè)能夠準(zhǔn)確被統(tǒng)計(jì)的度量,即使是最基本最簡(jiǎn)單的度量Page View也是如此!因此,如果你的老板想要100%沒有誤差地知道網(wǎng)站到底有多少個(gè)人訪問過,這個(gè)想要本身已經(jīng)沒有意義。為什么網(wǎng)站分析數(shù)據(jù)無法準(zhǔn)確你可能會(huì)吃驚,因?yàn)槲覀兊奈锢韺W(xué)實(shí)際上也是不可能100%準(zhǔn)確的,原因是我們都聽說過的“測(cè)不準(zhǔn)原理”。同樣,網(wǎng)站分析也因?yàn)橐粋€(gè)最基本的事實(shí)而無法準(zhǔn)確,即:網(wǎng)站分析的監(jiān)測(cè)媒介是瀏覽器和服務(wù)器,而不是真實(shí)的人,這注定了我們不可
5、能尋求到準(zhǔn)確的結(jié)果。具體而言,就目前我們通常使用的兩種監(jiān)測(cè)方法Server Log和Page Tag都不可能準(zhǔn)確對(duì)網(wǎng)站分析的一些最基本度量進(jìn)行計(jì)數(shù)。Server Log的誤差(Bias): · Unique Visitor的誤差: 如果用Server Log的方法監(jiān)測(cè)數(shù)據(jù),那么很顯然,獲取真實(shí)的訪問者數(shù)量是不可能的任務(wù)。本身Server Log對(duì)于訪問者的估算只能依據(jù)誤差巨大IP,而網(wǎng)絡(luò)爬蟲/機(jī)器人的訪問又使這種誤差進(jìn)一步擴(kuò)大。· Page View的誤差: 本來Server Log是可以很準(zhǔn)確的記錄Page View的,但是可惜Cache的出現(xiàn)讓這成為歷史。Cache極有
6、可能會(huì)屏蔽服務(wù)器端的響應(yīng),這樣Server Log可能不會(huì)留下任何關(guān)于某次Page View記錄。· 時(shí)間記錄的誤差: 在沒有Cache干擾的情況下,服務(wù)器能準(zhǔn)確探知訪問開始的時(shí)間,但是訪問結(jié)束的時(shí)間無法了解。因?yàn)樵L問結(jié)束往往是隨關(guān)閉瀏覽器而一同結(jié)束的。關(guān)閉瀏覽器本身不能激發(fā)一條新的Server Log記錄。· Flash站點(diǎn)誤差: 如果一個(gè)網(wǎng)站主要構(gòu)成部分是包含多個(gè)頁面的一個(gè)Flash文件,或多個(gè)此類Flash文件的組合,那么Server Log不會(huì)記錄Flash內(nèi)部的操作,監(jiān)測(cè)會(huì)幾乎失效。Page Tag的誤差:· Page Tag失效: Page Tag失效
7、是會(huì)發(fā)生的。首先,一部分瀏覽器(例如手機(jī)上的一些瀏覽器)不支持JavaScript或者被設(shè)置為JavaScript禁止。其次,Page Tag可能會(huì)因?yàn)樗暗腏avaScript出錯(cuò)而無法運(yùn)行。再次,我們也看到過因?yàn)樽兞棵麤_突而發(fā)生Page Tag和頁面上其他JavaScript沖突而無法運(yùn)行的案例。最后,受網(wǎng)絡(luò)速度的影響,頁面上的Page Tag沒有完全下載,瀏覽器就可能被人為關(guān)閉或者直接鏈向一個(gè)新的頁面。顯然,如果Page Tag失效,那么網(wǎng)站分析工具就會(huì)失去部分或者全部數(shù)據(jù)。· Page Tag的位置: Page Tag在頁面中的位置會(huì)影響網(wǎng)站分析工具的計(jì)數(shù)。如果Page T
8、ag在頁面的上端,那么它會(huì)更快的被執(zhí)行,受到其他因素(例如Page Tag之前其他JavaScript失效或者網(wǎng)速問題)干擾的情況就越小,計(jì)數(shù)也就會(huì)因此增大。Stone Temple Consulting的統(tǒng)計(jì)表明,代碼在上的情況下,Visitor計(jì)數(shù)比在頁面下的多4.3%。· Unique Visitor的誤差: 一個(gè)計(jì)算機(jī)可能被多人使用;一個(gè)計(jì)算機(jī)可能有多個(gè)瀏覽器(造成訪問同一個(gè)網(wǎng)站有多個(gè)Cookie);人們會(huì)刪除Cookie(2007年comScore的統(tǒng)計(jì)表明,一個(gè)月內(nèi)有30%的美國(guó)用戶會(huì)刪除瀏覽器的Cookie);Cookie被禁用(盡管WA工具一般都使用第一方Cookie
9、,但仍有約10%不到的第一方Cookie會(huì)被用戶設(shè)為禁止)。· Page View的誤差:主要由Page Tag失效引起。 · 時(shí)間記錄的誤差:同Server Log一樣,Page Tag能夠準(zhǔn)確記錄訪問開始的時(shí)間,但是結(jié)束時(shí)間無法了解,因?yàn)橐话闱闆r下訪問的結(jié)束并不會(huì)觸發(fā)Page Tag的執(zhí)行。 由于諸如Page View,訪問者和訪問時(shí)間之類的基本的度量實(shí)際上是無法準(zhǔn)確記錄的,因此其他一些更高級(jí)的度量,例如我們常用的復(fù)合度量(Bounce Rate,Avg. Time on Site)就更不可能準(zhǔn)確了。不過,知道了這些誤差產(chǎn)生的原因,有助于我們進(jìn)一步修正誤差。有些監(jiān)測(cè)工具
10、(例如DoubleClick,一個(gè)廣告監(jiān)測(cè)工具)具有自修正功能,就是利用了這個(gè)原理。其他監(jiān)測(cè)方法的誤差:網(wǎng)站分析的其他獲取數(shù)據(jù)的方式比如通過客戶端的軟件搜集數(shù)據(jù)(Alexa,iResearch等),以及Sniffer(包嗅探)則因其本身的監(jiān)測(cè)方式所限,會(huì)有更大的誤差。例如,通過客戶端來搜集數(shù)據(jù),很顯然存在樣本量的偏差;而Sniffer本質(zhì)上是Server Log方式的翻版,但卻增加了包丟失以及數(shù)據(jù)記錄有限的問題。它們不可能比我們前面的兩種方法更準(zhǔn)確。網(wǎng)站分析工具精確嗎?現(xiàn)在,你知道了網(wǎng)站分析工具并不能準(zhǔn)確計(jì)數(shù)。那么,網(wǎng)站分析工具精確嗎?我要說,精確是網(wǎng)站分析工具的必備特征,網(wǎng)站分析工具做不到準(zhǔn)
11、確,但必須精確。如果某個(gè)網(wǎng)站分析工具不精確,那么它就與垃圾無異。網(wǎng)站分析工具必須精確的原因很簡(jiǎn)單,因?yàn)槲覀冃枰獢?shù)據(jù)具有高度的一致性。如圖4(下圖)所示,如果網(wǎng)站分析工具的精確度存在-20%到+20%的誤差,那么假設(shè)11月4日的網(wǎng)站準(zhǔn)確流量是50個(gè)UV,網(wǎng)站分析工具所報(bào)告的數(shù)值可能是40和60之間的任何一個(gè)數(shù)。同樣,我們假設(shè)次日(11月5日)的網(wǎng)站準(zhǔn)確流量是51個(gè)UV,那么網(wǎng)站分析工具所報(bào)告的數(shù)值可能是41到61之間的任何數(shù)。那么,因?yàn)榇嬖诓痪_,那么11月4日的數(shù)據(jù)有可能最終呈現(xiàn)40,而11月5日的數(shù)據(jù)則完全可能被最終呈現(xiàn)為61,這樣網(wǎng)站分析工具會(huì)誤報(bào)出一個(gè)令人滿意的增長(zhǎng)但事實(shí)上這個(gè)增長(zhǎng)并不存
12、在。反過來,如果11月4日的數(shù)據(jù)被報(bào)為60,而次日被報(bào)為41,那么更糟糕,這與實(shí)際情況是完全相反的。圖4:如果網(wǎng)站分析工具不精確會(huì)產(chǎn)生嚴(yán)重后果因此網(wǎng)站分析工具必須精確,如果它與事實(shí)有-20%的誤差,那么不論是哪一天哪一刻,它都必須比準(zhǔn)確值小20%。否則我們就會(huì)得到錯(cuò)誤的結(jié)論。當(dāng)然,100%的精確也是不存在的,一般而言,允許+/-5%左右的系統(tǒng)偏差,這一來一去其實(shí)已經(jīng)有最大10%的分離度,實(shí)際上已經(jīng)是非常寬的標(biāo)準(zhǔn)了。網(wǎng)站分析工具不能做到100%精確的原因其實(shí)也是受跟上一節(jié)的那些因素一樣的影響,另外還有一些網(wǎng)站訪問者所處環(huán)境的變化造成的未知異常,例如網(wǎng)絡(luò)帶寬的變化或是數(shù)據(jù)傳輸過程中的異常丟失等。那
13、么,我們實(shí)際使用的網(wǎng)站分析工具精確度如何?如果5顆星是滿分最精確的話,那么:Google Analytics,精確度3顆半星,可以及格。但是我們的朋友Ben(曾海銀)和我都發(fā)現(xiàn)Google Analytics并不完全精確,這可能與數(shù)據(jù)的再處理有關(guān)系。Ben的案例中出現(xiàn)了+/-20%的情況,但極為罕見。其他的朋友有發(fā)現(xiàn)嗎?Omniture,精確度4顆星,較好。當(dāng)然,我沒有辦法去驗(yàn)證,只是因?yàn)樗麄兗业臄?shù)據(jù)比較少給我惹麻煩,也比較少有無法解釋的時(shí)候。但是Omniture的問題在于,定義的度量太多,且相同度量的定義在不同場(chǎng)合給出的數(shù)值有微小差異(盡管沒有實(shí)質(zhì)影響)實(shí)在是一個(gè)太龐大的數(shù)據(jù)系統(tǒng)了。WebT
14、rends,4顆星。評(píng)分較高的原因在于WebTrends是實(shí)施在網(wǎng)站服務(wù)器端,或者是被網(wǎng)站所有者所擁有的,所以被外界環(huán)境干擾的情況相對(duì)較少。如何面對(duì)網(wǎng)站分析工具的不準(zhǔn)確但精確的特性?網(wǎng)站分析工具不準(zhǔn)確但精確的特性不妨礙我們獲得真正的insight(見解)。我們需要遵循三個(gè)網(wǎng)站分析的基本原則(簡(jiǎn)直是我壓箱子底的寶貝了):原則一:趨勢(shì)??蹿厔?shì)而不是看孤立數(shù)據(jù)是網(wǎng)站分析最重要的原則。你不可能因?yàn)榫W(wǎng)站今天的流量是500個(gè)而狂喜,但是如果上個(gè)月的平均流量是300,而這個(gè)月的平均流量是500,那么我會(huì)恭喜你,你也值得高興一番。我們?cè)谝郧暗奈恼轮袑?duì)這個(gè)有討論哦。由于網(wǎng)站分析工具是精確的,因此雖然不能準(zhǔn)確反映數(shù)據(jù),卻能夠準(zhǔn)確反映趨勢(shì)。這也是我們所有的網(wǎng)站分析師會(huì)認(rèn)為趨勢(shì)是最重要的方法論的原因。原則二:細(xì)分。因?yàn)榫W(wǎng)站分析工具的精確性,如果整體值比實(shí)際準(zhǔn)確值偏小20%的話,那么構(gòu)成整體的各部分也會(huì)同比比各自的準(zhǔn)確值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 熱能與動(dòng)力工程實(shí)習(xí)報(bào)告4
- 農(nóng)業(yè)種植行業(yè)農(nóng)產(chǎn)品銷售合作協(xié)議
- 商業(yè)活動(dòng)場(chǎng)地租賃使用合同協(xié)議
- 物流運(yùn)輸服務(wù)合同及質(zhì)量保障協(xié)議
- 藝術(shù)創(chuàng)作項(xiàng)目版權(quán)轉(zhuǎn)讓協(xié)議
- 中文產(chǎn)品銷售協(xié)議
- 農(nóng)業(yè)品種改良與技術(shù)服務(wù)協(xié)議
- 勞務(wù)派遣勞動(dòng)協(xié)議書
- 2025至2030建筑玻璃行業(yè)市場(chǎng)發(fā)展分析與發(fā)展前景及有效策略與實(shí)施路徑評(píng)估報(bào)告
- 《物理實(shí)驗(yàn):光的干涉現(xiàn)象實(shí)驗(yàn)教程》
- (完整版)西門子PLC教程從入門到精通
- 小紅書種草營(yíng)銷師模擬題及答案(單選+多選+判斷)
- 運(yùn)維或技術(shù)支持崗位招聘筆試題與參考答案(某大型央企)2024年
- 004.多參數(shù)監(jiān)護(hù)儀臨床警報(bào)管理實(shí)踐指南2020版
- 汕頭市防汛防旱防風(fēng)防凍應(yīng)急預(yù)案
- 2023年高考遼寧卷化學(xué)真題(解析版)
- (修訂版)糧油質(zhì)量檢驗(yàn)員理論考試復(fù)習(xí)題庫(kù)-上(單選題)
- 2024版商戶入駐合同
- 和公司直播合作協(xié)議書范本
- 兒科護(hù)理學(xué)高職全套教學(xué)課件
- 2024年糧食購(gòu)銷合同電子版(2篇)
評(píng)論
0/150
提交評(píng)論