說實話,數(shù)據(jù)分析是人人都會的,只是沒有把它提升到是一個分析的過程,在每個人的腦子里都有不同的思考的方式。所以今天講“數(shù)據(jù)分析的魅力和坑”可能只是在各位原有的一些思維層面上,有一些不太注意的地方會變成坑,然后導(dǎo)致一些不太好的結(jié)果。今天主要把我遇到的坑和大家分享,以后在遇到同樣的情況下,也可以避開那些坑的情況。我們先思考一個簡單的邏輯題,讓我們的思維更快速一點。
珠寶店被盜,警察問了4名嫌疑人,甲說“不是我做的”,乙說“是丁做的”,丙說“丁沒有偷”,丁說“肯定是乙偷的,”4個人里一個人說一句話,誰偷的?
“甲偷的”。為什么是甲偷的?因為這里面有兩個人說話是矛盾的,一個是“丁偷的,”一個是“丁沒有偷”,兩個里面肯定有一個是真的,因為只有一個人說真話,其他兩個都是假話,所以甲說“不是我做的,”那就是他做的,就是這樣。因為四個人里只有一個人說了真話,有兩個人說了相反的一句話,那么其中有一個人肯定是真,有一個人肯定是假的。我不問這兩個人誰說的真,誰說的假,另外兩個人說的肯定是假,所以是甲做的。這就是邏輯上的關(guān)于矛盾的點,一定要關(guān)注。其實數(shù)據(jù)分析也是這樣,當(dāng)你看數(shù)的時候,首先看到的有矛盾的數(shù)。應(yīng)該是甲大乙就大,但是現(xiàn)在甲大,乙小了,這兩個之間出現(xiàn)了矛盾,就要去關(guān)注它。
下面,我們接著來說數(shù)據(jù)分析到底能做些什么。
第一、數(shù)據(jù)分析來源于生活,每個人在生活中都在解決數(shù)據(jù)分析的問題。
第二、數(shù)據(jù)在很多地方呈現(xiàn)的時候都會誤導(dǎo)你,誤導(dǎo)你的時候是基于什么?你自己如果有一定的準(zhǔn)備你就會知道。
第三、職場發(fā)展的需要。
一、數(shù)據(jù)分析的作用——解決生活問題
大家先思考兩個問題(如圖一)。這兩個問題相當(dāng)經(jīng)典,也是在數(shù)字思考中會出現(xiàn)的問題。只是說遇到的事不一樣,但是思維方式是一樣的。關(guān)于這兩個問題,當(dāng)時我們老師在學(xué)校里上課的時候給了我們五分鐘的時間思考,當(dāng)時最快完全答對只有學(xué)財務(wù)的同學(xué)。
(圖一)
第一道題目,27元是三個人出的,服務(wù)員是他進(jìn)的(賬),所以這是兩個東西。進(jìn)(賬)的還有誰?老板。所以出的是27元三個人,進(jìn)賬的是老板的25以及服務(wù)員2塊,所以沒有那個1塊錢。
第二道題目,出的是他的50塊,為什么只有50塊?因為這50塊是為了完成這一單交易,所以他所有的出就是這個50塊。但是他有入的,就是這一筆生意所賺的利潤,這個利潤是4塊,所以就是46,因為他打了八折。
當(dāng)時我們很受啟發(fā)的原因在于,可能我們把很多東西都想得復(fù)雜。但是分析的過程應(yīng)該是把復(fù)雜的東西簡單化,盡可能地用一到兩個概念來解決它。所以我們說通過這些生活中的故事或者說發(fā)生這些大家經(jīng)常討論的東西,我們會得到三個點:
第一,聚焦在矛盾的地方上。如果兩個數(shù)值,比如說注冊到充值、充值到首投是一個流程性的過程,常態(tài)來說應(yīng)該是漏斗流失這樣的過程,如果中間出現(xiàn)了反向的,比如注冊量少,充值量大,它就是出現(xiàn)了矛盾,那么就要去關(guān)注引起這個矛盾的原因。
第二,避免偷換概念。剛才說的那個一塊錢去哪了?那個一塊錢根本不存在,你去哪找那一塊錢?其實概念已經(jīng)被偷換了。
第三,要把復(fù)雜的過程想得簡單一點。財務(wù)的同學(xué)當(dāng)時就是考慮兩個維度,一個是出,一個是入,所以他很快就能得出結(jié)果。而我們就會在過程中一而再再而三地反復(fù)地算,然后得不出正確的答案。
這就是我舉的例子想要跟大家分享的點了。數(shù)據(jù)分析除了要思考,你可能還要得出結(jié)論,如何得出結(jié)論?剛才講的是比較零散的點,我們現(xiàn)在用一個我們生活中實際發(fā)生的案例來跟大家過一下一般是怎么樣的思維過程來形成完整的報告或者結(jié)論。
這道題目就叫“大姨媽與小表弟”。什么意思?過年的時候我回家,我大姨媽跑過來跟我媽聊天說我小表弟快要中考了,然后這次期末考得不太好。大概是這樣的情況,她也很擔(dān)心,說不知道要是考不起好的中學(xué)該怎么辦。因為我在房間里,我也沒聽太清楚,但是我出來的時候就接了一個工作,就是我媽給我的。我媽說“快安慰安慰你大姨媽,幫幫你小表弟”。
對于我們來說,就等于是接了一個任務(wù)目標(biāo)了,這個任務(wù)目標(biāo)就是這兩句話。這其實是兩件事情,在場的同學(xué)會從哪些角度去考慮?當(dāng)然你可以問問題,因為你大姨媽就坐那兒,你可以問她。她的目的也很清晰,她擔(dān)心的是小表弟能不能考上好高中。接著就是你媽說讓你安慰一下她、幫一下你的表弟。大家遇到那種情況,一般會問些什么或者說會從哪些角度來考慮這件事情?在這里,我給大家說一下我的思考方式。
首先,從趨勢上進(jìn)行分析。剛才也有同學(xué)談到,包括環(huán)境、行業(yè)、競爭對手,就是說小表弟本身的學(xué)校排名是什么樣的情況。如果他本身是在重點初中里的排名已經(jīng)很高,你安慰大姨媽肯定首先就是說“這基本上上好一點的高中的問題不大,只是說我們要去哪一個”。好與更好,而不是說好與能不能上,這是兩個概念。
另外,班級最近的氛圍怎么樣?是不是因為環(huán)境造成了小表弟這次考試可能沒考好?另外就是小表弟近期的情況,是不是身體原因或者怎么樣。
這些其實都是外圍的情況,看完外圍的情況就會多維分解一下小表弟自己的考試。比如說他的分?jǐn)?shù)怎么樣、有沒有偏科、試卷結(jié)構(gòu)怎么樣、怎么樣制訂目標(biāo)。比如說他有一科很強(qiáng),其他的很弱,很弱是因為什么?比如說如果是語文很差,語文是哪一塊差?
你這些可以輔助來判斷。從安慰大姨媽到幫小表弟的過程應(yīng)該是更深度地聚焦在到底該怎么樣幫的點上,所以要更加往下細(xì)分。比如說語文卷面是閱讀不好,閱讀該怎么辦?那就得往下分。
至于用戶細(xì)分的考慮這一塊其實只是一種運(yùn)用,可能不是特別恰當(dāng),但是只是說有這種思維,你會去分析一下。比如說你剛才已經(jīng)分析出假如小表弟是語文不太好,那么他們班上語文學(xué)習(xí)好的這些同學(xué)是有哪些特征或者他們是怎么樣去學(xué)語文的。比如說大家都背詩詞或者都在看一些報刊,甚至是不是有老師開小課?這些情況你有沒有了解清楚或者說家長知不知道?這些都需要去了解。
另外,除了本來就學(xué)得好的,還有那種排名上升特別快的同學(xué),這些同學(xué)是用了什么方法在這么短的時間內(nèi)有提升?這個方法是不是小表弟也可以學(xué)?這個也可以觀察。再下面,關(guān)于漏斗流失以及如何分析,按道理來說應(yīng)該是一個路徑,這里不應(yīng)該這樣講。但是實際上可以把思路變化一下,而不是這樣的豎向的固定流失,而有可能是橫向的結(jié)構(gòu)問題。我們就可以分析他試卷的以往錯誤率,是因為這次沒考好考砸的,還是你本來這一科就一直不好?這也是需要去了解的。另外就是你錯誤的板塊,到底是因為什么原因?是這次的原因還是歷史的原因?這是需要提前了解的。
最后,要快速嘗試一下。比如說有些同學(xué)排名上升很快的學(xué)習(xí)方法適不適用?你總要去試一下。
不僅僅是這些維度,還可能有更多的維度。當(dāng)然因為數(shù)據(jù)分析是一種思維,思維是沒辦法拘禁的。無論你經(jīng)過多少的思考,最后會有一個結(jié)論。這個結(jié)論一般會是什么樣的結(jié)構(gòu)?你已經(jīng)問了大姨媽這么多問題,最后怎么樣整體來回答她?
我們的目標(biāo)一個是安慰,一個是幫小表弟。我們最終得出的是這樣的結(jié)論。
首先安慰大姨媽。“大姨媽,你不要著急。從學(xué)校和班級的排名來看,小表弟怎么樣”,因為首先要對這次小表弟的排名情況或者說考試情況作一個整體的判斷,看看這個程度到底去到什么程度,是真的慘不忍睹還是還有得救?你總得給大家一個心理準(zhǔn)備,是真的考不起要去花錢找關(guān)系,還是說補(bǔ)一補(bǔ)花點錢也能夠讓他自己努力得了,或者說其實也不要太在意,這次就只是一次小失誤。你首先要對大的這次的情況作一個判斷。老師對他怎么樣是定性?他本身是個什么樣的狀況?接著就說這次沒考好主要是因為什么,這是剛才我們說的哪一個東西影響到他。也就是說我們這次考試除了判斷他的事態(tài)和程度,還要找到他這次情況的現(xiàn)狀,并且分析是因為什么原因?qū)е碌摹H缓?ldquo;小表弟在這個考點上一直怎么樣,從以前的考試情況來看怎么樣”,其實是對歷史作一個總結(jié)。是一直就不怎么樣還是說以前的考試還可以,這次不怎么樣,要對歷史作一個總結(jié)。接著就說“他班上的誰在這塊學(xué)得挺好的,主要是因為怎么樣,”那你就要看一下競品在這一塊上到底是怎么做的、有沒有借鑒意義?最后就說“我們可以怎么樣,下一次考試的目標(biāo)就是怎么樣”,你要對整體作一個建議,以及對目標(biāo)進(jìn)行管理。你也不能讓大姨媽的期望值太高,要管理期望,不能直接說“高中沒問題,考個一中二中什么的”,那也不行,也得讓你小表弟喘口氣。
整體的回答就會是這樣的邏輯結(jié)構(gòu)。你從接到一個標(biāo)題或者你要分析的東西一直到它最后出結(jié)果,整個流程的輔助維度可能就是這些,其實還會有更多的維度來輔助。其實數(shù)據(jù)分析在生活中是很常見的,大家也都經(jīng)常使用它。
二、數(shù)據(jù)分析的作用—降低被誤概率
除了剛才那些問題可能時不時會發(fā)生,但是更多出現(xiàn)的是一些容易被誤導(dǎo)的數(shù)據(jù)。我沒有說被騙是因為它也不能叫做騙,只是它誤導(dǎo)了你,而你選擇了相信。我們經(jīng)常在一些報刊雜志上看到很多數(shù)據(jù)就開始傳播,我也希望這次聽完這些之后,如果不是特別確定的還是不要傳播,容易引起恐慌。
如圖二,我們來看這些報刊雜志上是怎么樣描述這些數(shù)據(jù)的。首先是“情感??膶<彝ㄟ^讀者的反饋研究發(fā)現(xiàn),有80%的家庭表示后悔要小孩”。“人們一般認(rèn)為平均23度感覺舒適”。“當(dāng)今交通危險日益增長,據(jù)不完全統(tǒng)計,現(xiàn)在因為飛機(jī)事故喪生的人數(shù)是20年前的15倍”。“北京2012年離婚率是39%,有點不敢結(jié)婚。居全國之首,預(yù)計到2017年將超過50%。”“甲同學(xué)期末五科總分450分,乙同學(xué)期末五科總分460分,乙同學(xué)比甲同學(xué)優(yōu)秀”。接下來這個是最常見的,“2015年,全國32個主要城市平均薪酬為6070元”。最后是參軍海報上寫的,“美國海軍的死亡率為千分之九,而同期的紐約死亡率為千分之十六。所以參軍更安全,鼓勵大家參軍”。這些都是摘自一些報刊雜志上或者說平時經(jīng)常會出現(xiàn)的一些東西。至于為什么感覺不是騙了你,而是你被它誤導(dǎo)?我們講完這一章之后來回答,大家也可以想一下,大部分可能已經(jīng)知道在哪有有不對了。
(圖二)
我們已經(jīng)發(fā)現(xiàn)了很多生活中出現(xiàn)的“騙”或者說被誤導(dǎo)的東西,我們?yōu)槭裁催€要統(tǒng)計。哈佛的統(tǒng)計學(xué)院的創(chuàng)始人莫斯特勒說過“要用統(tǒng)計很容易,但是不用統(tǒng)計騙人就更容易了”。
什么叫做數(shù)據(jù)分析?數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進(jìn)行分析,以求化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。里面包含兩個關(guān)鍵信息:第一,有用信息。第二,形成結(jié)論。
第一,有用信息。對于數(shù)據(jù)來說什么是有用信息?主要是三個方面的東西:1、數(shù)值。2、比率。3、圖形。它還會有很多種,但是我們經(jīng)常接觸到的東西比較多的會是這三種類型。
1、數(shù)值
大家平時接觸得非常多,算術(shù)平均數(shù)、眾數(shù)、中位數(shù),平均數(shù)大家知道了,眾數(shù)就是一個數(shù)組里出現(xiàn)得最多次數(shù)的那個數(shù),中位數(shù)就是它的位置處于那一組數(shù)據(jù)的中間位置的數(shù)字。這三個數(shù)里面,只有眾數(shù)是真數(shù),它是不會改變數(shù)本身的任何特性的。中位數(shù)是半假數(shù),因為當(dāng)數(shù)組出現(xiàn)偶數(shù)的時候,它是需要計算的。只要是你需要第二次計算的,就會出現(xiàn)人為操作上的或者是任何形式上的失誤,所以中位數(shù)叫半假數(shù)。而算術(shù)平均數(shù)實際上就是一個假數(shù),因為它需要你進(jìn)行二次計算,而且在計算的過程中會經(jīng)常出現(xiàn)不可意料的坑。
看圖三,三月份投資人數(shù)10個,投資總金額1萬,平均客單價1000。到了四月份,投資人數(shù)漲了,投資金額翻一番,平均客單價是10倍。如果你是做數(shù)據(jù)分析的,一看到這個數(shù)第一時間估計就興奮得崩潰了,真的要這樣往上報嗎?
(圖三)
它上面寫的是平均客單價,當(dāng)提到“平均”這兩個字的時候,需要去看一下數(shù)本身的情況,也就是說里面有沒有異常值。如果說你追回去,最后發(fā)現(xiàn)四月份雖然來了20個投資人,投資金額這么大,結(jié)果其中一個投資人自己就投了15萬。你再一算,平均客單才2500。結(jié)果你把這個報上去,老板跟你說“10倍的增長不錯,下個月做平均客單12000吧”,你就把自己坑上了,結(jié)果實際才2500,也許整個部門都被你坑上了。
如果真的出現(xiàn)了這樣的數(shù)要往回追溯,我們說有坑就要埋,怎么樣來埋這個坑?首先你要看整個數(shù)組里有沒有異常值,有異常值是不能用平均值的,必須把異常值剔除掉再來看。
其次,按道理來說數(shù)組里應(yīng)該是看方差,但是實際工作中我不建議引入更多的數(shù)據(jù)概念。因為能夠得出結(jié)論并不是說你用的工具越復(fù)雜、越高端越好,而是越能快速、精準(zhǔn)地定位到問題并得出結(jié)論越好。所以我會建議直接用、最小值以及中位數(shù)就能看出是否異常,這樣比算方差或者再去理解的標(biāo)準(zhǔn)差的概念更方便,所以我會建議直接用大家都理解的東西去得出結(jié)論。
2、比率
大家用百分比的更多,可能比看絕對值看得更多。大家都會說“環(huán)比是什么情況,同比是什么情況”。我們先對同比和環(huán)比作一個概念上的區(qū)分。同比是指相同時間點進(jìn)行比較,比如說2015年3月和2016年3月。環(huán)比就是時間點的比較,比如說2015年3月和2015年4月是一個前后沿的關(guān)系。并不是說比例就是我這個月的比上個月的,這就是值,沒什么坑好出現(xiàn)。但是不然,還是有的。我們再來挖一個坑。
看圖四,這是模擬的投資金額數(shù)。這是2015年2月1日到7日,以及2016年2月1日到7日的投資金額分布情況。老板看了這個數(shù),他就看著你,你就看著圖。如果是這樣的情況,既然有坑,我們就應(yīng)該把坑埋了。特殊日期節(jié)點是不能單純從絕對日期上進(jìn)行比對的,是以特殊日期本身作為對比的基準(zhǔn)。比如說“春節(jié)前一周的投資金額的比對”,在這個時候尤其要區(qū)分周六和周日的情況,在你看波動性的時候有沒有周期性波動。周六、周日屬于周期性波動,而這種是屬于特殊日期的節(jié)點性波動,所以這兩個在看圖和做圖的時候都要很小心,一不小心就把自己坑了。
(圖四)
3、圖
這些大家都非常清楚,平時也用得比較多,包括柱形、餅圖、折線和條形圖。這些圖形有很多是以組合圖的形式出現(xiàn),這里只需要區(qū)分一點就是柱形圖和條形圖用得比較混,可能條形圖主要是區(qū)分類別,而柱形圖更偏向于區(qū)分時段。所以條形圖有一個很大的特征在于它的任何軸之間是可以變換位置的,而柱形圖一般不太可以。圖形其實很容易誤導(dǎo),因為人在第一時間看的時候是很容易受圖形影響的,我們就來看看圖的坑在哪?如圖五,如果單純從圖上看大家可以得出什么結(jié)論?
(圖五)
先看上半部分,其實只是因為它的數(shù)標(biāo)軸不一樣,所以在看圖的時候,尤其是兩個月的圖形進(jìn)行比對的時候,先看的是大情況,基準(zhǔn)線很重要。一個是0起點,一個是400起點,那么400起點的波動看上去肯定會更大。
再看下半部分,看起來感覺增長都是一樣的,但是這個會看得比較清楚一點。其實這兩個表達(dá)的是同一個意思,因為一個是增量,一個是基礎(chǔ)量,這個是兩周期之間的差值,但是看上去一個增長明顯,一個增長緩慢。這并不是坑,而是說你該如何從圖形上表述你的觀點以及該用什么樣的圖形來表達(dá)這個事情是怎么樣一個情況和趨勢。
剛才已經(jīng)說了有用的信息是數(shù),三種數(shù)——真數(shù),半假數(shù)和假數(shù),我現(xiàn)在問一下還記得假數(shù)是哪個數(shù)嗎?平均數(shù),平均數(shù)必須要考慮什么?考慮異常值。
接下來我們會形成結(jié)論,對剛才的信息進(jìn)行判斷之后,我們要形成結(jié)論用什么樣的方法?會說到四種方法:1、對比。2、拆分。3、增維和減維。4、假設(shè)。
在這里,只會講一下對比和拆分,為什么?因為增維和減維是在你實際需要的過程中主要為了輔助你判斷使用的,而假設(shè)是你需要根據(jù)你得出的結(jié)果或者說你得不出結(jié)果的時候去進(jìn)行一次假設(shè),這個相對而言是比較抽象的,而對比和拆分就是我們平時使用得最多的兩種方法。
1、對比
對比的定義不需要過多解釋,因為在座的同學(xué)應(yīng)該對于對比都比較清楚,平時也經(jīng)常使用,但是我在這里強(qiáng)調(diào)需要關(guān)注的四個點:
(1)對比的對象要一致。什么意思?就是兩個值之間進(jìn)行比對的時候,它基本對象是一致的。這個可以回憶一下剛才我們看的報刊雜志里有些會誤導(dǎo)你的其實就是因為它的比對對象不一致造成的。
(2)時間屬性要一致。比如說有兩家企業(yè),一家企業(yè)跟你說“我的離職率是12%。”你大概心里有數(shù),然后問到下一家企業(yè)的時候,他說“你不要去那個,那個12%不行,我這邊很穩(wěn)定,我才4%。”然后你說“不錯,那就去他那吧”。結(jié)果回頭一問,一個是年度的,一個是月度的,這坑就大了。所以你在時間屬性上一定要問清楚是否一致,當(dāng)然剛才那個數(shù)只是打個比方,月度和年度不可能差那么小。
(3)定義和計算方式一致。這就真的要非常注意,我在以前遇到過,當(dāng)時是做一個報告,要定位的人群是青年人。世界衛(wèi)生組織定義青年人的時間是從14歲到44歲。國家統(tǒng)計局定義青年人為15歲到34歲。所以再一次強(qiáng)調(diào),定義很重要。你說的青年人跟我說的青年人壓根就不是同一波人,所以在這塊上,定義非常重要。
(4)數(shù)據(jù)源要一致。這與剛才的定義是一樣的,你從國家統(tǒng)計局拿數(shù),我從世界衛(wèi)生組織拿數(shù),也許我們倆的數(shù)永遠(yuǎn)都對不上。所以你的數(shù)也是對的數(shù),我的數(shù)也是對的數(shù),我們倆的數(shù)就是對不上的數(shù)。所以這就是數(shù)據(jù)源的問題,一定要很清晰。
2、拆分
拆分是用來快速定位為有問題的字段的,比如說成交額出現(xiàn)了異常波動,你就要把成交額這個字段進(jìn)行拆分,拆成成交用戶×客單價。成交用戶又被拆分成訪問數(shù)以及轉(zhuǎn)化率。A有問題了,B有沒有問題?B和C哪個有問題?B下面的D和E哪個有問題?拆分是為了最快地找到出現(xiàn)異常問題的那個數(shù),也可以用排除法從下到上排。就是說哪一個出現(xiàn)了問題就可以快速地解決它,拆分是程度地快速定位到需要解決的那一個模塊上,它是一個聯(lián)動的過程,每一個數(shù)值的變化后面可能是有原因的,這個原因是什么就能快速地找到。所以這是平時就要建立的一個邏輯問題,這邊也是單獨拿出來跟大家講,拆分這個東西真的非常重要,這個功課平時就要做,出現(xiàn)的時候才能夠找到是哪塊出現(xiàn)問題,而不是一到出現(xiàn)問題的時候再去找。
這就是我們先前看到的那些報刊雜志里的問題,我們再來回溯一下到底這些數(shù)值誤導(dǎo)了我們什么。
1、有80%的家庭表示后悔要小孩。這就是剛才我說的你的統(tǒng)計對象必須要一致,為什么不一致?你得出的這個結(jié)論是情感??膶<彝ㄟ^讀者的反饋,比如說平時喜歡看一些情感專家的情感多少都有點問題,那么他有80%的家庭表示后悔要小孩似乎也能接受了,因為一般是誰有問題誰吐槽。
2、這還是一個平均值的問題,更確切的表述應(yīng)該是“體感”吧,23度感覺會舒適,而不是平均,因為你腳踩火盆頭頂冰同樣也是平均23度,但是那樣會非常不舒服。所以“平均”這個詞的使用是要很小心的。
3、現(xiàn)在飛機(jī)喪生的人數(shù)是20年前的15倍,貌似很嚇人,但是它對比的是絕對值。從時間屬性上來說,20年前才多少人坐飛機(jī)?才有幾輛飛機(jī)對吧?其實這就是要考慮時間的問題,如果是這樣的表述,應(yīng)該是百分比,是說當(dāng)年的坐飛機(jī)人數(shù)和喪生的人數(shù)和與現(xiàn)在坐飛機(jī)的人數(shù)和喪生的人數(shù)的比,而不是用絕對值去直接比。
4、關(guān)于離婚率的問題。北京2010年的離婚率是39%,預(yù)計到2012年要超過50%?,F(xiàn)在超了嗎?我也沒關(guān)注。反正這個數(shù)當(dāng)時辟謠了幾個月,最后得出的是統(tǒng)計方法上的問題。按結(jié)婚的跟離婚的比率就是39%??赡芨茖W(xué)的算法就是離婚的占總?cè)丝诘?,因為他是算離婚率,所以離婚率應(yīng)該是按人口數(shù)來算的。
5、甲同學(xué)期末五科的總分是450分,乙同學(xué)期末五科的總分是460分,得出乙同學(xué)比甲同學(xué)優(yōu)秀。這其實是定義問題,就是優(yōu)秀怎么判斷的問題。優(yōu)秀是指分?jǐn)?shù)這句話可能問題不大,但是比如說中間有一個是特長生,他在他特長的那一塊,你也可以說他優(yōu)秀。這就是關(guān)于優(yōu)秀的定義不一樣。
6、平均薪酬不用說,出來的時候大家每年都吐槽,都是被馬云爸爸坑了,都是“被平均”的那個。
7、關(guān)于海軍死亡率的問題就是剛剛提到的關(guān)于統(tǒng)計對象的問題,海軍的死亡率雖然是千分之九,但是死的都是身體健康青壯年。而同期紐約死亡率雖然為千分之十六,它有可能是因為交通事故、病、老等各種原因。本身的統(tǒng)計對象都不一樣,所以你要得出“參軍更安全”的結(jié)論本身就是誤導(dǎo),所以大家都不會相信。
三、數(shù)據(jù)分析的作用—職場發(fā)展需要
當(dāng)然,也不是說數(shù)據(jù)分析那么神乎其神,而是如果有這樣的數(shù)據(jù)分析的思維方式,會使工作更加便捷,就像得出結(jié)論或者說反饋一些信息的時候不至于誤導(dǎo)別人或者說被別人誤導(dǎo)。相對于職場發(fā)展的需要,前面兩塊幾乎都是一個基礎(chǔ),因為不能說數(shù)據(jù)分析是一個工具,而只能說是一種能力,這種能力需要經(jīng)常去培養(yǎng)。我講到職場發(fā)展的需要是在中間單獨拎出一塊來說,平時大家也遇到比較多的就是關(guān)于怎樣提數(shù)據(jù)需求。因為很多同學(xué)不會直接接觸到數(shù)據(jù)庫,可能會提很多需求給提數(shù)據(jù)的那個人,中間會產(chǎn)生很多溝通成本,可能得出的結(jié)論也不是自己需要的。其實提數(shù)據(jù)的需求就是從Word轉(zhuǎn)成Excel的過程。
接下來我們說幾個點,不說完全能覆蓋,但是這幾個點平時忽視得比較多,需要關(guān)注。就是Word的這句話如何拆分、如何定義、目的是什么、限制條件是什么,很多同學(xué)會問“目的難道不是應(yīng)該排在數(shù)據(jù)分析得第一位嗎?沒有目的怎么提數(shù)”但是有時候你想分析一個東西的時候,你是模糊的,你是不太知道你到底是為了干嘛,但是我就想知道,很多人會有這樣的想法。你在拆分和定義這句話的時候,你的目的會越來越清晰,所以我才把你最核心的目的放在第三塊,那么到了第三塊的時候,對于為什么要提這個數(shù),你已經(jīng)非常清晰了。
舉個簡單的例子,這是一個初步的想法,他就說“我想知道近期有短標(biāo)投資行為的用戶的復(fù)投行為”??赡芫褪呛芎唵危褪钦f我想知道這個東西。然后我們對它進(jìn)行拆分,它的核心字段是定語后面的主語,他就是想看復(fù)投行為。它的定語是什么樣的復(fù)投行為?是近期的、買過短期的、有過投資行為的用戶的復(fù)投行為。那么就是把這樣一個Word的文字表達(dá)變成了字段的形式,這是第一步拆分。
然后我們要定義它。什么叫做復(fù)投?
(1)復(fù)投是指單筆到期之后再投還是說這個用戶第二次再投資了?這是要區(qū)分的。
(2)“復(fù)投”、“行為”是核心,行為是指質(zhì)還是量?我要的是復(fù)投的金額占比還是復(fù)投的次數(shù)?你到底是要分析什么?這個投資的行為到底是什么行為?
然后再是近期,近期是一個月、三個月還是半年?如果說你是單筆到期復(fù)投之后,你的近期就要和它的投資標(biāo)的相關(guān)。如果近一個月,你要說單筆到期再復(fù)投根本就不會有數(shù)。所以這需要考慮清楚。
然后就是短標(biāo)。短標(biāo)是15天還是30天的?你是怎么界定它的?這個標(biāo)包不包括新手標(biāo)?
然后就是投資行為。因為你上面說的是近期有短標(biāo)投資行為,是首次投資短標(biāo)行為還是只要近期有過投資的行為?
最后就是用戶。用戶好像也很容易界定,它是首投用戶還是復(fù)投用戶?當(dāng)然復(fù)投用戶在這里應(yīng)該是不存在,但是你還是要對用戶本身進(jìn)行界定,因為它要對象清晰。
只有你自己把這些都理清楚了之后,你就知道你的目的是什么、你會得出什么結(jié)論,當(dāng)你把你的這句話拆成這樣的核心內(nèi)容以及定義完之后,你就會知道你這個數(shù)提出來會得到什么結(jié)論,那么你就知道你的目的是什么。像很多時候提數(shù)之前我會問“你要什么數(shù)你想清楚了沒有?”其實這就是想清楚的過程。
至于限制條件就是有些條件需要特別清晰,比如說短標(biāo)包不包括新手標(biāo),這是作為限制條件。如果你要的復(fù)投行為只是說他有沒有過,那么限制條件只要判斷他是否有復(fù)投行為,而不需要提到他復(fù)投了多少次、多少錢。
所以在提數(shù)據(jù)需求的時候,我當(dāng)時有幾個建議:不是非常必要的字段越少越好。因為一個人能分析的字段是有限的,不可能一個人覆蓋到七、八個或者九、十個詞,這樣兩兩關(guān)聯(lián)會很難判斷,因為中間的因素太多了,就是兩到三個詞,能聚焦到核心內(nèi)容。
其實這些就是實際工作中可能會涉及到的一些內(nèi)容,今天總共作了三個方面的分享:
第一、數(shù)據(jù)分析在生活中的一些情況。
第二、會誤導(dǎo)你的一些數(shù)。
第三、從實用的角度談?wù)勌釘?shù)據(jù)需求所關(guān)注的一些點。