1、垂直論壇的深度挖掘
搜索論壇的方式,和在國(guó)外搜索行業(yè)的方式一樣。百度搜索“興趣+論壇”,就可以得出非常多的結(jié)果?,F(xiàn)在比較大的領(lǐng)域,一般都有相應(yīng)的論壇。
TIPS:可以通過觀察相應(yīng)的論壇的活躍度,來確定這個(gè)興趣的領(lǐng)域是否足夠大。
比如搜“微電影論壇”。我們可以發(fā)現(xiàn),相應(yīng)的論壇的活躍度都挺低。這代表對(duì)這個(gè)興趣比較感興趣的用戶,不活躍在百度這個(gè)平臺(tái)了。
不活躍在百度,意味著這個(gè)項(xiàng)目沒有價(jià)值嗎?并非如此。不活躍代表這個(gè)項(xiàng)目的價(jià)值在別的平臺(tái)轉(zhuǎn)移。再比如,冷門SEM的熱門標(biāo)的項(xiàng)目“疾病類”的論壇,我們就可以很容易的挖掘到一些細(xì)枝末節(jié)的細(xì)節(jié)。比如哮喘。
我們就可以在帖子中發(fā)現(xiàn)病人的問題,以及他們是否需要一些輔助設(shè)備。由于疾病類的比較敏感,建議通過特殊的角度進(jìn)行切入。當(dāng)搜尋了這些問題或者項(xiàng)目的時(shí)候,記得反向進(jìn)入百度的競(jìng)價(jià)后臺(tái)查詢,就可以獲得準(zhǔn)確的數(shù)據(jù)。
2、信息源的模塊化建設(shè)
1)以百度貼吧為例的自動(dòng)化模塊化設(shè)計(jì)
既然要做信息源的收集,那么節(jié)約時(shí)間就顯得非常必要。首先,我們要確定自己要做的是大概的什么方向。譬如,自己如果之前有做過文玩,或者這方面的興趣,那么就可以圍繞這個(gè)方向進(jìn)行收集。在這里呢,我們可以在表格里做一下數(shù)據(jù)上的規(guī)劃。通過之前文章的方法,我們?nèi)グ俣荣N吧做第一層的模塊化數(shù)據(jù)篩選。
排除:搜索量極低的,不符合大小原則的。然后,我們就可以大概做出這樣的圖表。
然后,就可以將 相關(guān)的搜索詞(子興趣),作二次的流量分類。
分類以后,我們就可以開始做數(shù)據(jù)的篩查了。但是現(xiàn)在問題來了,如此龐大的子興趣,我們?nèi)绾斡行У奶岣咝誓??答案是采集?/p>
現(xiàn)在的第三方軟件已經(jīng)非常方便,比如:八爪魚等。八爪魚目前的整體功能基本上已經(jīng)做到了“可視化”。簡(jiǎn)單操作,即可獲得詳實(shí)的數(shù)據(jù)。那么,如何定義采集的規(guī)則呢?
1)頁(yè)面里面有什么?
在知道我么想要什么之前,我們先要理解,網(wǎng)頁(yè)是什么。網(wǎng)頁(yè)說一個(gè)通俗的比喻,就是一張疊一張的紙。比如,我們打開“核桃”吧,我們?cè)诘谝粡埣埧吹降膬?nèi)容是以下。分類、標(biāo)題,最后回復(fù)時(shí)間。
2)我們想要什么?
根據(jù)之前的文章,我們知道,我們要的是:興趣的活躍度、興趣內(nèi)的需求、興趣內(nèi)的產(chǎn)品的價(jià)格
3)我們?cè)趺醋觯?/p>
判斷我們想要的數(shù)據(jù),在不在當(dāng)前頁(yè)面。如,我們想要了解的活躍度,就可以通過第一層頁(yè)面帖子最右側(cè)的最后回帖時(shí)間進(jìn)行部分解決。
2、我們想要的數(shù)據(jù),需要多少種指標(biāo)?
譬如,我們想要知道的是“核桃”這個(gè)子興趣的活躍度。那么,主吧頁(yè)面的最后回復(fù)帖子的時(shí)間是不足以佐證的。我們需要打開第二層頁(yè)面,觀察更多所需的指標(biāo)。如是否需要統(tǒng)計(jì)第二層頁(yè)面的回復(fù)數(shù),參與的ID。
如貼中的“阿墨文玩”就是典型的一個(gè)ID。
注:“核桃”吧是一個(gè)商業(yè)化非常嚴(yán)重的貼吧。通俗的說,嗯,大部分的內(nèi)容是通過某種付費(fèi)/免費(fèi)形式,給予部分的人充足的發(fā)帖權(quán)限的,大家懂就好。
但是其他業(yè)務(wù)的貼吧,盡量把ID也作為一個(gè)指標(biāo)進(jìn)行統(tǒng)計(jì),如ID的數(shù)量。(多樣化)同理,其他想要的數(shù)據(jù)我們也可以這樣一層層的剝離。這樣就可以非常簡(jiǎn)單的搭建自己的信息源了。