基于快手算法規(guī)則,如何制定內(nèi)容策略?
一看如何定義內(nèi)容;
二看如何定義人:長期屬性、中期屬性、短期屬性;
三看如何設(shè)計(jì)人與內(nèi)容的互動(dòng)。
以及背后的價(jià)值觀:基尼系數(shù)
快手在內(nèi)容消費(fèi)端的人工智能技術(shù)主要圍繞三個(gè)核心:定義內(nèi)容、定義人、人與內(nèi)容的互動(dòng)。理解它的機(jī)制,對內(nèi)容生產(chǎn)者而言就可以更好地有的放矢、生產(chǎn)出傳播更高效的內(nèi)容。簡單來說,想要你的內(nèi)容如何更容易被機(jī)器識別和“喜歡”,首先你得了解機(jī)器運(yùn)作的原理。
定義內(nèi)容
導(dǎo)語:每一次猜測都是一個(gè)弱決策,大量的弱決策疊加在一起就形成強(qiáng)匹配。
也就是識別圖文和視頻。到目前技術(shù)的發(fā)展,圖文識別已經(jīng)很先進(jìn)了,比如它能識別出一篇文章的分類,也能識別一片文章的情感,判定文章表達(dá)的喜怒哀樂、褒貶態(tài)度。
但視頻的機(jī)器識別技術(shù)還沒有那么準(zhǔn)確,如果要識別一個(gè)視頻里有沒有黃賭毒,就很復(fù)雜了,僅僅通過機(jī)器識別圖像后提取的概念是不夠的,還需要大量的只有人類才能判斷的常識信息才能夠準(zhǔn)確判斷。同樣,機(jī)器也無法通過一次識別就判斷這只視頻是否受歡迎。所以采取了這樣的辦法:
當(dāng)一則視頻上傳到快手,機(jī)器先會抓取一些特征、提取信息,比如識別主體、表情、場景、圖像質(zhì)量、OCR文字識別、音樂、聲音提取的文字等等。
比如可以識別出一只小狗,在草地,同時(shí)機(jī)器會進(jìn)一步尋找視頻里的細(xì)微特征,每一個(gè)特征都是機(jī)器的猜測,然后做驗(yàn)證。每一次猜測都是一個(gè)弱決策,大量的弱決策疊加在一起就形成強(qiáng)匹配。
機(jī)器要實(shí)現(xiàn)對用戶興趣的精準(zhǔn)識別,需要一定時(shí)間。系統(tǒng)會優(yōu)先推送高CTR的內(nèi)容,在這個(gè)過程中進(jìn)行興趣探測,投放到用戶池中做灰度測試,從而得到不斷的驗(yàn)證。
比如,剛剛識別了小狗在草地,哦,那機(jī)器猜測,這是不是一個(gè)萌寵視頻?機(jī)器找到一小部分帶有“萌寵”標(biāo)簽的用戶,觀察打開量,如果超過了一定的閾值,就判定這是個(gè)萌寵視頻,從而推薦給更多帶有“萌寵”標(biāo)簽的用戶,這樣反復(fù),很快就能確定這支視頻的分類了。而判斷視頻質(zhì)量的方式也很相似,視頻推給一小部分用戶后,通過觀察互動(dòng)量比如點(diǎn)贊、評論、播放完成度等幾個(gè)維度,超過一定閾值,就推薦給更大范圍的用戶。如此反復(fù),持續(xù)正向反饋的視頻根據(jù)數(shù)據(jù)表現(xiàn)進(jìn)入優(yōu)質(zhì)視頻庫,機(jī)器隨機(jī)選擇其中的一些上快手的“熱門”也就是發(fā)現(xiàn)頁。
定義人
導(dǎo)語:帶有大量標(biāo)簽的用戶,可以總結(jié)出特征,以便更好地讓系統(tǒng)了解用戶。
你從一開始知道一個(gè)陌生人是男是女,哪里人,做什么工作,等時(shí)間久了,你會知道他喜歡什么運(yùn)動(dòng)、飲食偏好、人品和價(jià)值觀。認(rèn)識一個(gè)人的過程是不斷獲取信息、分析信息,時(shí)間久了,你熟悉了,就可以預(yù)測這個(gè)人的想要什么、會做出什么行為。
機(jī)器也在與每一個(gè)用戶建立從陌生人發(fā)展到熟悉朋友的過程。一個(gè)快手的新用戶,在冷啟動(dòng)時(shí),機(jī)器首先會根據(jù)用戶的注冊資料、手機(jī)機(jī)型、地理位置和周邊用戶等情況,對用戶做一個(gè)標(biāo)簽分析。一旦用戶有了使用行為,瀏覽了內(nèi)容后,快手的機(jī)器會根據(jù)用戶的觀看行為,升級用戶標(biāo)簽庫,進(jìn)而給用戶匹配更精準(zhǔn)的內(nèi)容。目前快手用戶的手機(jī)型號有5萬多種,快手的自研AI引擎會適應(yīng)每種機(jī)型的硬件配置,快手的用戶標(biāo)簽庫已經(jīng)高達(dá)數(shù)百億條。
帶有大量標(biāo)簽的用戶,可以總結(jié)出特征,以便更好地讓系統(tǒng)了解用戶。用戶的特征分為長期特征、中期特征、短期特征三塊。其中,長期特征是出生年月、地區(qū)(IP地址、POI/AOI)、性別等,那些你長時(shí)間不會變的特征。中期特征是興趣愛好。最難識別的是短期特征,比如一個(gè)人搜索“蘋果”,今天可能是想吃蘋果,明天可能是想買一個(gè)蘋果手機(jī)。這樣的特征是瞬息萬變的,也很難識別和判斷,所以機(jī)器需要記錄用戶大量的使用行為,建立深度學(xué)習(xí)的模型來不斷訓(xùn)練,從中形成用戶大致的畫像(我們叫用戶向量),從而更好地判斷用戶到底喜歡什么,以及和其他用戶的關(guān)系。
人與內(nèi)容的互動(dòng)
導(dǎo)語:互動(dòng)數(shù)據(jù)最難的是需要時(shí)間沉淀、用戶量積累和用戶活躍度。
就是指的是用戶之間的點(diǎn)贊、關(guān)注和評論等行為?;趧倓偟慕忉專愫苋菀酌靼?,互動(dòng)相關(guān)的數(shù)據(jù)有助于機(jī)器預(yù)估一個(gè)人的興趣愛好。很多剛玩快手,就有個(gè)感覺,都給我推的什么東西呀?!很多原因是因?yàn)槟惚┞督o機(jī)器的標(biāo)簽還不夠多,機(jī)器還不認(rèn)識你。實(shí)際上,它的顆粒度已經(jīng)做得非常細(xì)了。比如我自己喜歡古典舞蹈,使用一段時(shí)間后,我的推送里并非都是類似街舞的現(xiàn)代舞種,而是中國古典舞的分類。
互動(dòng)數(shù)據(jù)最難的是需要時(shí)間沉淀、用戶量積累和用戶活躍度。人群沉淀的價(jià)值也很明顯,在快手上,一個(gè)天天釣魚的賬號,幾十條上百條內(nèi)容全部一樣的,就一個(gè)人坐在那里釣魚,而他的粉絲有數(shù)十萬,這些老鐵們都喜歡天天看他釣魚。所以我剛剛說,快手是在找“人”的價(jià)值,通過這樣的方式找到志同道合的老鐵。
在快手平臺的排序引擎中,不得不強(qiáng)調(diào)的它社區(qū)機(jī)制里的基尼系數(shù)概念。
基尼系數(shù)一般是用來衡量一個(gè)國家或地區(qū)居民收入差距的指標(biāo),國家以此控制民眾的貧富差距不要太大??焓钟盟鼇韺?shí)現(xiàn)一個(gè)“公平”的理念,遏制頭部大號流量,把流量分給更多的普通內(nèi)容生產(chǎn)者,讓每個(gè)人都能得到一定的關(guān)注。
對于專業(yè)的內(nèi)容生產(chǎn)者而言,這個(gè)機(jī)制也許是一種煩惱。你以團(tuán)隊(duì)之力,在內(nèi)容制作上大力投入,生產(chǎn)精良的作品,粉絲量快速上漲,很快就會發(fā)現(xiàn),粉絲數(shù)越多,上熱門的幾率就越小。但換個(gè)角度想,這未嘗不是一件好事。設(shè)想,如果這個(gè)平臺真變成了只有頭部大號獲得關(guān)注,普通用戶發(fā)的視頻無人問津,于是只能當(dāng)觀眾,那平臺就會變成一個(gè)中心化的精英媒體。而如今快手能讓老鐵們都“生活”其中,快手粉絲的粘度極高,背后都有這個(gè)機(jī)制的貢獻(xiàn)。
所以在賬號越變越大的過程中盡管越來越艱難,但沉淀的粉絲價(jià)值也是越來越高的。適應(yīng)環(huán)境的能力,是每一種生物能夠存活的核心能力,我想作為內(nèi)容生產(chǎn)者也是如此。初步了解快手這個(gè)世界的規(guī)則和價(jià)值觀后,你應(yīng)該也能從實(shí)際操作角度反推一二了。