基于快手算法規(guī)則,如何制定內容策略?
一看如何定義內容;
二看如何定義人:長期屬性、中期屬性、短期屬性;
三看如何設計人與內容的互動。
以及背后的價值觀:基尼系數
快手在內容消費端的人工智能技術主要圍繞三個核心:定義內容、定義人、人與內容的互動。理解它的機制,對內容生產者而言就可以更好地有的放矢、生產出傳播更高效的內容。簡單來說,想要你的內容如何更容易被機器識別和“喜歡”,首先你得了解機器運作的原理。
定義內容
導語:每一次猜測都是一個弱決策,大量的弱決策疊加在一起就形成強匹配。
也就是識別圖文和視頻。到目前技術的發(fā)展,圖文識別已經很先進了,比如它能識別出一篇文章的分類,也能識別一片文章的情感,判定文章表達的喜怒哀樂、褒貶態(tài)度。
但視頻的機器識別技術還沒有那么準確,如果要識別一個視頻里有沒有黃賭毒,就很復雜了,僅僅通過機器識別圖像后提取的概念是不夠的,還需要大量的只有人類才能判斷的常識信息才能夠準確判斷。同樣,機器也無法通過一次識別就判斷這只視頻是否受歡迎。所以采取了這樣的辦法:
當一則視頻上傳到快手,機器先會抓取一些特征、提取信息,比如識別主體、表情、場景、圖像質量、OCR文字識別、音樂、聲音提取的文字等等。
比如可以識別出一只小狗,在草地,同時機器會進一步尋找視頻里的細微特征,每一個特征都是機器的猜測,然后做驗證。每一次猜測都是一個弱決策,大量的弱決策疊加在一起就形成強匹配。
機器要實現對用戶興趣的精準識別,需要一定時間。系統(tǒng)會優(yōu)先推送高CTR的內容,在這個過程中進行興趣探測,投放到用戶池中做灰度測試,從而得到不斷的驗證。
比如,剛剛識別了小狗在草地,哦,那機器猜測,這是不是一個萌寵視頻?機器找到一小部分帶有“萌寵”標簽的用戶,觀察打開量,如果超過了一定的閾值,就判定這是個萌寵視頻,從而推薦給更多帶有“萌寵”標簽的用戶,這樣反復,很快就能確定這支視頻的分類了。而判斷視頻質量的方式也很相似,視頻推給一小部分用戶后,通過觀察互動量比如點贊、評論、播放完成度等幾個維度,超過一定閾值,就推薦給更大范圍的用戶。如此反復,持續(xù)正向反饋的視頻根據數據表現進入優(yōu)質視頻庫,機器隨機選擇其中的一些上快手的“熱門”也就是發(fā)現頁。
定義人
導語:帶有大量標簽的用戶,可以總結出特征,以便更好地讓系統(tǒng)了解用戶。
你從一開始知道一個陌生人是男是女,哪里人,做什么工作,等時間久了,你會知道他喜歡什么運動、飲食偏好、人品和價值觀。認識一個人的過程是不斷獲取信息、分析信息,時間久了,你熟悉了,就可以預測這個人的想要什么、會做出什么行為。
機器也在與每一個用戶建立從陌生人發(fā)展到熟悉朋友的過程。一個快手的新用戶,在冷啟動時,機器首先會根據用戶的注冊資料、手機機型、地理位置和周邊用戶等情況,對用戶做一個標簽分析。一旦用戶有了使用行為,瀏覽了內容后,快手的機器會根據用戶的觀看行為,升級用戶標簽庫,進而給用戶匹配更精準的內容。目前快手用戶的手機型號有5萬多種,快手的自研AI引擎會適應每種機型的硬件配置,快手的用戶標簽庫已經高達數百億條。
帶有大量標簽的用戶,可以總結出特征,以便更好地讓系統(tǒng)了解用戶。用戶的特征分為長期特征、中期特征、短期特征三塊。其中,長期特征是出生年月、地區(qū)(IP地址、POI/AOI)、性別等,那些你長時間不會變的特征。中期特征是興趣愛好。最難識別的是短期特征,比如一個人搜索“蘋果”,今天可能是想吃蘋果,明天可能是想買一個蘋果手機。這樣的特征是瞬息萬變的,也很難識別和判斷,所以機器需要記錄用戶大量的使用行為,建立深度學習的模型來不斷訓練,從中形成用戶大致的畫像(我們叫用戶向量),從而更好地判斷用戶到底喜歡什么,以及和其他用戶的關系。
人與內容的互動
導語:互動數據最難的是需要時間沉淀、用戶量積累和用戶活躍度。
就是指的是用戶之間的點贊、關注和評論等行為?;趧倓偟慕忉?,你很容易明白,互動相關的數據有助于機器預估一個人的興趣愛好。很多剛玩快手,就有個感覺,都給我推的什么東西呀?!很多原因是因為你暴露給機器的標簽還不夠多,機器還不認識你。實際上,它的顆粒度已經做得非常細了。比如我自己喜歡古典舞蹈,使用一段時間后,我的推送里并非都是類似街舞的現代舞種,而是中國古典舞的分類。
互動數據最難的是需要時間沉淀、用戶量積累和用戶活躍度。人群沉淀的價值也很明顯,在快手上,一個天天釣魚的賬號,幾十條上百條內容全部一樣的,就一個人坐在那里釣魚,而他的粉絲有數十萬,這些老鐵們都喜歡天天看他釣魚。所以我剛剛說,快手是在找“人”的價值,通過這樣的方式找到志同道合的老鐵。
在快手平臺的排序引擎中,不得不強調的它社區(qū)機制里的基尼系數概念。
基尼系數一般是用來衡量一個國家或地區(qū)居民收入差距的指標,國家以此控制民眾的貧富差距不要太大??焓钟盟鼇韺崿F一個“公平”的理念,遏制頭部大號流量,把流量分給更多的普通內容生產者,讓每個人都能得到一定的關注。
對于專業(yè)的內容生產者而言,這個機制也許是一種煩惱。你以團隊之力,在內容制作上大力投入,生產精良的作品,粉絲量快速上漲,很快就會發(fā)現,粉絲數越多,上熱門的幾率就越小。但換個角度想,這未嘗不是一件好事。設想,如果這個平臺真變成了只有頭部大號獲得關注,普通用戶發(fā)的視頻無人問津,于是只能當觀眾,那平臺就會變成一個中心化的精英媒體。而如今快手能讓老鐵們都“生活”其中,快手粉絲的粘度極高,背后都有這個機制的貢獻。
所以在賬號越變越大的過程中盡管越來越艱難,但沉淀的粉絲價值也是越來越高的。適應環(huán)境的能力,是每一種生物能夠存活的核心能力,我想作為內容生產者也是如此。初步了解快手這個世界的規(guī)則和價值觀后,你應該也能從實際操作角度反推一二了。