你所不知道的千人千面,人群推薦算法深度解讀,正確認(rèn)識人群!
2023-01-19|13:51|發(fā)布在分類 / 開網(wǎng)店| 閱讀:82
2023-01-19|13:51|發(fā)布在分類 / 開網(wǎng)店| 閱讀:82
去年夏天答應(yīng)你寫的那篇關(guān)于千人千面的文章,到現(xiàn)在才寫出來。
先跟大家道歉,因?yàn)槲乙恢毕牖谒惴▽用鎭斫忉?,想把千人千面的工作原理解釋透徹,但又怕太學(xué)術(shù),讓大部分讀者看不懂,所以整理了半天,決定用學(xué)術(shù)內(nèi)容+通俗易懂的場景講解讓大家看懂。
在日常和粉絲的交流中,我發(fā)現(xiàn)很多人對千人的理解是錯誤的。
以下是一些典型的錯誤理論,供大家參考:1。
刷榜可以控制精準(zhǔn)人群,稱為細(xì)刷。
2.刷單的時(shí)候會通過提前收藏,添加,第二天或者更長時(shí)間交易,讓鏈接人群更加精準(zhǔn)。
3.只要我用女性賬號刷單,就是女性標(biāo)簽。
如果我用馬的賬號刷的話,那就是馬的標(biāo)簽。
4.通過直通車人群溢價(jià)刷單,會避免人群不準(zhǔn)確的問題。
5.人群的精準(zhǔn)性會讓鏈接的權(quán)重更高。
6.不登錄我的賬號,我的搜索結(jié)果也不是幾千人。
以上論點(diǎn)在很多人心中根深蒂固,大多數(shù)人對人群標(biāo)簽的理解也就止于此。
因?yàn)橐恍C(jī)構(gòu)和非政府組織的傳播,類似這樣的說法非常流行(你會發(fā)現(xiàn),以上的例子大部分都和刷單有關(guān)。
其實(shí)這是告訴你,刷單不能保證人群的準(zhǔn)確性)。
但是,這些說法真的不對。
你可能會覺得不可思議,那么這些論點(diǎn)怎么會錯呢?
先從推薦算法本身的原理給你解釋一下,讓你知道什么是千人千面。
相信你可以自己找到答案(如果看完文章還是看不懂,可以再問我)。
說到千人千面,人們給這些名詞貼上標(biāo)簽,就不得不說推薦算法,這是數(shù)學(xué)和信息技術(shù)完美結(jié)合的偉大發(fā)明。
它是一種基于大量樣本統(tǒng)計(jì)和用戶行為協(xié)同過濾來預(yù)測用戶需求的技術(shù)。
從買方的角度來看,這項(xiàng)技術(shù)將使用戶實(shí)現(xiàn)他們想要的。
從賣家的角度,可以拓展競爭維度,減少單一維度的競爭壓力,讓產(chǎn)品多元化,百花齊放。
好吧,這只是一個千人千面的概念,可能不太好理解。
讓我們從現(xiàn)場來理解千人千面的存在。
相信大家都有這樣的經(jīng)歷。
比如你坐月子的老婆打電話給你,說家里的尿布不夠用。
這些現(xiàn)象讓我們感覺像是個人信息的泄露。
是你的行為數(shù)據(jù)讓平臺知道了你的需求。
我們以淘寶的千人千面為例。
買家注冊賬號時(shí),需要填寫性別、身份證號等個人信息。
很多人認(rèn)為這是幾千人的數(shù)據(jù),但這些數(shù)據(jù)不靠譜,太基礎(chǔ)。
,這將構(gòu)成數(shù)萬人的事實(shí)標(biāo)簽。
收集標(biāo)簽容易,建模型難。
如何通過標(biāo)簽?zāi)P途珳?zhǔn)預(yù)測用戶需求?
我們以淘寶首頁的內(nèi)容板塊為例。
常規(guī)的行為推薦算法類似于這個公式:內(nèi)容訪問權(quán)重=行為權(quán)重*時(shí)間權(quán)重*衰減因子,行為權(quán)重:我們點(diǎn)擊一條內(nèi)容,回復(fù),喜歡等。
,這些都將包含在行為權(quán)重中。
根據(jù)平臺上積累的大數(shù)據(jù),計(jì)算不同品類、不同產(chǎn)品下的各種運(yùn)營行為的權(quán)重分值,在用戶回復(fù)、喜歡、喜歡、喜歡時(shí)添加權(quán)重分值;時(shí)間權(quán)重:停留時(shí)間越長,時(shí)間權(quán)重越高;衰減因子:用戶的單一行為不能作為用戶喜好的直接評價(jià),權(quán)重會隨著時(shí)間逐漸降低。
通過這三個權(quán)重維度的綜合計(jì)算,得到我們的內(nèi)容訪問權(quán)重。
當(dāng)我們多次訪問同一類型的內(nèi)容時(shí),每次都會得到相應(yīng)的內(nèi)容訪問權(quán)重。
平臺把這些權(quán)重累加起來,然后用神經(jīng)網(wǎng)絡(luò)的閾值函數(shù)(Sigmoid函數(shù))進(jìn)行標(biāo)準(zhǔn)化,得到一個閾值為(0,1)的結(jié)果。
通常推薦算法的標(biāo)準(zhǔn)化過程是Sigmoid函數(shù)的變形公式。
得到一個閾值位為010的結(jié)果,也就是我們所說的質(zhì)量分(直通車的質(zhì)量分也是這樣計(jì)算的)。
權(quán)重(或質(zhì)量分)越高,內(nèi)容板塊推薦相似內(nèi)容的比例和頻率越高。
這就是行為推薦算法(你的行為影響你)。
值得一提的是,世界上所有推薦算法的處理過程都差不多,沒有太大區(qū)別。
這個過程通常被稱為標(biāo)簽化(比如我們搜索閱讀了一個產(chǎn)品后,如果我們猜測你喜歡,就會推薦一個類似的產(chǎn)品,而閱讀了多種產(chǎn)品后,我們猜測你喜歡推薦的頻率是不一樣的)。
但這只是個人行為推薦。
比如我們刷單的時(shí)候,讓刷手提前瀏覽某個商品,第二天再搜索,位置會很高。
很多人會想當(dāng)然的認(rèn)為這樣會增加產(chǎn)品的重量。
其實(shí)只是這個刷手看到的位置變高了,并不代表你的鏈接排名在其他用戶的瀏覽結(jié)果下也會變高。
是對刷手的錯覺和誤解!行為推薦結(jié)果本身就有一定的應(yīng)用場景。
比如我們在使用推廣工具(比如直通車)的時(shí)候,瀏覽的是不被關(guān)注的人群標(biāo)簽。
在這些場景中,使用行為推薦結(jié)果是有意義的,前提是你的訪客是真實(shí)的,而不是刷手的。
否則系統(tǒng)只會讓你的刷手看到你的鏈接,真正的用戶還是看不到。
除此之外,我們想要得到的是廣大的新客戶。
在獲得新客戶的過程中,推薦算法是如何工作的?
大家在開直通車的時(shí)候都知道,政府提供了一系列的人群包,比如年齡,性別等等。
,作為用戶的基礎(chǔ)數(shù)據(jù)呈現(xiàn)。
但是,上面說的行為推薦結(jié)果難道對千人千面沒有作用嗎?
顯然,這是不可能的。
平臺會通過用戶行為收集用戶偏好,梳理出有類似需求的人群,并做出相關(guān)推薦。
先說它是如何工作的:我們每個人的行為偏好都會以權(quán)重的形式記錄在云平臺里,一個人會有很多偏好。
系統(tǒng)會將你的各種偏好轉(zhuǎn)化為特征向量,比如你的消費(fèi)能力、興趣、社交偏好權(quán)重分別為3、6、7。
那么你的偏好值就會作為一個坐標(biāo)點(diǎn)R (3,6,7)存儲在多維空間的數(shù)據(jù)模型中,然后通過這種方式,平臺就可以很容易地根據(jù)與你有相似特征的人的購買行為來推薦你的瀏覽結(jié)果。
即使你沒有做過瀏覽行為,也會有人推薦給你一些產(chǎn)品或者內(nèi)容。
這種推薦算法遠(yuǎn)比你的行為推薦給你的結(jié)果更有意義,更準(zhǔn)確。
我們稱之為相關(guān)性推薦算法(你的行為影響別人,別人的行為也影響你)。
通常開直通車的人,搜索受購買行為影響的人,都是基于關(guān)聯(lián)推薦算法,而關(guān)聯(lián)推薦算法的前提是行為推薦算法。
但是,用戶的行為特征與用戶的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。
比如我們開直通車,傳統(tǒng)的人群包包含了年齡、性別等維度的屬性,而不是特征屬性。
在每個用戶的行為過程中,系統(tǒng)與用戶填寫的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。
我們用戶的基本數(shù)據(jù)(年齡、性別等。
)是顯式數(shù)據(jù)。
用戶行為特征的系統(tǒng)化統(tǒng)計(jì)數(shù)據(jù)稱為隱性數(shù)據(jù)。
平臺會將大部分已知的顯示數(shù)據(jù)與其隱式數(shù)據(jù)關(guān)聯(lián)起來,然后對未知的用戶數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測用戶的顯式數(shù)據(jù)是否正確。
比如平臺里所有特征相同的人,可以預(yù)測這些人是否都是男性。
大部分成熟的平臺現(xiàn)在這樣的預(yù)測結(jié)果準(zhǔn)確率都在90%以上(換句話說,平臺不會把你用戶填寫的性別年齡數(shù)據(jù)當(dāng)回事,而是通過大數(shù)據(jù)來確定。
這樣,顯式數(shù)據(jù)就可以作為商家選擇購買廣告的可選標(biāo)簽,比如直通車的性別和年齡段,這些都是商家可選的顯式數(shù)據(jù)。
系統(tǒng)會找出這些群體隱含的數(shù)據(jù)關(guān)系,推薦給你真正想推薦的用戶。
這也回答了我們一開始提出的一個問題。
并不是用寶媽人群刷單就能給寶媽人群貼標(biāo)簽的!在這里,我們已經(jīng)基本掌握了推薦算法的原理以及在平臺中的使用場景。
因?yàn)檫@個內(nèi)容學(xué)術(shù)性很強(qiáng),可能很多人看了都有抱怨。
沒辦法。
就算你看不懂,我也得先給你解釋一下原理。
對于做過算法工程師的朋友來說,讀起來應(yīng)該會輕松很多。
不過沒關(guān)系,就算你不理解前面的內(nèi)容也沒關(guān)系,記住后面的內(nèi)容就行了!首先,所有的刷單行為都無法模擬系統(tǒng)對人群偏好的算法,所以不要指望一邊刷單一邊兼顧人群的精準(zhǔn)性,這是永遠(yuǎn)無法實(shí)現(xiàn)的!第二,用戶標(biāo)簽是被動形成的,商品標(biāo)簽也是。
在用戶購買的過程中,慢慢形成標(biāo)簽。
千人千面固然重要,但也不要過分神化。
只是概率論和數(shù)理統(tǒng)計(jì)的應(yīng)用過程。
你的產(chǎn)品適合什么樣的人,是在子宮里就決定了的,不是你通過一些技術(shù)手段就能改變的。
你要做的不是找到更好的人群。
第三,人群標(biāo)簽不是競價(jià)系統(tǒng)中的一種權(quán)重(比如搜索結(jié)果)。
競價(jià)權(quán)重本身還是要看產(chǎn)品的產(chǎn)值,但比如一個品類中有幾個產(chǎn)品符合同一人群,系統(tǒng)會優(yōu)先考慮這些產(chǎn)品。
那么我們開直通車的時(shí)候,這類用戶搜索產(chǎn)品的時(shí)候,系統(tǒng)會根據(jù)我們和競品的競價(jià)關(guān)系,決定先給用戶展示哪些產(chǎn)品。
說到這里,我突然想到,很多品類的計(jì)費(fèi)比例是很大的,所以在這些品類中,用戶的特征采集必然會有很大的誤差,所以這個時(shí)候,即使我們付費(fèi)的人是最適合這個產(chǎn)品的人,也不一定能得到最好的數(shù)據(jù),所以很多商家會覺得很難為更多品類的推廣付費(fèi)。
其實(shí)在你明白原理之后,你只需要知道你可以被動的測試所有的人群條件,找到表現(xiàn)最好的人群去做,而不是主觀的認(rèn)為我的產(chǎn)品一定是男性標(biāo)簽或者高消費(fèi)群體標(biāo)簽,這樣你的數(shù)據(jù)就可以在這個類別得到優(yōu)化。
更何況根據(jù)法律要求,推薦算法形成的商業(yè)廣告是不允許針對個人的,所以你不用擔(dān)心個人資料的泄露(即使泄露不是推薦算法造成的)。
正因如此,即使你沒有登錄賬號,你的操作行為依然會被平臺收集,關(guān)聯(lián)你的硬件信息,方便下一次行為推薦結(jié)果的推送。
至此,我想我已經(jīng)把千人千面的道理解釋的很透徹了。
可能大家會覺得晦澀難懂,但是你反復(fù)看,一定能看懂。
這篇文章可以讓大家很容易的理解千人千面的工作原理,不會被一些錯誤的方法所欺騙,因?yàn)殄e誤的理解,做出一些看似有效實(shí)際上毫無意義的行為。
也希望借助這個平臺,認(rèn)識真正有共鳴的人,多做研究和探討(感覺很難找到知音!)
這個問題還有疑問的話,可以加幕.思.城火星老師免費(fèi)咨詢,微.信號是為: msc496。
推薦閱讀:
拼多多店鋪不能預(yù)售(店鋪不讓發(fā)布預(yù)售商品)
淘寶發(fā)布商品必須填品牌嗎?可以隨便填嗎(淘寶代運(yùn)營公司有用嗎?有哪些好處)
更多資訊請關(guān)注幕 思 城。
微信掃碼回復(fù)「666」
別默默看了 登錄\ 注冊 一起參與討論!