百度推薦系統(tǒng)登上國(guó)際最高技術(shù)講臺(tái)
信息爆炸曾給如饑似渴的網(wǎng)民帶來(lái)甘露,但海量信息泛濫也讓網(wǎng)民焦頭爛額。如今,多家互聯(lián)網(wǎng)公司開(kāi)始嘗試通過(guò)編輯精選、智能推薦等手段為網(wǎng)民呈現(xiàn)真正“對(duì)胃口”的信息。正如《長(zhǎng)尾理論》的作者克里斯·安德森所說(shuō),We are leaving the age of information and entering the age of recommendation.(我們正在遠(yuǎn)離信息,而進(jìn)入推薦時(shí)代。)
9月中旬,被譽(yù)為推薦系統(tǒng)領(lǐng)域的頂級(jí)國(guó)際會(huì)議——ACM RecSys 2012在愛(ài)爾蘭都柏林舉行,在此之前,RecSys大會(huì)已在明尼阿波利斯、洛桑、紐約、巴塞羅那、芝加哥先后成功舉辦五屆。
RecSys 2012吸引到了來(lái)自世界高校的頂級(jí)學(xué)者以及互聯(lián)網(wǎng)領(lǐng)域的知名公司研發(fā)人員的參與,比如LinkedIn,Yahoo!,Microsoft,Facebook等,議題涵蓋推薦算法、社會(huì)化推薦、用戶(hù)建模、機(jī)器學(xué)習(xí)和人機(jī)交互等前沿領(lǐng)域。在這樣的頂級(jí)國(guó)際會(huì)議上,也出現(xiàn)了中國(guó)互聯(lián)網(wǎng)公司的身影,來(lái)自中國(guó)內(nèi)地的百度是唯一參加這個(gè)會(huì)議的國(guó)內(nèi)公司,也是第一家以論文作者的身份參加會(huì)議的國(guó)內(nèi)公司。
在會(huì)議上,百度發(fā)布了論文:Enlister:Baidu's Recommender System For The Biggest Chinese Q&A Website(中國(guó)最大問(wèn)答平臺(tái)上的百度推薦系統(tǒng)服務(wù))。這份論文受到了國(guó)外同行的一致認(rèn)可,并最終被大會(huì)錄用。據(jù)悉,RecSys 2012此次共接收長(zhǎng)論文24篇,錄取率20.2%;接收短論文21篇,錄取率31.8%。
百度這一課題實(shí)際上是百度產(chǎn)品研發(fā)的一個(gè)附帶成果,全部由百度一線(xiàn)工程師完成,主要來(lái)自推薦與個(gè)性化部和百度知道產(chǎn)品研發(fā)部門(mén)。論文的主要成果基于百度知道問(wèn)題推薦系統(tǒng),現(xiàn)在它每天都在為百度知道的兩億用戶(hù)提供問(wèn)題推薦服務(wù)。同時(shí),這些技術(shù)后續(xù)還將作為通用基礎(chǔ)技術(shù),應(yīng)用到推薦與個(gè)性化部門(mén)其它產(chǎn)品中,比如百度新首頁(yè)導(dǎo)航、百度貼吧個(gè)性化帖子、百度視頻個(gè)性化視頻等產(chǎn)品。
在研發(fā)過(guò)程中,面對(duì)世界性推薦技術(shù)難題,兩部門(mén)人員在研發(fā)開(kāi)始時(shí)即達(dá)成共識(shí),準(zhǔn)備使用一系列創(chuàng)新的策略來(lái)解決問(wèn)題。首先,他們將用戶(hù)的使用行為,經(jīng)過(guò)隱私處理后,進(jìn)行了多個(gè)層次的興趣、狀態(tài)和行為分析,為每一個(gè)用戶(hù)建立用戶(hù)模型,從而給出屬于個(gè)人的推薦結(jié)果,達(dá)到“一人一世界”的用戶(hù)體驗(yàn),以此完善用戶(hù)模型。
其次,他們創(chuàng)新地將推薦中的排序的任務(wù)轉(zhuǎn)化為點(diǎn)擊率預(yù)估的問(wèn)題,使用機(jī)器學(xué)習(xí)框架來(lái)解決這個(gè)業(yè)界公認(rèn)的難題,以此構(gòu)建機(jī)器學(xué)習(xí)排序模型。
此外,他們還使用了流式計(jì)算框架,將一個(gè)問(wèn)題從提出到準(zhǔn)確推薦給對(duì)這個(gè)問(wèn)題有興趣的用戶(hù)的時(shí)間縮短為10分鐘,保證合適的問(wèn)題能夠快速的展現(xiàn)給合適的用戶(hù)來(lái)快速解決。
事實(shí)證明,他們采用的通用用戶(hù)模型、機(jī)器學(xué)習(xí)排序和流式計(jì)算在項(xiàng)目中取得了非常好的效果。項(xiàng)目上線(xiàn)后,百度知道回答量從8.4萬(wàn)提升到10.2萬(wàn),提升了21.4%;轉(zhuǎn)化率從0.148%提升到0.179%,提升21.0%。
他們的這一成果一是證明了機(jī)器學(xué)習(xí)策略應(yīng)用在推薦排序中的重要性,后續(xù)會(huì)持續(xù)優(yōu)化并推廣到更多產(chǎn)品中;二是流式計(jì)算架構(gòu)能給用戶(hù)帶來(lái)的良好體驗(yàn),使得它會(huì)作為后續(xù)推薦產(chǎn)品中的核心架構(gòu)并推廣;三是證明百度推薦技術(shù)的研發(fā)處在推薦業(yè)界的領(lǐng)先水平,對(duì)百度后續(xù)的發(fā)展規(guī)劃具有一定的指導(dǎo)意義。
研發(fā)并非一帆風(fēng)順。據(jù)百度工程師介紹,研發(fā)過(guò)程中,他們?cè)跈C(jī)器學(xué)習(xí)排序問(wèn)題的樣本和特征選擇上就曾遇到困難。
“按照比較流行的搜索廣告點(diǎn)擊率預(yù)估的思路,負(fù)樣本會(huì)選擇用戶(hù)沒(méi)有點(diǎn)擊過(guò)的內(nèi)容。這種做法對(duì)樣本量和特征量要求極高,業(yè)界通常的廣告點(diǎn)擊率預(yù)估系統(tǒng)通常有十億或者百億級(jí)別的樣本,億級(jí)別的特征,通常需要成百上千臺(tái)機(jī)器來(lái)做模型訓(xùn)練的工作,這樣的機(jī)器預(yù)算對(duì)產(chǎn)品線(xiàn)來(lái)說(shuō)是沒(méi)法承受的”。
據(jù)一位參與研發(fā)的百度工程師介紹,這一問(wèn)題困擾了他們一段時(shí)間。后來(lái)在自然語(yǔ)言處理部機(jī)器學(xué)習(xí)組以及百度知道的共同討論和調(diào)研中,他們逐漸摸索出一套小型的樣本選擇和特征抽取方法。他們提取了百萬(wàn)級(jí)的樣本和百級(jí)別的特征,這樣就能夠在不大幅減少模型精度的情況下,用幾臺(tái)機(jī)器就能完成模型訓(xùn)練的工作,“得益于機(jī)器學(xué)習(xí)組同事豐富的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)和產(chǎn)品線(xiàn)同事對(duì)產(chǎn)品的深刻見(jiàn)解,最終大家一起漂亮的解決了這個(gè)難題”。
近年來(lái),隨著以 Facebook、Twitter為代表的社會(huì)化網(wǎng)絡(luò)異軍突起,用戶(hù)貢獻(xiàn)內(nèi)容,社會(huì)化途徑傳播,讓信息量幾何倍數(shù)爆炸,以用戶(hù)為核心的信息“推薦”時(shí)代已經(jīng)來(lái)臨,無(wú)論互聯(lián)網(wǎng)格局是否會(huì)發(fā)生巨變,那些具有技術(shù)實(shí)力、富有前瞻性的互聯(lián)網(wǎng)公司必將引領(lǐng)下一個(gè)互聯(lián)網(wǎng)浪潮。
文章版權(quán)歸西部工控xbgk所有,未經(jīng)許可不得轉(zhuǎn)載。