【MICRONET.COM.CN】凌晨1點(diǎn)鐘寫(xiě)這篇東西的時(shí)候,我還專門(mén)看了一眼,百度預(yù)測(cè)德國(guó)51%,巴西49%,我跟一個(gè)朋友說(shuō),巴西鐵定進(jìn)決賽好么,以我對(duì)國(guó)際足聯(lián)的操行的理解絕不會(huì)有出入好么,結(jié)果今早就被各種打臉了。
本屆世界杯最大的看點(diǎn),除了比賽本身,就是場(chǎng)外如火如荼的各種預(yù)測(cè)了。一邊是各種動(dòng)物爭(zhēng)當(dāng)“章魚(yú)保羅第二”,紛紛對(duì)比賽評(píng)頭論足,一邊是各色民間科學(xué)家粉墨登場(chǎng),為比賽預(yù)測(cè)拋出各種理論。這就好像那個(gè)“猴子炒股總是超過(guò)分析師”的例子一樣,看看也就算了。
今年世界杯預(yù)測(cè)真正的最大看點(diǎn),是有一大批科技公司,利用大數(shù)據(jù)技術(shù),準(zhǔn)確預(yù)測(cè)了截至目前的世界杯賽果。值得一提的是準(zhǔn)確預(yù)測(cè)的不僅是16強(qiáng),甚至還有八強(qiáng)、四強(qiáng)!更值得贊嘆的是,9日凌晨進(jìn)行的第一場(chǎng)半決賽——巴德之戰(zhàn)前,當(dāng)幾乎所有的民間預(yù)測(cè)都一邊倒地傾向于巴西隊(duì)獲勝,但百度仍預(yù)測(cè)德國(guó)隊(duì)具有51%的得勝概率,事實(shí)證明日耳曼戰(zhàn)車(chē)以7:1血洗巴桑軍團(tuán),這也使得百度在淘汰賽以來(lái)的賽果預(yù)測(cè)準(zhǔn)確率維持在100%。而這些預(yù)測(cè)絕不是“蒙”的!
從靠譜到非常靠譜
這些公司包括互聯(lián)網(wǎng)行業(yè)的谷歌、百度、微軟、雅虎,以及看起來(lái)和科技并無(wú)關(guān)聯(lián)的投資銀行公司高盛和德意志銀行,以及新聞業(yè)的彭博社。在這里把他們一概歸入科技公司的理由是他們的預(yù)測(cè)都基于自己的(或持有股份的)云計(jì)算平臺(tái),并利用這些平臺(tái)的計(jì)算能力提供預(yù)測(cè)的結(jié)果。
以百度為例,這家公司的資深數(shù)據(jù)科學(xué)家團(tuán)隊(duì),搜索了過(guò)去5年內(nèi)全世界987支球隊(duì)(含國(guó)家隊(duì)和俱樂(lè)部隊(duì))的3.7萬(wàn)場(chǎng)比賽數(shù)據(jù),同時(shí)與中國(guó)彩票網(wǎng)站樂(lè)彩網(wǎng)、歐洲必發(fā)指數(shù)數(shù)據(jù)供應(yīng)商Spdex進(jìn)行數(shù)據(jù)合作,導(dǎo)入博彩市場(chǎng)的預(yù)測(cè)數(shù)據(jù),建立了一個(gè)囊括199972名球員和1.12億條數(shù)據(jù)的預(yù)測(cè)模型,并在此基礎(chǔ)上進(jìn)行結(jié)果預(yù)測(cè)。
其他幾家公司的預(yù)測(cè)原理,也與此類(lèi)似,但在細(xì)微之處卻又有所不同,這導(dǎo)致了不同的側(cè)重,以及非常不同的預(yù)測(cè)結(jié)果。
先來(lái)說(shuō)三家傳統(tǒng)的華爾街公司,高盛、德銀和彭博,他們的共同之處是靠譜的地方很靠譜,但是離譜的地方非常離譜。
今年高盛世界杯報(bào)告的出品人,是大名鼎鼎高盛經(jīng)濟(jì)學(xué)家凱文·戴利(Kevin Daly),他帶領(lǐng)高盛的量化分析師建立了自1960年以來(lái)正式國(guó)際足球比賽數(shù)據(jù)的模型,對(duì)其進(jìn)行回歸分析,通過(guò)一個(gè)叫“elo”的動(dòng)態(tài)模擬系統(tǒng)“擲骰子”分析賽果,同時(shí)根據(jù)泊松模型(一種概率模型,用于預(yù)測(cè)進(jìn)球而非預(yù)測(cè)勝負(fù))預(yù)測(cè)小組賽的比分。
高盛的八強(qiáng)預(yù)測(cè)錯(cuò)了三個(gè)(哥斯達(dá)黎加、比利時(shí)和哥倫比亞),四強(qiáng)錯(cuò)了一個(gè)(西班牙),小組賽的賽果正確率只有37.5%,盡管這已經(jīng)算是不錯(cuò)的結(jié)果,但仍是差強(qiáng)人意。至于具體的比分,就離靠譜比較遠(yuǎn)了,舉個(gè)例子,高盛說(shuō)巴西的每場(chǎng)比賽都會(huì)以3個(gè)球以上的大比分戰(zhàn)勝對(duì)手,結(jié)果呢?
平心而論,高盛是華爾街里最靠譜的公司。彭博的方法與高盛類(lèi)似,是在各國(guó)國(guó)家隊(duì)FIFA積分的基礎(chǔ)上,模擬了1萬(wàn)次比賽結(jié)果,結(jié)果也與高盛類(lèi)似,彭博認(rèn)為西班牙會(huì)在和阿根廷打平后點(diǎn)球進(jìn)入決賽,最終輸給巴西(拜托,西班牙兩個(gè)禮拜前已經(jīng)回家了)。
德銀的模型更離譜,它的模型據(jù)說(shuō)綜合了FIFA排名、歷史戰(zhàn)績(jī)、球員構(gòu)成和賭球賠率等因素,算出的奪冠概率前四名是巴西、德國(guó)、西班牙、法國(guó),但是德銀的分析師在建立模型時(shí),綜合了一個(gè)據(jù)說(shuō)是“歷史奪冠輪回”的理論,最終,他們計(jì)算出的結(jié)果是巴西無(wú)緣8強(qiáng),而英格蘭將奪冠(拜托,英格蘭也在一個(gè)禮拜前就回家了好嗎)。
這一點(diǎn)不是偶然,回顧往屆世界杯,幾大投行的預(yù)測(cè)跟球迷瞎猜的水平差相仿佛,拿上屆來(lái)說(shuō),大摩說(shuō)英格蘭會(huì)奪冠,瑞銀說(shuō)意大利能進(jìn)四強(qiáng),結(jié)果如何,也就不必說(shuō)了。有一本書(shū)叫《荒謬的經(jīng)濟(jì)學(xué)家》,講的就是經(jīng)濟(jì)學(xué)家數(shù)據(jù)分析的不靠譜,而且他們自己還不知道。這一點(diǎn)同樣應(yīng)驗(yàn)在比賽預(yù)測(cè)上,華爾街的預(yù)測(cè)總的來(lái)說(shuō)“有點(diǎn)用”,但真要拿來(lái)賭巴西和德國(guó)的勝負(fù),還是算了吧。
再看互聯(lián)網(wǎng)公司這邊,基本可以說(shuō)是全面大勝,除了雅虎。
先來(lái)說(shuō)說(shuō)傳統(tǒng)的預(yù)測(cè)大腕雅虎。雅虎的預(yù)測(cè)手段其實(shí)與華爾街類(lèi)似,但專家云集且經(jīng)驗(yàn)豐富,向來(lái)與專業(yè)博彩公司不相上下,經(jīng)常被作為正式的參考數(shù)據(jù)列入博彩資料,但是今年雅虎不知搭錯(cuò)了哪根筋,為了推廣自己的圖片分享社區(qū)Tumblr,他們決定使用該社區(qū)的數(shù)據(jù)來(lái)預(yù)測(cè)世界杯:從831億篇Tumblr博客中篩選出1.889億篇文章,再“將注意力集中于2730萬(wàn)篇與世界杯相關(guān)的博文”,此后根據(jù)“與世界杯有關(guān)的帖子里被提及的國(guó)家隊(duì)”,以及“在與足球有關(guān)的帖子里被提及的國(guó)家隊(duì)”,導(dǎo)入泊松模型來(lái)預(yù)測(cè)每場(chǎng)比賽的結(jié)果。預(yù)測(cè)結(jié)果是,16強(qiáng)和8強(qiáng)預(yù)測(cè)分別錯(cuò)了一半。
如果拋開(kāi)雅虎這個(gè)奇葩,互聯(lián)網(wǎng)公司陣營(yíng)的預(yù)測(cè)結(jié)果比華爾街絕對(duì)高了不是一點(diǎn)半點(diǎn),剩下的三家全部預(yù)測(cè)正確了全部的16強(qiáng)(谷歌只預(yù)測(cè)了八強(qiáng)),以及全部的八強(qiáng),微軟、百度和高盛猜對(duì)了全部的四強(qiáng),谷歌在四強(qiáng)的預(yù)測(cè)中惜敗,在半決賽中,百度和微軟甚至還準(zhǔn)確預(yù)測(cè)了巴西對(duì)德國(guó)的賽果。
剩下這三家中,谷歌的預(yù)測(cè)數(shù)據(jù)主要來(lái)自O(shè)pta Sports的海量賽事數(shù)據(jù),通過(guò)球隊(duì)實(shí)力的排序模型,以及基于“各個(gè)國(guó)家球迷到巴西的數(shù)量和熱情度”的主場(chǎng)優(yōu)勢(shì)模型,來(lái)構(gòu)建其最終的預(yù)測(cè)模型。而微軟則與百度類(lèi)似,是在歷史和球隊(duì)狀態(tài)數(shù)據(jù)基礎(chǔ)上,通過(guò)對(duì)必發(fā)博彩交易市場(chǎng)數(shù)據(jù)來(lái)分析構(gòu)建預(yù)測(cè)模型?偟膩(lái)說(shuō),就本屆世界杯的預(yù)測(cè)而言,它們都“非常靠譜”。
當(dāng)預(yù)測(cè)不再是預(yù)測(cè)
最后一場(chǎng)半決賽和決賽開(kāi)戰(zhàn)在即,回頭看預(yù)測(cè)大戰(zhàn)的勝負(fù),有一條脈絡(luò)基本上是很清楚的,那就是數(shù)據(jù)從哪里來(lái),使用哪些數(shù)據(jù),和怎樣使用數(shù)據(jù),是決定預(yù)測(cè)結(jié)果的關(guān)鍵。
受云計(jì)算能力的局限,高盛、德銀、彭博為代表的華爾街公司采用的數(shù)據(jù),大多并不是特別龐大,比如,只選取一部分時(shí)間的比賽數(shù)據(jù),和選取一部分球員的數(shù)據(jù),代入一個(gè)固定的數(shù)學(xué)模型,用“擲骰子”來(lái)代替“運(yùn)氣”所帶來(lái)的不確定性,看起來(lái)非常合理,但忽略了一個(gè)大數(shù)據(jù)時(shí)代最常犯的錯(cuò)誤,即數(shù)據(jù)量有限導(dǎo)致無(wú)法保證采樣的“隨機(jī)性”,這一點(diǎn)是“擲骰子”無(wú)法解決的——這也被稱作“數(shù)據(jù)獨(dú)裁”,你怎能僅靠主力球員在一級(jí)比賽上的表現(xiàn),來(lái)錨定整支球隊(duì)的狀態(tài)?
雅虎作為大數(shù)據(jù)頂級(jí)開(kāi)源平臺(tái)Hadoop的孕育者,在計(jì)算能力上并沒(méi)有受到類(lèi)似華爾街一方那樣的局限。從采集的樣本來(lái)看,雅虎的數(shù)據(jù)量堪稱有史以來(lái)最大型的預(yù)測(cè)模型之一。但在“數(shù)據(jù)獨(dú)裁”這一點(diǎn)上,雅虎犯的錯(cuò)誤與華爾街相同——Tumblr并非擁有足夠多樣本數(shù)的社交平臺(tái),而即便是頂級(jí)的社交平臺(tái)Facebook,在數(shù)據(jù)預(yù)測(cè)的價(jià)值上也有側(cè)重,例如,預(yù)測(cè)離婚率比較準(zhǔn),而預(yù)測(cè)奧運(yùn)金牌就沒(méi)那么準(zhǔn)。
谷歌的問(wèn)題則在于漫不經(jīng)心,說(shuō)白了就是在選取和使用數(shù)據(jù)的方法上不專業(yè)。一個(gè)典型的例子是,法德大戰(zhàn)次日,谷歌發(fā)言人通過(guò)博客發(fā)表了一篇文章《為什么我們的德法大戰(zhàn)預(yù)測(cè)錯(cuò)了?》,在文章中解釋說(shuō),在世界杯前四場(chǎng)比賽中,法國(guó)比德國(guó)有更多的射門(mén)和射中球門(mén)概率,“必進(jìn)”位置的射門(mén)也更多,這增加了模型中的“預(yù)期進(jìn)球”,而德國(guó)則相反。他還說(shuō),從實(shí)際比賽來(lái)看,法國(guó)的射門(mén)次數(shù)和質(zhì)量也確實(shí)如前所述,預(yù)測(cè)不準(zhǔn)實(shí)在是“運(yùn)氣使然”。
這太扯淡了。真的是“運(yùn)氣使然”的話,那前面的16強(qiáng)、8強(qiáng)戰(zhàn)中,十幾場(chǎng)比賽,運(yùn)氣都沒(méi)有發(fā)揮作用嗎?谷歌的問(wèn)題,也正是是出在對(duì)“運(yùn)氣”,也就是比賽預(yù)測(cè)的模型的理解上。博彩界有一句名言,“任何企圖超越賠率的努力都是徒勞的”,說(shuō)的是賠率的本質(zhì),實(shí)際上是幾個(gè)基本屬性概率,價(jià)值,實(shí)力的綜合體現(xiàn),“運(yùn)氣使然”的成分,已經(jīng)被計(jì)算在內(nèi),不同機(jī)構(gòu)的賠率數(shù)值雖然不同,但正如商品市場(chǎng)價(jià)格在一定范圍內(nèi)波動(dòng),絕不會(huì)“出圈”。
谷歌擁有英語(yǔ)世界里最龐大的數(shù)據(jù),也擁有全球第二的云計(jì)算能力(第一名是亞馬遜),但在這個(gè)預(yù)測(cè)模型的建立上,犯了一個(gè)最嚴(yán)重的錯(cuò)誤,那就是對(duì)于基礎(chǔ)數(shù)據(jù)的分析,遠(yuǎn)不如對(duì)賠率的分析重要,這一點(diǎn)在博彩界人人皆知,但谷歌卻忽略了它。這是專業(yè)精神的失敗。預(yù)測(cè)四強(qiáng)失誤,正是這一不專業(yè)導(dǎo)致的直接結(jié)果——這是個(gè)足夠嚴(yán)重的錯(cuò)誤,也正是谷歌在大數(shù)據(jù)方面最大的問(wèn)題所在,預(yù)測(cè)足球無(wú)法建立專業(yè)的模型,那何以保證在其他領(lǐng)域就能做到專業(yè)呢?
只有百度和微軟,不僅正確預(yù)測(cè)了所有八強(qiáng)、四強(qiáng)的國(guó)家隊(duì),對(duì)于9日凌晨進(jìn)行的一場(chǎng)重量級(jí)半決賽——巴西vs德國(guó)的預(yù)測(cè)中,當(dāng)谷歌、高盛預(yù)測(cè)大熱門(mén)巴西將獲勝的時(shí)候,百度和微軟則預(yù)測(cè)了德國(guó)的勝利,繼續(xù)保持了淘汰賽以來(lái)100%的準(zhǔn)確率,而百度更是給出了51%的勝率數(shù)據(jù)。相比之下,微軟和百度的預(yù)測(cè)正確,也正是對(duì)“賠率”理解正確的結(jié)果。但不同的是,前者的模型主要依據(jù)了必發(fā)指數(shù)這一歐洲市場(chǎng)最具權(quán)威性的賠率指數(shù),而后者在此基礎(chǔ)上,還綜合了歐賠469家公司的賠率數(shù)據(jù)。這一點(diǎn)的優(yōu)劣見(jiàn)仁見(jiàn)智,但理論上引入多個(gè)數(shù)據(jù)源能保證更好的健壯性和精確性,在實(shí)際預(yù)測(cè)中,百度在小組賽預(yù)測(cè)上的準(zhǔn)確率,略高于微軟(58.33% vs 56.25%)。
就在9日凌晨的巴德大戰(zhàn)賽果在朋友圈被刷爆的同時(shí),卻很少有人看到,決定預(yù)測(cè)勝負(fù)的,還有一些重要的關(guān)鍵變數(shù)。尤其值得一提的是,百度和微軟都是人工智能五巨頭之一(谷歌、百度、微軟、IBM、Facebook),百度還剛剛從谷歌大腦挖來(lái)了人工智能三位頂級(jí)專家之一吳恩達(dá)(另外兩位一在谷歌,一在Facebook),并宣布“百度大腦”已經(jīng)達(dá)到2-3歲智力。
這究竟可以幫多大的忙尚未可知,而微軟早在多年前也已經(jīng)涉足人工智能研究,推出的Cortana在市場(chǎng)上受到廣泛好評(píng)。目前還不知道雙方是否在預(yù)測(cè)中啟用了基于深度學(xué)習(xí)的人工智能組件,如果答案為肯定,那么在“數(shù)據(jù)從哪里來(lái)”這一點(diǎn)上,將增添無(wú)窮多的變量。
百度世界杯預(yù)測(cè)是在做一款互聯(lián)網(wǎng)產(chǎn)品,而微軟、高盛和谷歌是在做一份事件性的報(bào)告,雙方在態(tài)度上首先就是有區(qū)別的,因此我個(gè)人更看好百度。除了關(guān)注德國(guó)在血洗巴西之后,能否繼續(xù)在總決賽中勝出之外,在最后三場(chǎng)比賽中,我們還可以密切關(guān)注百度與華爾街和硅谷的預(yù)測(cè)對(duì)決。
還有一點(diǎn)必須指出,至少截至目前,至少在世界杯比賽的預(yù)測(cè)結(jié)果來(lái)看,大數(shù)據(jù)和人工智能的預(yù)測(cè)結(jié)果擔(dān)當(dāng)?shù)闷?ldquo;非?孔V”這個(gè)形容詞。我相信用不了多少時(shí)間,至少在世界杯上,我們也許要準(zhǔn)備向“預(yù)測(cè)”這個(gè)詞正式說(shuō)再見(jiàn)了。(來(lái)源:虎嗅網(wǎng) 作者:豬玀懦夫)
文章編輯:微網(wǎng)網(wǎng)絡(luò) 最好的微信商城系統(tǒng)盡在Micronet微網(wǎng)
掃描下面二維碼,學(xué)習(xí)更多營(yíng)銷(xiāo)技巧
聲明:本網(wǎng)部份文章為轉(zhuǎn)載文章,在每篇文章底部有說(shuō)明,文章的觀點(diǎn)和立場(chǎng)僅代表作者個(gè)人立場(chǎng),不代表微網(wǎng)立場(chǎng),若是文章轉(zhuǎn)載中有侵范您的權(quán)益,請(qǐng)發(fā)郵件到 493149@qq.com或致電13922854199通知?jiǎng)h除,謝謝!