丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

互聯(lián)網(wǎng)公司是如何在世界杯預測領域完勝華爾街的?

2014-07-09 項目

展示量: 3996
互聯(lián)網(wǎng)公司是如何在世界杯預測領域完勝華爾街的?
凌晨1點鐘寫這篇東西的時候,我還專門看了一眼,百度預測德國51%,巴西49%,我跟一個朋友說,巴西鐵定進決賽好么,以我對國際足聯(lián)的操行的理解絕不會有出入好么,結果今早就被各種打臉了。

本屆世界杯最大的看點,除了比賽本身,就是場外如火如荼的各種預測了。一邊是各種動物爭當“章魚保羅第二”,紛紛對比賽評頭論足,一邊是各色民間科學家粉墨登場,為比賽預測拋出各種理論。這就好像那個“猴子炒股總是超過分析師”的例子一樣,看看也就算了。

今年世界杯預測真正的最大看點,是有一大批科技公司,利用大數(shù)據(jù)技術,準確預測了截至目前的世界杯賽果。值得一提的是準確預測的不僅是16強,甚至還有八強、四強!更值得贊嘆的是,9日凌晨進行的第一場半決賽——巴德之戰(zhàn)前,當幾乎所有的民間預測都一邊倒地傾向于巴西隊獲勝,但百度仍預測德國隊具有51%的得勝概率,事實證明日耳曼戰(zhàn)車以7:1血洗巴桑軍團,這也使得百度在淘汰賽以來的賽果預測準確率維持在100%。而這些預測絕不是“蒙”的!

從靠譜到非常靠譜

這些公司包括互聯(lián)網(wǎng)行業(yè)的谷歌、百度、微軟、雅虎,以及看起來和科技并無關聯(lián)的投資銀行公司高盛和德意志銀行,以及新聞業(yè)的彭博社。在這里把他們一概歸入科技公司的理由是他們的預測都基于自己的(或持有股份的)云計算平臺,并利用這些平臺的計算能力提供預測的結果。

以百度為例,這家公司的資深數(shù)據(jù)科學家團隊,搜索了過去5年內(nèi)全世界987支球隊(含國家隊和俱樂部隊)的3.7萬場比賽數(shù)據(jù),同時與中國彩票網(wǎng)站樂彩網(wǎng)、歐洲必發(fā)指數(shù)數(shù)據(jù)供應商Spdex進行數(shù)據(jù)合作,導入博彩市場的預測數(shù)據(jù),建立了一個囊括199972名球員和1.12億條數(shù)據(jù)的預測模型,并在此基礎上進行結果預測。

其他幾家公司的預測原理,也與此類似,但在細微之處卻又有所不同,這導致了不同的側重,以及非常不同的預測結果。

先來說三家傳統(tǒng)的華爾街公司,高盛、德銀和彭博,他們的共同之處是靠譜的地方很靠譜,但是離譜的地方非常離譜。

今年高盛世界杯報告的出品人,是大名鼎鼎高盛經(jīng)濟學家凱文·戴利(Kevin Daly),他帶領高盛的量化分析師建立了自1960年以來正式國際足球比賽數(shù)據(jù)的模型,對其進行回歸分析,通過一個叫“elo”的動態(tài)模擬系統(tǒng)“擲骰子”分析賽果,同時根據(jù)泊松模型(一種概率模型,用于預測進球而非預測勝負)預測小組賽的比分。

高盛的八強預測錯了三個(哥斯達黎加、比利時和哥倫比亞),四強錯了一個(西班牙),小組賽的賽果正確率只有37.5%,盡管這已經(jīng)算是不錯的結果,但仍是差強人意。至于具體的比分,就離靠譜比較遠了,舉個例子,高盛說巴西的每場比賽都會以3個球以上的大比分戰(zhàn)勝對手,結果呢?

平心而論,高盛是華爾街里最靠譜的公司。彭博的方法與高盛類似,是在各國國家隊FIFA積分的基礎上,模擬了1萬次比賽結果,結果也與高盛類似,彭博認為西班牙會在和阿根廷打平后點球進入決賽,最終輸給巴西(拜托,西班牙兩個禮拜前已經(jīng)回家了)。

德銀的模型更離譜,它的模型據(jù)說綜合了FIFA排名、歷史戰(zhàn)績、球員構成和賭球賠率等因素,算出的奪冠概率前四名是巴西、德國、西班牙、法國,但是德銀的分析師在建立模型時,綜合了一個據(jù)說是“歷史奪冠輪回”的理論,最終,他們計算出的結果是巴西無緣8強,而英格蘭將奪冠(拜托,英格蘭也在一個禮拜前就回家了好嗎)。

這一點不是偶然,回顧往屆世界杯,幾大投行的預測跟球迷瞎猜的水平差相仿佛,拿上屆來說,大摩說英格蘭會奪冠,瑞銀說意大利能進四強,結果如何,也就不必說了。有一本書叫《荒謬的經(jīng)濟學家》,講的就是經(jīng)濟學家數(shù)據(jù)分析的不靠譜,而且他們自己還不知道。這一點同樣應驗在比賽預測上,華爾街的預測總的來說“有點用”,但真要拿來賭巴西和德國的勝負,還是算了吧。

再看互聯(lián)網(wǎng)公司這邊,基本可以說是全面大勝,除了雅虎。

先來說說傳統(tǒng)的預測大腕雅虎。雅虎的預測手段其實與華爾街類似,但專家云集且經(jīng)驗豐富,向來與專業(yè)博彩公司不相上下,經(jīng)常被作為正式的參考數(shù)據(jù)列入博彩資料,但是今年雅虎不知搭錯了哪根筋,為了推廣自己的圖片分享社區(qū)Tumblr,他們決定使用該社區(qū)的數(shù)據(jù)來預測世界杯:從831億篇Tumblr博客中篩選出1.889億篇文章,再“將注意力集中于2730萬篇與世界杯相關的博文”,此后根據(jù)“與世界杯有關的帖子里被提及的國家隊”,以及“在與足球有關的帖子里被提及的國家隊”,導入泊松模型來預測每場比賽的結果。預測結果是,16強和8強預測分別錯了一半。

如果拋開雅虎這個奇葩,互聯(lián)網(wǎng)公司陣營的預測結果比華爾街絕對高了不是一點半點,剩下的三家全部預測正確了全部的16強(谷歌只預測了八強),以及全部的八強,微軟、百度和高盛猜對了全部的四強,谷歌在四強的預測中惜敗,在半決賽中,百度和微軟甚至還準確預測了巴西對德國的賽果。

剩下這三家中,谷歌的預測數(shù)據(jù)主要來自Opta Sports的海量賽事數(shù)據(jù),通過球隊實力的排序模型,以及基于“各個國家球迷到巴西的數(shù)量和熱情度”的主場優(yōu)勢模型,來構建其最終的預測模型。而微軟則與百度類似,是在歷史和球隊狀態(tài)數(shù)據(jù)基礎上,通過對必發(fā)博彩交易市場數(shù)據(jù)來分析構建預測模型。總的來說,就本屆世界杯的預測而言,它們都“非常靠譜”。

當預測不再是預測

最后一場半決賽和決賽開戰(zhàn)在即,回頭看預測大戰(zhàn)的勝負,有一條脈絡基本上是很清楚的,那就是數(shù)據(jù)從哪里來,使用哪些數(shù)據(jù),和怎樣使用數(shù)據(jù),是決定預測結果的關鍵。

受云計算能力的局限,高盛、德銀、彭博為代表的華爾街公司采用的數(shù)據(jù),大多并不是特別龐大,比如,只選取一部分時間的比賽數(shù)據(jù),和選取一部分球員的數(shù)據(jù),代入一個固定的數(shù)學模型,用“擲骰子”來代替“運氣”所帶來的不確定性,看起來非常合理,但忽略了一個大數(shù)據(jù)時代最常犯的錯誤,即數(shù)據(jù)量有限導致無法保證采樣的“隨機性”,這一點是“擲骰子”無法解決的——這也被稱作“數(shù)據(jù)獨裁”,你怎能僅靠主力球員在一級比賽上的表現(xiàn),來錨定整支球隊的狀態(tài)?

雅虎作為大數(shù)據(jù)頂級開源平臺Hadoop的孕育者,在計算能力上并沒有受到類似華爾街一方那樣的局限。從采集的樣本來看,雅虎的數(shù)據(jù)量堪稱有史以來最大型的預測模型之一。但在“數(shù)據(jù)獨裁”這一點上,雅虎犯的錯誤與華爾街相同——Tumblr并非擁有足夠多樣本數(shù)的社交平臺,而即便是頂級的社交平臺Facebook,在數(shù)據(jù)預測的價值上也有側重,例如,預測離婚率比較準,而預測奧運金牌就沒那么準。

谷歌的問題則在于漫不經(jīng)心,說白了就是在選取和使用數(shù)據(jù)的方法上不專業(yè)。一個典型的例子是,法德大戰(zhàn)次日,谷歌發(fā)言人通過博客發(fā)表了一篇文章《為什么我們的德法大戰(zhàn)預測錯了?》,在文章中解釋說,在世界杯前四場比賽中,法國比德國有更多的射門和射中球門概率,“必進”位置的射門也更多,這增加了模型中的“預期進球”,而德國則相反。他還說,從實際比賽來看,法國的射門次數(shù)和質(zhì)量也確實如前所述,預測不準實在是“運氣使然”。

這太扯淡了。真的是“運氣使然”的話,那前面的16強、8強戰(zhàn)中,十幾場比賽,運氣都沒有發(fā)揮作用嗎?谷歌的問題,也正是是出在對“運氣”,也就是比賽預測的模型的理解上。博彩界有一句名言,“任何企圖超越賠率的努力都是徒勞的”,說的是賠率的本質(zhì),實際上是幾個基本屬性概率,價值,實力的綜合體現(xiàn),“運氣使然”的成分,已經(jīng)被計算在內(nèi),不同機構的賠率數(shù)值雖然不同,但正如商品市場價格在一定范圍內(nèi)波動,絕不會“出圈”。

谷歌擁有英語世界里最龐大的數(shù)據(jù),也擁有全球第二的云計算能力(第一名是亞馬遜),但在這個預測模型的建立上,犯了一個最嚴重的錯誤,那就是對于基礎數(shù)據(jù)的分析,遠不如對賠率的分析重要,這一點在博彩界人人皆知,但谷歌卻忽略了它。這是專業(yè)精神的失敗。預測四強失誤,正是這一不專業(yè)導致的直接結果——這是個足夠嚴重的錯誤,也正是谷歌在大數(shù)據(jù)方面最大的問題所在,預測足球無法建立專業(yè)的模型,那何以保證在其他領域就能做到專業(yè)呢?

只有百度和微軟,不僅正確預測了所有八強、四強的國家隊,對于9日凌晨進行的一場重量級半決賽——巴西vs德國的預測中,當谷歌、高盛預測大熱門巴西將獲勝的時候,百度和微軟則預測了德國的勝利,繼續(xù)保持了淘汰賽以來100%的準確率,而百度更是給出了51%的勝率數(shù)據(jù)。相比之下,微軟和百度的預測正確,也正是對“賠率”理解正確的結果。但不同的是,前者的模型主要依據(jù)了必發(fā)指數(shù)這一歐洲市場最具權威性的賠率指數(shù),而后者在此基礎上,還綜合了歐賠469家公司的賠率數(shù)據(jù)。這一點的優(yōu)劣見仁見智,但理論上引入多個數(shù)據(jù)源能保證更好的健壯性和精確性,在實際預測中,百度在小組賽預測上的準確率,略高于微軟(58.33% vs 56.25%)。

就在9日凌晨的巴德大戰(zhàn)賽果在朋友圈被刷爆的同時,卻很少有人看到,決定預測勝負的,還有一些重要的關鍵變數(shù)。尤其值得一提的是,百度和微軟都是人工智能五巨頭之一(谷歌、百度、微軟、IBM、Facebook),百度還剛剛從谷歌大腦挖來了人工智能三位頂級專家之一吳恩達(另外兩位一在谷歌,一在Facebook),并宣布“百度大腦”已經(jīng)達到2-3歲智力。

這究竟可以幫多大的忙尚未可知,而微軟早在多年前也已經(jīng)涉足人工智能研究,推出的Cortana在市場上受到廣泛好評。目前還不知道雙方是否在預測中啟用了基于深度學習的人工智能組件,如果答案為肯定,那么在“數(shù)據(jù)從哪里來”這一點上,將增添無窮多的變量。

還有一點必須指出,至少截至目前,至少在世界杯比賽的預測結果來看,大數(shù)據(jù)和人工智能的預測結果擔當?shù)闷稹胺浅?孔V”這個形容詞。我相信用不了多少時間,至少在世界杯上,我們也許要準備向“預測”這個詞正式說再見了。
文章為作者獨立觀點,不代表創(chuàng)投分享會立場
知名風險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復星創(chuàng)富|陜西高投|光速創(chuàng)投|富達亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號-2
商務與客服聯(lián)系微信
周宁县| 交口县| 仙居县| 东丽区| 河曲县| 酒泉市| 兴业县| 郑州市| 福建省| 中江县| 乐山市| 阿尔山市| 木兰县| 鹤山市| 土默特左旗| 海淀区| 肇东市| 于都县| 芜湖市| 聂荣县| 星子县| 大洼县| 沁阳市| 东丰县| 安国市| 甘德县| 伊春市| 三河市| 宾川县| 东至县| 新宾| 鲁甸县| 赤壁市| 高密市| 道真| 那曲县| 扶绥县| 土默特左旗| 资讯 | 西充县| 黎城县|