說起人工智能,大家可能比較熟悉的是AlphaGo,但在業(yè)界更加受人矚目的是德州撲克人工智能程序——冷撲(Libratus)。在今年年初,Libratus戰(zhàn)勝美國四位頂尖德州撲克大師。那么,Libratus是如何戰(zhàn)勝人類世界冠軍的?
卡耐基梅隆大學計算機系教授、德?lián)銩I之父 Tuomas Sandholm
Libratus之父Tuomas Sandholm教授日前在杉數(shù)科技和鈦媒體主辦的“AI大師圓桌系列”第三場“AI時代,博弈與行為分析”中詳細闡述了Libratus如何戰(zhàn)勝人類世界冠軍。 Libratus使用的這些技術如何服務公眾、社會,如何去創(chuàng)造新的商業(yè)機會。
AI是如何戰(zhàn)勝人類世界冠軍的
德州撲克這個場景下,沒有海量的棋譜,沒有充分公開的完全信息,Tuomas Sandholm教授組織研發(fā)的Libratus系統(tǒng)結合優(yōu)化博弈論和機器學習等算法,是迄今能夠擊敗德?lián)渥铐敿壐呤值奈ㄒ灰环N人工智能系統(tǒng),在戰(zhàn)略推理和戰(zhàn)略思維方面達到了超越人類的水平。
在一對一無限注德州撲克中,游戲中兩個玩家相互對決,在一系列的牌局中測試對方的策略,改善自己的戰(zhàn)術,并且瘋狂地唬牌。在今年一月份,Libratus完勝四個對手,贏取了1776250美元的模擬賭金,打敗了世界上最出色的撲克玩家。人類玩家Dong Kim曾對《連線》雜志說: “今天之前我都沒有認識到它那么強。我覺得我好像在和一個作弊的人打牌,好像它能看到我的牌一樣。我不是在指控它作弊,它就是那么厲害。”
德州撲克,其實是一種非完全信息的博弈,它的難度顯著高于完全信息博弈。Tuomas Sandholm教授團隊研發(fā)的Libratus在一個完全有利于人類棋手的場景設計下,依然以壓倒性的優(yōu)勢,戰(zhàn)勝了人類最頂尖的選手。Tuomas Sandholm教授將海量的博弈場景簡化、抽象,尋找一個近似的納什均衡最終來實現(xiàn)一個基于博弈論的決策。
Libratus包括了三個模塊,分別是賽前的游戲規(guī)則抽取和納什均衡近似,賽中用到的殘局解算(Endgame Solving)以及持續(xù)自我強化。
博弈論中的納什均衡主要指博弈雙方的理性參與者都不會有單獨改變策略的沖動,而該系統(tǒng)中采用納什均衡,使得不論對手用什么樣的策略,都不能取勝。
在前期尋求納什均衡的過程中,采用了CFR算法(Counterfactual Regret Minimization,反事實遺憾最小化)的強化學習。這是一個源自心理學的算法,即“如果當初做了另外一種選擇就好了”的反向思考方式。這種強調試錯的方法可以讓機器自己和自己玩大量的游戲。
通過CFR算法,Tuomas Sandholm向Libratus描述游戲規(guī)則后,耗時幾個月,隨機訓練100萬億手牌,Libratus最終達到了足以挑戰(zhàn)最優(yōu)秀人類選手的水平,還開發(fā)出了一些人類沒有的玩法。
而在殘局解算中,Libratus的改進算法包括考慮對方所犯下的錯誤,盡早開始殘局解算,對手每出一招即實時展開殘局解算(Nested Endgame Solving)等等。
而在持續(xù)自我強化模塊,Libratus在比賽的每晚不是分析對手的問題,而是總結自己當天的主要敗筆。這就好像人類每天總結自己的弱點,再進行針對性的彌補。這樣自己的弱點越來越少,給對手的可乘之機也越來越少。這種主動防守型的打法,最壞的結果就是雙方打成平手,所謂納什均衡追求的就是一種平衡。
打開非完美信息世界之門
上海財經大學交叉科學研究院院長、杉數(shù)科技首席科學家葛冬冬(左),不列顛哥倫比亞大學(UBC)Sauder商學院助理教授丁弋川(右)
Libratus是博弈AI的最新成果,是該領域達到的最新高度。但這并不意味著Libratus就已經完美。Libratus針對的是一對一比賽的場景,主要是納什均衡即針對一對一對場景,在多人博弈場景下納什均衡就不太適用。此外,Libratus針對的是每場重置籌碼的比賽,而人類不重置籌碼的比賽也未必適用。
盡管Libratus還有局限性,但Libratus至少打開非完美信息世界的大門。
目前Libratus已經取得的成就,可以通過機器自動化的方式,在很多商業(yè)場景中幫助人類做出戰(zhàn)略決策和最優(yōu)化策略選擇。這就是人工智能夢寐以求的決策自動化。
Tuomas Sandholm表示,如果機器能夠替代人類做出戰(zhàn)略決策,那么結合深度學習,就可以形成自動化的學習-決策-再學習-再決策的閉環(huán),這才是完整的人工智能算法。
上海財經大學教授、奧數(shù)金牌、杉數(shù)科技科學家何斯邁
“在現(xiàn)在的數(shù)據(jù)化時代,要對數(shù)據(jù)進行量化管理。一個實際調度的管理問題,決策變量就有上百萬個,而且解決的實時性非常高,必須在秒級別把這個問題解決了。我們?yōu)榱苏{度問題,專門設計一個算法,要求在一秒內能解決,像定價、庫存等決策問題,同時還需要考慮顧客行為。顧客行為就得去學,根據(jù)數(shù)據(jù),去仔細研究客戶到底是怎么去做決策,不一定按照書本上的行為模型去做,往往需要結合經濟學、行為性的知識去預測行為。”上海財經大學教授何斯邁說,“用Tuomas Sandholm教授這些框架,用均衡的想法,在商業(yè)活動中去爭取到更大的利潤。”
何斯邁介紹了杉數(shù)科技在新零售行業(yè),特別是收益和庫存管理中應用博弈論和人工智能的例子。
很多國內企業(yè)開始進入數(shù)字化和數(shù)據(jù)化時代,基于數(shù)據(jù)積累要開始量化管理,需要用到博弈AI算法。比如根據(jù)友商價格、顧客價格敏感度、顧客心理價位、季節(jié)性、產品替代及互補性、促銷及拉升效應等多種量價關系要素來進行動態(tài)博弈,解決方案包括使用網絡爬蟲及機器學習來捕捉友商實際價格及分析友商價格策略,分析產品市場定位(主導者/跟隨者/競爭者),再尋找遠期利益與近期利益的動態(tài)平衡點。
何斯邁表示,現(xiàn)在商業(yè)企業(yè)的規(guī)模普遍很大,在一個調度管理問題的實例中,可能涉及的決策變量就有上百萬個,而且對實時性要求非常高,必須在秒級別完成上百萬個決策變量的問題求解。何斯邁一直在杉數(shù)科技進行這方面的工作。
葛冬冬也強調,實際上,對整數(shù)規(guī)劃來說,哪怕只有幾百個變量,求解都非常困難,極端情況下最好的商業(yè)軟件也需要很長時間才能計算出來。然而在杉數(shù)科技等的推動下,特定類型問題中百萬級變量的整數(shù)規(guī)劃問題求解,可以在1秒鐘完成
杉數(shù)這方面的進展,是與斯坦福大學的葉蔭宇教授、喬治亞理工的藍光輝教授、上海財經大學的“Leaves”優(yōu)化實驗室長期艱苦合作,才能實現(xiàn)特定場景下秒級百萬規(guī)模變量的最優(yōu)化求解。
Libratus這樣成熟的博弈AI算法并沒有行業(yè)領域的應用限制,再加上超大規(guī)模最優(yōu)化問題秒級求解的工程化能力,就能在戰(zhàn)略定價、產品組合優(yōu)化、金融、商業(yè)談判、業(yè)務戰(zhàn)略、下一代安全、拍賣、醫(yī)療健康等廣泛的非完美信息場景中,實現(xiàn)機器決策+機器學習的完整人工智能體系。這將對商業(yè)、經濟和整個社會的發(fā)展帶來深遠影響。
博弈AI大時代崛起
清華大學交叉信息研究院青年千人助理教授、博士生導師、計算經濟學研究室主任唐平中
從囚徒困境到智豬博弈再到美女的硬幣,博弈論一再說明一個道理,就是人類的思維不同于機器。特別由于人類的社會化屬性,但凡有兩個人以上的地方就充滿著博弈的思想。因為有人的地方就有競爭,有競爭就有博弈。
唐平中表示,博弈論在西方已經有近90年的歷史,而在中國則是于近5年得到了廣泛的關注和應用。從2009年開始的互聯(lián)網廣告拍賣設計算法,使博弈論在國內經濟界得到了重視,如今國內工業(yè)界對博弈AI的算法也有大量的需求。究其原因,是人們在研究人工智能的時候,發(fā)現(xiàn)僅處理針對機器的算法遠不能滿足實際商業(yè)的需求。現(xiàn)代商業(yè)中往往是“人+機器”的復雜場景,而博弈論恰好是針對人類的智能算法。
葛冬冬介紹說,在杉數(shù)科技從事項目算法開發(fā)與實施的過程,發(fā)現(xiàn)很多現(xiàn)實中的商業(yè)問題不僅僅需要考慮最優(yōu)化,很多時候還需要考慮到人類的行為,這些人類行為將給問題的解決帶來額外的難度。
比如在考慮電商定價的時候,不僅要根據(jù)以前的歷史價格來計算未來的最優(yōu)價格,還要考慮到顧客和競爭對手的反應。當價格低的時候,電商顧客會根據(jù)情況囤積自己的小庫存,便宜就多買、不便宜就少買或不買,同時競爭對手也會實時比價跟隨定價。因此,在新零售等場景中,不僅僅是數(shù)據(jù)驅動,還要考慮復雜情況下的顧客和競爭對手博弈等,這就應用了很多AI技巧。
博弈AI的崛起,正是復雜商業(yè)需求驅動的結果。
責任編輯:朱虹瑾