
近日,人工智能國際頂會 AAAI 2022 正在召開,大會論文獎也陸續公布。AI科技評論獲知,中國科學院自動化所的興軍亮教授團隊獲得 AAAI 2022 的卓越論文獎(Distinguished Paper)!
AAAI 的英文全稱是“Association for the Advance of Artificial Intelligence”(美國人工智能協會)。該協會是人工智能領域的主要學術組織之一,具有一定的學術權威性。
興軍亮團隊此次獲獎的工作是他們所開發的輕量型德州撲克 AI 程序——AlphaHoldem。據介紹,該系統的決策速度較 DeepStack 的速度提升超1000倍,與高水平德州撲克選手對抗的結果表明其已經達到了人類專業玩家水平。
論文名稱:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》
作者團隊:趙恩民,閆仁業,李金秋,李凱,興軍亮
1德州撲克AI的意義
與圍棋任務相比,德州撲克是一項更能考驗基于信息不完備導致對手不確定的智能博弈技術。
德州撲克是國際上最為流行的撲克游戲,由于最早起源于20世紀初美國德克薩斯州而得名。
德州撲克的規則是使用去掉王牌的一副撲克牌,共52張牌,至少2人參與,至多22人,一般參與人數為兩人和十人之間。
游戲開始時,首先為每個玩家發兩張私有牌作為各自的“底牌”,隨后將五張公共牌依次按三張、一張、一張朝上發出。在發完兩張私有牌、三張共有牌、第四張公共牌、第五張公共牌后玩家都可以多次無限制押注,這四輪押注分別稱為“翻牌前”、“翻牌”、“轉牌”、“河牌”。圖1展示了一場德州撲克游戲的完整流程示意。
圖1:兩人無限注德州撲克一次游戲過程示意
經過四輪押注之后,若仍不能分出勝負,游戲進入“攤牌”階段,所有玩家亮出各自底牌并與公共牌組合成五張牌,成牌最大者獲勝。圖2給出了德州撲克不同組合的牌型解釋和大小。
圖2:德州撲克不同牌型大小說明和比較
德州撲克博弈的問題復雜度很大,兩人無限注德州撲克的決策空間復雜度超過10的161次方;其次,德州撲克博弈過程屬于典型的回合制動態博弈過程,游戲參與者每一步決策都依賴于上一步的決策結果,同時對后面的決策步驟產生影響;
另外,德州撲克博弈屬于典型的不完美信息博弈,博弈過程中玩家各自底牌信息不公開使得每個玩家信息都不完備,玩家在每一步決策時都要充分考慮對手的各種可能情況,這就涉及到對手行為與心理建模、欺詐與反欺詐等諸多問題。
研究者認為,由于德州撲克游戲規則又非常簡單且邊界確定,特別適合作為一個虛擬實驗環境對博弈的相關基礎理論方法和核心技術算法進行深入探究。
近年來,國際研究者在德州撲克這一大規模不完美信息博弈問題的優化求解中也取得了長足進步。
比如,之前加拿大阿爾伯特大學和美國卡內基梅隆大學的研究者就設計出 AI 程序 DeepStack 和 Libratus,并先后在兩人無限注德州撲克中均戰勝了人類專業選手,隨后卡內基梅隆大學設計的 Pluribus 又在六人無限注德州撲克中戰勝了人類專業選手。
但目前主流德州撲克AI背后的核心思想是利用反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法逼近納什均衡策略。
具體來說,首先利用抽象(Abstraction)技術[3][7]壓縮德撲的狀態和動作空間,從而減小博弈樹的規模,然后在縮減過的博弈樹上進行CFR算法迭代。
這些方法嚴重依賴于人類專家知識進行博弈樹抽象,并且CFR算法需要對博弈樹的狀態結點進行不斷地采樣遍歷和迭代優化,即使經過模型縮減后仍需要耗費大量的計算和存儲資源。
例如,DeepStack使用了153萬的CPU時以及1.3萬的GPU時訓練最終AI,在對局階段需要一個GPU進行1000次CFR的迭代過程,平均每個動作的計算需耗時3秒。Libratus消耗了大于300萬的CPU時生成初始策略,每次決策需要搜索4秒以上。
這樣大量的計算和存儲資源的消耗嚴重阻礙了德撲AI的進一步研究和發展;同時,CFR框架很難直接拓展到多人德撲環境中,增加玩家數量將導致博弈樹規模呈指數增長。另外,博弈樹抽象不僅需要大量的領域知識而且會不可避免地丟失一些對決策起到至關作用的信息。
2AlphaHoldem是何方神圣?
這個問題也吸引了很多中國研究者,中科院自動化所的興軍亮教授團隊便是其中之一。去年12月,他領導的博弈學習研究組針對德州撲克任務,提出了一種高水平、輕量化的兩人無限注德州撲克AI程序——AlphaHoldem。
不同于已有的基于CFR算法的德州撲克AI,中科院博弈學習研究組所提出的架構是基于端到端的深度強化學習算法(如圖4所示)。
圖4:端到端學習德州撲克AI學習框架
根據團隊介紹,AlphaHoldem采用Actor-Critic學習框架,其輸入是卡牌和動作的編碼,然后通過偽孿生網絡(結構相同參數不共享)提取特征,并將一種改進的深度強化學習算法與一種新型的自博弈學習算法相結合,在不借助任何領域知識的情況下,直接從牌面信息端到端地學習候選動作進行決策。
他們還指出,AlphaHoldem的成功得益于其采用了一種高效的狀態編碼來完整地描述當前及歷史狀態信息、一種基于Trinal-Clip PPO損失的深度強化學習算法來大幅提高訓練過程的穩定性和收斂速度、以及一種新型的Best-K自博弈方式來有效地緩解德撲博弈中存在的策略克制問題。
AlphaHoldem 使用了1臺包含8塊GPU卡的服務器,經過三天的自博弈學習后,戰勝了Slumbot和DeepStack。
每次決策時,AlphaHoldem都僅用了不到3毫秒,比DeepStack速度提升超過了1000倍。同時,AlphaHoldem與四位高水平德州撲克選手對抗1萬局的結果表明其已經達到了人類專業玩家水平。
3團隊部分成員介紹
趙恩民,論文一作。中國科學院自動化研究所模式識別與智能系統專業博士四年級研究生,2018年于清華大學獲得工學學士學位。研究方向為計算機撲克和深度強化學習。
興軍亮,中國科學院自動化研究所研究員、博士生導師、特聘青年骨干,中國科學院大學崗位教授,中國科學院人工智能創新研究院創新專家組專家。興教授2012年畢業于清華大學計算機科學與技術系,獲工學博士學位。
此外,他還是美國電器與電子工程學會(IEEE)高級會員、美國《科學》雜志中國官方公眾號特邀評論員、中國計算機學會(CCF)高級會員、計算機視覺專委會委員。
他的主要研究領域為計算機視覺和計算機博弈。目前已在包括頂級國際期刊如TPAMI、IJCV、AI以及頂級國際會議上如ICCV、CVPR、AAAI、IJCAI上發表論文100多篇,谷歌學術引用超過10000次,出版計算機視覺譯著2部,參與撰寫深度學習領域著作1部、人工智能領域著作1部。
曾獲清華大學計算機系“學術新秀”、“谷歌學者”、多次頂級國際和國內會議最佳論文獎等榮譽和獎勵,以及十余次在人臉識別、車輛識別、視頻識別等國際和國內挑戰賽中獲獎。
目前作為項目和課題負責人承擔多項國家重點項目,研發的視覺感知相關技術在國家廣電總局、華為、微軟等得到了多次驗證應用和落地推廣,取得了良好的經濟效益和社會價值。
近年來主要圍繞深度強化學習相關的智能感知和決策問題,研發了多款針對不同游戲的博弈決策AI,其中研發的星際爭霸AI曾獲2017年IEEE CIG星際爭霸AI第2名,研發的德州撲克AI程序AlphaHoldem勝率超過了目前公開的最好德州撲克AI程序DeepStack,速度提升超過1000倍。開放了學界首個大規模不完美信息博弈平臺OpenHoldem。
關鍵詞: AAAI 2022大獎出爐中科院德州撲克程序Alp
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 m.yjkq2010.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
欧美色综合网_狠狠色狠色综合曰曰_麻豆精品一区二区av白丝在线_久久精品综合一区 91国产免费观看| 欧美日韩一级片在线观看| 成人深夜在线观看| 高清不卡一区二区| 国产成人综合在线播放| 国产a区久久久| 91免费版在线| 欧美精品久久天天躁| 日韩亚洲欧美成人一区| 精品国产乱码久久久久久蜜臀| 亚洲大型综合色站| 奇米影视一区二区三区小说| 国产毛片一区二区| 99re66热这里只有精品3直播| 亚洲国产视频网站| 精品一区二区三区免费视频| 国产乱人伦精品一区二区在线观看 | 美女被吸乳得到大胸91| 国产乱人伦偷精品视频不卡| 99国产精品久久久久久久久久久| 蜜臀av在线播放一区二区三区| 最新欧美精品一区二区三区| 天天色 色综合| 国产suv精品一区二区三区| 在线免费观看日本欧美| www亚洲一区| 亚洲国产精品一区二区久久| 免费成人在线视频观看| jiyouzz国产精品久久| 欧美一区永久视频免费观看| 国产精品私人自拍| 久久er99精品| 欧美日韩不卡一区| ...xxx性欧美| 国产精品亚洲人在线观看| 欧美少妇bbb| 一区免费观看视频| 国产在线不卡一区| 欧美高清精品3d| 最好看的中文字幕久久| 国产精品中文欧美| 日韩欧美电影一区| 日韩中文字幕1| 欧美日本在线看| 亚洲一区视频在线| 色综合久久综合中文综合网| 久久久99久久| 国产酒店精品激情| 欧美成人一区二区| 久久国产三级精品| 日韩一卡二卡三卡| 三级一区在线视频先锋 | 九色综合狠狠综合久久| 激情图片小说一区| 亚洲成av人片在www色猫咪| 精品一区二区国语对白| 中文字幕日韩一区二区| 国模大尺度一区二区三区| 宅男噜噜噜66一区二区66| 亚洲精品成a人| 在线观看91视频| 一级做a爱片久久| 一本色道久久加勒比精品| 亚洲欧洲另类国产综合| 成人91在线观看| 亚洲女同ⅹxx女同tv| 91丨porny丨国产| 一区二区三区美女| 欧美在线观看一区| 樱花影视一区二区| 精品视频在线免费看| 午夜免费欧美电影| 欧美天堂一区二区三区| 亚洲mv在线观看| 欧美一级理论性理论a| 精彩视频一区二区| 国产精品色哟哟| 色美美综合视频| 亚洲男同1069视频| 欧美精品日日鲁夜夜添| 国产亚洲精品bt天堂精选| 亚洲www啪成人一区二区麻豆| 国产欧美日韩另类视频免费观看| 91精品久久久久久久91蜜桃| 亚洲欧美一区二区三区孕妇| 国产精品18久久久久久久久| 中文字幕日韩av资源站| 日韩亚洲欧美高清| 欧美影院一区二区三区| 色综合久久中文综合久久牛| 黄色日韩网站视频| 亚洲一级在线观看| 亚洲免费av高清| 欧美变态tickle挠乳网站| 精品美女在线播放| 1024亚洲合集| 国产成人8x视频一区二区| 亚洲日本va午夜在线影院| 亚洲一二三四久久| 亚洲一区日韩精品中文字幕| 激情图片小说一区| 成人免费视频视频| 精品视频在线免费观看| 欧美一区国产二区| 久久久久99精品一区| 五月天网站亚洲| 国产超碰在线一区| 久久网站最新地址| 亚洲视频在线一区观看| 91久久国产最好的精华液| 国产超碰在线一区| 欧美日韩国产综合久久| 欧美亚洲动漫制服丝袜| 日韩欧美不卡一区| 日本亚洲最大的色成网站www| av激情综合网| 欧美一区二区精品在线| 自拍偷自拍亚洲精品播放| 日韩成人精品在线| 国产精品一品二品| 日韩欧美黄色影院| 亚洲综合一区在线| 精品国产91久久久久久久妲己| 国产偷国产偷精品高清尤物| 亚洲国产cao| 欧美色精品在线视频| 久久国产三级精品| 一区二区在线观看免费视频播放| 欧美男女性生活在线直播观看| 99久久国产综合色|国产精品| 国产欧美1区2区3区| 666欧美在线视频| 在线观看中文字幕不卡| 色婷婷国产精品| 色婷婷av久久久久久久| 色综合婷婷久久| 91精品办公室少妇高潮对白| 97久久精品人人做人人爽| 99久久精品国产麻豆演员表| 丰满亚洲少妇av| a级高清视频欧美日韩| 成人18精品视频| 色综合久久66| 欧美日韩三级在线| 欧美日韩国产精选| 欧美男人的天堂一二区| 91精品国产色综合久久| 日韩欧美资源站| 国产亚洲污的网站| 国产精品黄色在线观看| 亚洲精品视频免费看| 一区二区三区精品视频| 亚洲福利一区二区三区| 日韩电影免费一区| 精品一区二区三区在线播放 | 久久久精品综合| 欧美xxxxxxxxx| 久久久精品免费免费| 中文在线一区二区| 亚洲精品亚洲人成人网| 午夜精品一区在线观看| 免费人成网站在线观看欧美高清| 国产精品不卡视频| 亚洲综合自拍偷拍| 亚洲一区二区三区在线看| 亚洲bdsm女犯bdsm网站| 国产精品影视在线观看| 99精品国产一区二区三区不卡| 久久精品国产**网站演员| 国产成人亚洲综合a∨婷婷| 成人精品gif动图一区| 欧美在线小视频| 亚洲精品一区二区三区福利 | 99精品桃花视频在线观看| 欧美体内she精视频| 欧美一区二区三区喷汁尤物| 欧美精彩视频一区二区三区| 一区二区三区精品久久久| 国内外成人在线| 91成人免费网站| 久久久久国产一区二区三区四区| 91精品国产欧美一区二区18| 久久精品一区二区| 亚洲福利视频三区| www.亚洲人| 久久免费国产精品| 日韩和欧美一区二区| 成人动漫一区二区在线| 日韩欧美一级二级| 亚洲伊人色欲综合网| 成人综合在线观看| 精品日韩一区二区三区| 香蕉成人啪国产精品视频综合网 | 一区二区三区av电影| 国产高清不卡二三区| 日韩视频中午一区| 亚洲国产一区二区三区青草影视| 中文字幕在线一区| 久久99国产精品久久| 在线观看91av|