既上次挑戰職業圍棋界的AlphaGo後,Google旗下人工智慧部門DeepMind再度推出「Alphastar」,這次宣示要來挑戰知名戰略遊戲《星海爭霸2》,在25日線上直播時,「AlphaStar」最終就以10比1大勝人類選手,唯一讓人類勝的一盤還是初階版AlphaStar,讓許多人對於這消息感到絕望:
「難道人類從此註定輸給電腦了嗎?」
新聞一出後,在各大論壇都掀起了激烈的討論,有部分玩家與評論者對於這樣的結論有些質疑,甚至有很多人直接批判這樣的比賽內容:
「AlphaStar沒有比人類聰明,他們完全是靠高速操作來取勝。」
▼在直播影片的下方,很多人討論AlphaStar不合理的高速操作
電腦操作本來就比人快啊?難道這場「人機大戰」是一場不公平的對決嗎?
事實上為了競賽的公正性,以顯示人工智慧可以在「純思考」上勝過人類,DeepMind團隊在AI代碼上加入了一些與人類相近的限制,例如像是一樣有戰爭迷霧(電腦不清楚玩家的資訊)、每秒操作指令限制(APM上限)、以及決策的反應延遲等等。但即使加上了這些條件,看到了AlphaStar以10比1的成績血洗人類,我們仍不能說人工智能已經完全可以取代人類了,下面就整理出來了這次對決中,很多人會忽略的四大事實:
事實1:AlphaStar現在只會神族打神族
如果你仔細觀察直播影片可以發現,比賽的場地都是一模一樣,都是選用「匯龍島」這張地圖,然後不論是「Mana」還是「TLO」兩位選手皆使用神族來對抗AlphaStar的神族。在直播中DeepMind的主講者講出了最重要的理由,那就是雖然有等同於人類200年的學習份量,但AlphaStar只有專精於神族對神族的對戰方式。
要知道在《星海爭霸2》所有1V1對戰的排列組合中,這僅僅是6種組合的其中一種,相對來說選手在職業生涯中,幾乎是必須從3~6種對戰組合中「不挑食地」學習,甚至還要摸清楚各種地圖的種族特性。
對像是專精蟲族的「TLO」這樣的玩家,在職業生涯時,大部分時間都是在練習蟲族的各種打法,因此當DeepMind要求他玩神族時,我們必須知道,這並不能表現他真實的職業水準。
在這種對選手不利(不能選自己擅長的),AlphaStar又專挑他自己的最擅長的場地中,AI贏了並沒有甚麼好說嘴的,除非你願意讓人類挑戰使用他們擅長的種族,並且隨機選地圖,這樣AlphaStar贏才是較有公信力的說法。
▼許多選手都有像「蟲王」之類的稱號,職業選手為了登峰造極,通常會特化訓練一種類型(圖為SEN)
事實2:AlphaStar沒開圖,但也不用切螢幕
一般玩家怎麼打星海的?由於遊戲顯示的區域只包含了大地圖中的一小部分,所以要看到地圖上的其他地方,要透過各種熱鍵操作與小地圖來回切換,這才能觀察戰場上的一舉一動;
但是在這點上,AlphaStar卻完全不同了,它們可以一次看到最遠距離的視野,不用移動螢幕就能看到除了迷霧以外的所有地方。那這樣的設計會造成什麼樣的誤差呢?
那就是人類在操作上需要頻繁的視角切換,在AI身上是根本不需要的,它們大可以把這些操作「省下來」。但針對這點DeepMind也有作解釋了,他們回覆說,AlphaStar在地圖頻率的關切度上也有所限制,跟職業選手一樣是每分鐘30次,也就是說,就算地圖上發現了什麼新東西,AI也需要花0.05秒的時間來反映。
但跟人類必須小心翼翼的監控地圖,這種AI可以一次看清遊戲地圖的感覺,令人感覺有作弊的嫌疑。
▼即使Google用熱點圖不斷證明,查看地圖有延遲,但仍然不免受到質疑
事實3:最後一場,需要切換畫面的AI輸了
DeepMind為了避免這種上述的「切畫面」嫌疑,在第十一場就拿出了一支必須像人類那樣切畫面操作的AI,但跑運算的天數只有7天(前面讓人類慘敗的是14天),而結果就是這個年輕的AlphaStar被選手MANA輾壓過去了。
我們不知道究竟是因為該版的AlphaStar強度不夠,還是因為加入切畫面的視角限制所導致,但結論就是,前面AlphaStar贏的10場並不能代表什麼,充其量只是展示在接近人類限制條件下,透過不斷的深度學習,人工智慧能夠作出很厲害的遊戲博弈行為。
但根本沒辦法證明,人工智能在「純思考」上能打敗人類。
▼在第11場時,人類終於拿下首勝,但是是初階AlphaStar
事實4:給AlphaStar的手速限制機制,反而讓它透過深度學習來作弊
像是在星海這樣需要大量群體控制的戰略遊戲,如果選手每秒能操作的次數越多,那麼控制精細度就能越扯,能大大增加遊戲中的獲勝機率。
因此在星海或是魔獸爭霸等等的電競比賽中,像是APM(每分鐘操作數)這樣都是業界長來敘述電競選手程度的指標。
在人類世界裡,頂尖職業選手的平均APM也就是300上下。2017年與2018年的《星海2》世界冠軍Serral在比賽中甚至能提高到500以上,但也不能長時間維持,最高能爆發到800以上,但只有持續不到一秒的時間,而且該操作有可能是無效操作(瞎按、按了又取消,對遊戲沒幫助)。
▼Serral的手速令人眼花撩亂
但在AlphaStar的比賽影片中,我們卻能看到它在某些時候維持在1000以上的APM,爆發時甚至來到了1500以上,這是人類完全無法企及的速度,你想想看APM1500代表什麼,就代表一秒鐘25次的操作,這對人類來說根本不可能達成。
但講到這也許就會有人說了,Deepmind團隊不是有對AlphaStar限制手速嗎?那為什麼允許AlphaStar作出這樣的作弊行為?事實上與人很像,AlphaStar在操作遊戲時,APM一樣是會浮動的,就像人類那樣無法每分每秒都用最快的速度操作,因此Deepmind團隊實際上給AlphaStar的限制是在平均APM上。
在限制了平均APM之後,在經過多次的深度學習,AlphaStar就發展出了一套能飆APM又能符合規定的方式,那就是在平常時,盡可能地壓低APM,然後在拉兵控資源、對戰時,盡可能地爆發誇張的APM,也就是說,AlphaStar學到了如何把APM「額度」存起來了。
▼AlphaStar平常都很低調,但遇到戰鬥可以瞬間把APM拉起來,剎那間就能比人類還快
在對戰中,那怕是某一場小戰役,極高APM的爆發可能就是導致「少兵贏多兵」的關鍵,正是這點些微的設計失誤,使得AlphaStar在前十場比賽中所向披靡,讓星海選手都目瞪口呆「我有這麼多兵,為什麼卻被一小堆追獵者打爆了?」Mana在訪談中如此說著。
這樣講起來,其實這場DeepMind舉辦的星海比賽,其實根本不能證明什麼吧?
但其實並不是這樣的,撇開跟人類的勝負關係後,我們能看到AlphaStar作出了很多人類不會作的決策,例如一開始採礦單位生到了24個,或者生產戰鬥兵種幾乎都是「追獵者」;就跟當年掃蕩圍棋世界的AlphaGo一樣,常常會下出當下不覺得怎樣的一手,但往往發展到後面,那一子卻成了非常重要的關鍵。
因此對於《星海爭霸2》這個遊戲來說,至少是拓展了人類思維上的不足之處,我們從沒想過可以這樣玩。而Deepmind的目的也不是要贏過人類,而是透過這樣複雜的遊戲,來研究類似「賽局理論」不透明狀態下的博弈,藉此把AI的學習效果延伸到更複雜的領域。
正因為《星海爭霸2》是如此複雜,所以DeepMind團隊才需要如此簡化AlphaStar的學習流程,證實透過這樣的方式,可以改善出更強的思考能力。這場直播並不是告訴我們,人類從此就一敗塗地了,反而完全相反,顯示了AlphaStar的稚嫩,與人類思考模式的堅韌性。
在2月15日時,還會有另外一個人工智慧團隊去挑戰世界冠軍Serral,但這次並不是來自於AI的自我學習,而是來自人工撰寫的腳本。
至少我們可以說,像是圍棋界柯潔與AlphaGo那樣史詩級、毀天滅地的戰鬥還沒有到來, AI目前還沒有辦法在同條件下,完全取代這些電競選手。
延伸影音...