《星海2》被AI屌虐了？四大理由告訴你：其實贏的是人類

2019年01月30日 17:45

既上次挑戰職業圍棋界的AlphaGo後，Google旗下人工智慧部門DeepMind再度推出「Alphastar」，這次宣示要來挑戰知名戰略遊戲《星海爭霸2》，在25日線上直播時，「AlphaStar」最終就以10比1大勝人類選手，唯一讓人類勝的一盤還是初階版AlphaStar，讓許多人對於這消息感到絕望：

「難道人類從此註定輸給電腦了嗎？」

新聞一出後，在各大論壇都掀起了激烈的討論，有部分玩家與評論者對於這樣的結論有些質疑，甚至有很多人直接批判這樣的比賽內容：

「AlphaStar沒有比人類聰明，他們完全是靠高速操作來取勝。」

[廣告] 請繼續往下閱讀

▼在直播影片的下方，很多人討論AlphaStar不合理的高速操作

電腦操作本來就比人快啊？難道這場「人機大戰」是一場不公平的對決嗎？

事實上為了競賽的公正性，以顯示人工智慧可以在「純思考」上勝過人類，DeepMind團隊在AI代碼上加入了一些與人類相近的限制，例如像是一樣有戰爭迷霧（電腦不清楚玩家的資訊）、每秒操作指令限制（APM上限）、以及決策的反應延遲等等。但即使加上了這些條件，看到了AlphaStar以10比1的成績血洗人類，我們仍不能說人工智能已經完全可以取代人類了，下面就整理出來了這次對決中，很多人會忽略的四大事實：

事實1：AlphaStar現在只會神族打神族

[廣告] 請繼續往下閱讀

如果你仔細觀察直播影片可以發現，比賽的場地都是一模一樣，都是選用「匯龍島」這張地圖，然後不論是「Mana」還是「TLO」兩位選手皆使用神族來對抗AlphaStar的神族。在直播中DeepMind的主講者講出了最重要的理由，那就是雖然有等同於人類200年的學習份量，但AlphaStar只有專精於神族對神族的對戰方式。

要知道在《星海爭霸2》所有1V1對戰的排列組合中，這僅僅是6種組合的其中一種，相對來說選手在職業生涯中，幾乎是必須從3~6種對戰組合中「不挑食地」學習，甚至還要摸清楚各種地圖的種族特性。

對像是專精蟲族的「TLO」這樣的玩家，在職業生涯時，大部分時間都是在練習蟲族的各種打法，因此當DeepMind要求他玩神族時，我們必須知道，這並不能表現他真實的職業水準。

[廣告] 請繼續往下閱讀

在這種對選手不利(不能選自己擅長的)，AlphaStar又專挑他自己的最擅長的場地中，AI贏了並沒有甚麼好說嘴的，除非你願意讓人類挑戰使用他們擅長的種族，並且隨機選地圖，這樣AlphaStar贏才是較有公信力的說法。

▼許多選手都有像「蟲王」之類的稱號，職業選手為了登峰造極，通常會特化訓練一種類型（圖為SEN）

事實2：AlphaStar沒開圖，但也不用切螢幕

一般玩家怎麼打星海的？由於遊戲顯示的區域只包含了大地圖中的一小部分，所以要看到地圖上的其他地方，要透過各種熱鍵操作與小地圖來回切換，這才能觀察戰場上的一舉一動；

但是在這點上，AlphaStar卻完全不同了，它們可以一次看到最遠距離的視野，不用移動螢幕就能看到除了迷霧以外的所有地方。那這樣的設計會造成什麼樣的誤差呢？

那就是人類在操作上需要頻繁的視角切換，在AI身上是根本不需要的，它們大可以把這些操作「省下來」。但針對這點DeepMind也有作解釋了，他們回覆說，AlphaStar在地圖頻率的關切度上也有所限制，跟職業選手一樣是每分鐘30次，也就是說，就算地圖上發現了什麼新東西，AI也需要花0.05秒的時間來反映。

但跟人類必須小心翼翼的監控地圖，這種AI可以一次看清遊戲地圖的感覺，令人感覺有作弊的嫌疑。

▼即使Google用熱點圖不斷證明，查看地圖有延遲，但仍然不免受到質疑

事實3：最後一場，需要切換畫面的AI輸了

DeepMind為了避免這種上述的「切畫面」嫌疑，在第十一場就拿出了一支必須像人類那樣切畫面操作的AI，但跑運算的天數只有7天（前面讓人類慘敗的是14天），而結果就是這個年輕的AlphaStar被選手MANA輾壓過去了。

我們不知道究竟是因為該版的AlphaStar強度不夠，還是因為加入切畫面的視角限制所導致，但結論就是，前面AlphaStar贏的10場並不能代表什麼，充其量只是展示在接近人類限制條件下，透過不斷的深度學習，人工智慧能夠作出很厲害的遊戲博弈行為。

但根本沒辦法證明，人工智能在「純思考」上能打敗人類。

▼在第11場時，人類終於拿下首勝，但是是初階AlphaStar

事實4：給AlphaStar的手速限制機制，反而讓它透過深度學習來作弊

像是在星海這樣需要大量群體控制的戰略遊戲，如果選手每秒能操作的次數越多，那麼控制精細度就能越扯，能大大增加遊戲中的獲勝機率。

因此在星海或是魔獸爭霸等等的電競比賽中，像是APM（每分鐘操作數）這樣都是業界長來敘述電競選手程度的指標。

在人類世界裡，頂尖職業選手的平均APM也就是300上下。2017年與2018年的《星海2》世界冠軍Serral在比賽中甚至能提高到500以上，但也不能長時間維持，最高能爆發到800以上，但只有持續不到一秒的時間，而且該操作有可能是無效操作（瞎按、按了又取消，對遊戲沒幫助）。

▼Serral的手速令人眼花撩亂

但在AlphaStar的比賽影片中，我們卻能看到它在某些時候維持在1000以上的APM，爆發時甚至來到了1500以上，這是人類完全無法企及的速度，你想想看APM1500代表什麼，就代表一秒鐘25次的操作，這對人類來說根本不可能達成。

但講到這也許就會有人說了，Deepmind團隊不是有對AlphaStar限制手速嗎？那為什麼允許AlphaStar作出這樣的作弊行為？事實上與人很像，AlphaStar在操作遊戲時，APM一樣是會浮動的，就像人類那樣無法每分每秒都用最快的速度操作，因此Deepmind團隊實際上給AlphaStar的限制是在平均APM上。

在限制了平均APM之後，在經過多次的深度學習，AlphaStar就發展出了一套能飆APM又能符合規定的方式，那就是在平常時，盡可能地壓低APM，然後在拉兵控資源、對戰時，盡可能地爆發誇張的APM，也就是說，AlphaStar學到了如何把APM「額度」存起來了。

▼AlphaStar平常都很低調，但遇到戰鬥可以瞬間把APM拉起來，剎那間就能比人類還快

在對戰中，那怕是某一場小戰役，極高APM的爆發可能就是導致「少兵贏多兵」的關鍵，正是這點些微的設計失誤，使得AlphaStar在前十場比賽中所向披靡，讓星海選手都目瞪口呆「我有這麼多兵，為什麼卻被一小堆追獵者打爆了？」Mana在訪談中如此說著。

這樣講起來，其實這場DeepMind舉辦的星海比賽，其實根本不能證明什麼吧？

但其實並不是這樣的，撇開跟人類的勝負關係後，我們能看到AlphaStar作出了很多人類不會作的決策，例如一開始採礦單位生到了24個，或者生產戰鬥兵種幾乎都是「追獵者」；就跟當年掃蕩圍棋世界的AlphaGo一樣，常常會下出當下不覺得怎樣的一手，但往往發展到後面，那一子卻成了非常重要的關鍵。

因此對於《星海爭霸2》這個遊戲來說，至少是拓展了人類思維上的不足之處，我們從沒想過可以這樣玩。而Deepmind的目的也不是要贏過人類，而是透過這樣複雜的遊戲，來研究類似「賽局理論」不透明狀態下的博弈，藉此把AI的學習效果延伸到更複雜的領域。

正因為《星海爭霸2》是如此複雜，所以DeepMind團隊才需要如此簡化AlphaStar的學習流程，證實透過這樣的方式，可以改善出更強的思考能力。這場直播並不是告訴我們，人類從此就一敗塗地了，反而完全相反，顯示了AlphaStar的稚嫩，與人類思考模式的堅韌性。

在2月15日時，還會有另外一個人工智慧團隊去挑戰世界冠軍Serral，但這次並不是來自於AI的自我學習，而是來自人工撰寫的腳本。

至少我們可以說，像是圍棋界柯潔與AlphaGo那樣史詩級、毀天滅地的戰鬥還沒有到來， AI目前還沒有辦法在同條件下，完全取代這些電競選手。

延伸影音...