CNET科技資訊網(wǎng) 3月15日 北京消息(文/周雅):韓國棋手李世石和谷歌AlphaGo大戰(zhàn)圍棋五回合持續(xù)了一周,最終在北京時間3月15號拉下帷幕,李世石以1:4落敗?;仡欉@場人機大戰(zhàn),AlphaGo表現(xiàn)出超強實力。
比賽采用5局3勝制,規(guī)定用時每方2小時,1分鐘讀秒三次。比賽采用中國規(guī)則(是因為AlphaGo以中國規(guī)則為基礎開發(fā)),黑貼3又3/4子(黑貼7目半)。
最終比賽獲勝方將獲得獎金100萬美元。如果AlphaGo獲勝,獎金將捐贈給聯(lián)合國兒童基金會(UNICEF)、STEM教育以及圍棋慈善機構(Go Charity)。雙方5次對決分別在北京時間3月9日、10日、12日、13日、15日進行。
第一局棋是最大的懸念,誰都不知道AlphaGo的棋技有多少進展,然而結果讓人吃驚,AlphaGo竟然在局勢不利的情況下贏局,李世石投子認輸,用時三個半小時。
李世石執(zhí)黑先行,黑棋布局走出了一個新型,AlphaGo的應對不佳,有些吃虧。
中盤階段,AlphaGo似乎意識到了弱勢局面,之后的下法選擇得非常強硬,雙方早早就展開了接觸戰(zhàn)。過剛易折,李世石抓住機會,圍住一塊大空。
取得優(yōu)勢后,李世石的心態(tài)似乎發(fā)生了變化,結果幾個失誤的發(fā)生,讓此前的優(yōu)勢消失殆盡。
雙方在較量3個半小時后,李世石最終投子認負。
業(yè)界一片嘩然。
李世石則在賽后表示,“比賽中有兩件事讓我吃驚,一個是AlphaGo開局下得非常好,第二個是在比賽過程中不斷有一些令我想不到的下法。”
第二場AlphaGo再贏一局。李世石初期下棋謹慎,選擇相對經(jīng)典和保守打法,穩(wěn)打穩(wěn)扎。雙方較量的前3個小時,一直是相互僵持,隨著比賽進入第四個小時,AlphaGo的時間也已耗盡,開始60秒的讀秒。比賽的節(jié)奏再次提速。然而在幾分鐘之后,李世石就宣布認輸。
此次對決,雙方互換黑白,AlphaGo執(zhí)黑對戰(zhàn)李世石。李世石明顯調(diào)整了部署,下得比較平穩(wěn),AlphaGo黑棋在開局形成中國流布局。
在比賽中盤,白棋下出一步罕見的尖沖,讓專家費解,李世石似乎也被自己這一手驚到,陷入“長考”。李世石在應對AlphaGo這一步時花費了十多分鐘。
AlphaGo下法很積極,一直在四處求戰(zhàn),李世石一直在避戰(zhàn)。雙方戰(zhàn)斗進入膠著狀態(tài)。
在比賽進行到三個半小時后,李世石的2個小時計時全部用完,進入讀秒階段,每一手需要在1分鐘內(nèi)落子。
最終在比賽進行到四個半小時后,211手AlphaGo執(zhí)黑中盤勝,李世石宣布認輸。
業(yè)界甚至開始出現(xiàn)“人工智能威脅人類”的聲音。
在前兩場比賽中,李世石沒有選擇“打劫”引起外界巨大爭議,甚至懷疑李世石和谷歌簽訂了某些秘密協(xié)議。谷歌官方進行了辟謠,而李世石的連續(xù)兩次“打劫”相當于作出回應,甚至一度打出一個小高潮。但是到當天16時13分,李世石投子認輸。
李世石執(zhí)黑先行。布局階段,李世石左下掛角后走高中國流,和上盤AlphaGo使用的低中國流針鋒相對,隨后李世石主動在自己勢力范圍挑起主動戰(zhàn)斗。
AlphaGo第12子打入左上角,率先挑起戰(zhàn)斗。
下到白32子,李世石局面落入下風,頻頻長考,時間消耗巨大。
到了白98子,白棋大空收口,柯潔提前宣告李世石失利。
落下第131手,隨后的進程中李世石擺出了一個賴皮劫,隨后還出現(xiàn)了疑似連環(huán)劫,但最終變成了緊氣劫。
第154手,AlphaGo出現(xiàn)首次主動打劫的舉動,讓此前關于不許劫爭的猜測不攻自破。開劫之后,AlphaGo連續(xù)尋找劫材,表現(xiàn)得中規(guī)中矩。李世石無力回天,最終中盤認輸。
李世石的三連敗,預示著100萬美元獎金成一場空。
之前AlphaGo已經(jīng)取得3場比賽的勝利,因此卸下勝負包袱的李世石顯得比之前輕松。李世石在第78手下出“神之一手”戰(zhàn)勝AlphaGo,首次獲勝。
AlphaGo執(zhí)黑先手,開局階段雙方就形成星小目對星小目的局面。
和前幾局對決相比,李世石今天更多次陷入“長考”,耗時太多,在比賽進行到2個半小時后,僅剩下17分鐘,比AlphGo剩余時間足足少了1個小時。
隨后,李世石白78挖,下出一招妙手,成為本場比賽的轉折點。AlphaGo黑93立,下出一步常理上的廢棋,令所有人大惑不解。
圖中1為白78,9為白86。(李世石執(zhí)白)
雖然AlphaGo出現(xiàn)了一次“bug”,但李世石在打吃右側黑子時還是非常謹慎。在比賽進行到3小時20分鐘時。李世石計時全部用完,進入讀秒落子階段。
此后AlphaGo由于判斷局面對自己不利,每步耗時明顯增長,都超出了3分鐘。到3小時40分鐘時,比賽大局已定,AlphaGo投子認輸只剩時間問題,李世石只需要冷靜收官即可獲得勝利。
收官階段,左下角AlphaGo黑159扳再次出現(xiàn)漏洞,黑子沒有繼續(xù)在此處落子,而是到左邊立,導致上一步棋成為“無用功”。
最終,李世石在收官階段發(fā)揮穩(wěn)定,沒有讓AlphaGo占到便宜。李世石獲得對AlphaGo的第一場勝利,雙方總比分變?yōu)?:1。
對于AlphaGo在本次比賽中的79步犯了錯誤,AlphaGo之父、人工智能公司DeepMind創(chuàng)始人哈薩比斯隨后發(fā)布Twitter指出:“李世石下出白78后,AlphaGo自我感覺良好,在程序的“值網(wǎng)絡”(用于評估電腦勝率)中,誤以為勝率達到70%,直到第87步才反應過來。”
“AlphaGo之父”哈薩比斯twitter
在贏了第四盤棋后,李世石信心大增,他甚至提出自己在最后一盤比賽中要執(zhí)黑與AlphaGo過招,“我這次執(zhí)白贏的,我想執(zhí)黑也贏AlphaGo一次。因為AlphaGo執(zhí)白時表現(xiàn)更出色。我希望最后一場執(zhí)黑對陣AlphaGo。”
在3月14日,世界職業(yè)圍棋排名網(wǎng)站GoRatings.org上,中國柯潔位列第一,韓國樸永訓、日本井山裕太分列第二、第三,AlphaGo位列第四,李世石排名第五。
最終回合,與之前的4場比賽不同,這次對決沒有出現(xiàn)一方中盤取勝的情況,雙方一直殺到收官階段。比賽在進行到5小時后,李世石180手投子認輸,AlphaGo以4比1贏得比賽。
李世石執(zhí)黑先行,谷歌AlphaGo執(zhí)白。雙方在棋盤中腹展開廝殺。
當比賽進行到3小時40分時,李世石的耗時全部用完,比賽進入讀秒階段。不過,雙方用時的差距并不大,AlphaGo此時也僅剩余20分鐘。
比賽5小時后,李世石180手投子認輸。
谷歌想做的并不只是一個棋類程序,而是一個通用的智能計算系統(tǒng)。由于圍棋的可能性較多,且無套路可言,就可以強度鍛煉機器的深度學習能力,而非死記硬背。所謂深度學習,簡單來說就是指機器通過深度神經(jīng)網(wǎng)絡,模擬人腦的機制來學習、判斷、決策。如果解決了圍棋問題,谷歌希望能把這套人工智能算法用于災害預測、風險控制、醫(yī)療健康和機器人等復雜領域。
在跟李世石下棋之前,AlphaGo已經(jīng)集中學習了半年,比如谷歌給其輸入了3000萬步人類圍棋大師的走法,讓其自我對弈3000萬局,積累勝負經(jīng)驗,同時它還要在自我對弈的訓練中形成全局觀,并對局面做出評估。
進過上述深度學習后,AlphaGo展示出強大的騾子選擇能力,更可怕的是,隨著訓練的增加,AlphaGo還在進步。
不管最終的結果如何,AlphaGo的學習能力,都給未來創(chuàng)造了更多可能性,無關勝負,這都是一次了不起的挑戰(zhàn),或許,這場“人機圍棋大戰(zhàn)”的最大贏家是人類。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。