來源:不二科技精選
本文來自微信公眾號:XYY的讀書筆記(ID:xiaoyanyan00002),作者:肖儼衍,題圖:由Midjourney生成
(資料圖)
AGI(Artificial general intelligence,通用人工智能)時代的曙光帶來的不僅是新技術的興奮,還有潛在人類危機。“如果AGI比人類還智能,未來還有斷電的方法”。聽起來好像很有道理,如果AGI比人類智能,其一定知道自己的弱點,從而避免人類打擊它的弱點。由此,這個方法很可能是不可行的。
本篇,我們聚焦應該如何設計AGI系統從而避免其對人類生存構成基本危機,避免我們成為猿猴第二(孵化了人類,但自己卻成了“玩偶”)。反言之,忽略了這個問題的AGI路線,要不被人類叫停,要不就會成為巨大風險。
《Human Compatible》這本書的作者Stuart Russell是UC Berkeley大學的計算機系教授,也是著名人工智能教材《Artificial Intelligence: A modern approach》的作者,這本書寫作于2019年,GPT還沒出來,但其從智能的定義談起,談到作者對于AGI風險的辯論,并且提出了一套可行的設計框架,值得一看。
引子:AGI時代的隱憂
設想五個場景,你認為哪個會是人類歷史上最大的事情?
1. 由于其他行星撞擊等事件,人類滅亡;
2. 人類獲得永生;
3. 我們發明了超越光速的飛行器,征服了宇宙;
4. 外星人來臨;
5. 我們發明了超級人工智能AGI。
作者看來,第五個應該是對人類文明最大影響因素,其可能帶來非線性階躍,其包含了1-4事件能夠給人類帶來所有可能性——永生、毀滅、征服等,甚至可能是人類歷史上最后一個事件。AGI時代是否很快就會到來?這一點幾乎很難預測,就像人類發明原子彈的歷史,1933年諾貝爾化學獎得主盧瑟福(Rutherford)說:“任何從原子轉換中獲取能量的想法都是天方夜譚”。然而,6年后,1939年,第一個原子彈類型武器專利在法國發布。
智能的定義。“越智能越好”是AI時代發展的基本綱要,然而智能的定義到底是什么?人類智能的核心是我們能夠基于我們的目標采取相應的行動。類似的,對于機器智能,我們也可以采取類似的目標和行動關聯關系的定義。
然而,機器的目標和人類的目標如何對齊,卻成為AGI發展過程中最核心的問題和風險來源,如果機器的行為基于實現機器的目標,而這個目標與人類的目標相違背,那就可能是災難。當然,你可以簡單將這個目標替換為人類的目標,也即機器的目標是實現人類的目標,然而,人類自己是否真正知道自己的目標?我是誰,我來自哪里,我要去何方,幾乎是人類哲學要解決的終極問題。由于人類的復雜性,目標對齊本身也充滿復雜性。
一、簡述人類的智能和機器的智能
人類智能進化歷史
正如前文所言,一個智能主體核心定義是,基于其感知能力,其能夠基于目標做出對應行動。從這個角度,一個細菌能夠感知外界環境,做出相應反應,其是智能的。
下一步是神經系統誕生,神經能夠通過突觸快速傳播電信號,且通過不斷學習調整參數,神經系統可以培養行動習慣集合,此后大腦誕生。實際上,對大腦底層機制的研究就是人工智能的底層機制,而我們科學研究的進展目前也僅限于大腦神經結構的理解,而對學習、認知、記憶、推理、計劃等一系列行為機制理解很有限——基本靠猜。
大腦反饋系統也廣為人知,大腦傾向于對一些增加多巴胺釋放的行為進行重復(比如吃甜食,比如別人的夸獎),反之則避免一些讓你感到痛苦的動作。這種反饋系統和AI訓練中的強化學習(Reinforcement Lerarning)機制類似。生物進化也和智能相關,DNA不斷迭代和交叉構成物種進化的核心機制(優勝劣汰)。而文明傳承等行為則加速了人類學習的過程(地球歷史上曾經存在過1170億人類,學習的時間就更多了)。
理性決策機制
簡單來講,理性決策是權衡成功的確定性以及獲取的成本。比如,機會A是有20%概率獲得10美元;機會B是有5%概率獲得100美元。前者預期回報是2美元,后者是5美元,所以后者是更優選擇。然而,這個邏輯并不能完全線性外推,比如機會A是100%獲得100萬美元;機會B是1%概率獲得10億美元。大多數人可能會選擇機會A,因為從效用(Utility)角度來看,效應和錢并不是線性關系,對大多數人100萬美元效應和10億美元不是1000倍的關系。
因此,理性決策機制又可以是最大化效用函數。效用理論有很多反對的聲音,比如有人覺得其將人類決策動機簡化為自私和錢;也有人覺得這個效應無法量化,令其很難計算——理性行為并不完全涉及到計算,比如遇到水,你會閉眼睛保護眼睛,其背后并沒有計算,但卻是理性行為;比如,理性決策的載體是什么,是人類自身,還是家庭、部落等;最后,有很多數據證明,人類的決策其實是非理性的。然而,雖然理性人的假設有很多問題,我們在構建AI系統時候卻可以假設人類的偏好是具有一致性的,而對那些不一致的傾向和偏好,AI或許能夠容忍,但是卻很難被AI滿足(善變的部分)。
復雜的是社會
如果這個社會只有1個人和1臺機器,問題可能容易得多。但問題是,地球上有80億人類,有數百個國家和更多民族和不同文化。人類理性的決策將變得更加復雜,類似博弈論(Game Theory,納什均衡)等的核心就是在多人情況下,人類的理性決策會變得不同。
假設A和B在進行踢點球的游戲,A是右腳運動員,其踢向右邊的成功率和概率要更高一點。B則需要提前對A踢球的方向進行判斷才有可能撲出。這里面就會涉及到N層博弈可能性,第一層:“因為A射向右邊概率更高,所以我撲向右邊。”;第二層:“A也知道我知道其更高概率會選擇右邊,所以他會選擇左邊”……無限循環。簡單來講,如果A有理性決策能力,B肯定也知道,因此這個游戲根本就不存在理性決策(股市博弈基本如此)。
機器的智能,以及絕對理性無法實現
要實現AGI,第一步是定義機器智能,第二步是實現它。計算機是人類第一個智能機器,雖然我們已經習以為常。1936年圖靈提出了通用機器的概念——也就是機器不用分計算、翻譯等職能。最早的計算機每秒運算是千次,到2019年超算計算機每秒計算達到10的18次方,這個速度和大腦計算能力差不多(大腦主要是并行計算),但是后者功耗只有前者百萬分之一。
從計算能力角度,量子計算可能是未來提高算力潛在方向。一位MIT教授測算了筆記本尺寸電腦的物理計算極限——每秒10^51次計算。一方面是計算能力有上限,另一方面的世界的復雜性,也即一類指數級別計算問題無法用窮舉法粗暴解題。簡單比如用三種顏色填充地圖,且接壤國家不同顏色問題,如果國家主體有100萬個,則需要2^1000次計算,如果用2019最先進超算需要10^275年來計算,而宇宙歷史目前也只有10^10年。
由于世界的復雜性,我們應該預期不管是人類還是AGI,未來大概率都無法對每個問題找到全局最優解,更多只是找到局部最優解,無法做到絕對理性。
顛覆圖靈測試——人工智能發展路徑歷史
識別機器智能著名的測試是圖靈測試——如果一個機器能夠欺騙人類,說明其已經具備了超人的智能。然而圖靈測試一方面很難操作,另一方面如果機器發展的是另外一個智能體系(跟人類不同)怎么辦呢?因此圖靈測試其實一直不是學界評價機器智能程度的核心方法。
最早的AI方法是基于邏輯規則——即將機器基于信號、既定目的的行為寫出對應的邏輯規則。到1980年代,簡單基于邏輯規則的AI路線證明是不夠的——世界規則是無限的,基于概率論(貝葉斯)的路線開始興起,開啟了Modern AI時代——培養一個針對特定目標的Agent,能夠根據輸入信號做出對應決策。針對Agent培養,環境——目標場景是否是連續,是否可觀察;目標是否可操作;行動是否可預測等等一系列因素,都可以定義AI場景本身的難度。
比如,訓練AI打游戲就難度很高,在任何時點,AI可能有10^50次方個選擇(圍棋只有100個),強化學習等方法運用已經使得AI征服各種高難度游戲(比最頂級人類玩家更厲害)。隨著AI征服越來越難的場景,其也積累越來越多能夠實現AGI的技術和可能性,2023年GPT的橫空出世就是典型(作者寫書的時候還沒出現)。關于AI具體發展歷史參見《【讀書】深度學習發展史:相信和看見》。
二、AGI何時來,會帶來什么影響?
AGI的路徑
AGI何時來是大家最關心的一個問題,然而幾乎也無法回答的問題。一方面,預測很容易錯誤,例如前文說的原子彈。1960年AI萌芽的時候,學術界主流觀點是AGI在20年內就能實現。其次,AGI是否到來本身沒有明確界限和標志,實際上,現在計算機已經在很多維度超越了人類。如果硬要預測,時間可能是5-500年(OpenAI的Altman說是10年內,且看吧)。
從AGI路線來看,作者認為缺乏知識的模型一定不智能,而要學習知識最重要是掌握語言,因此如果一臺機器能夠理解人類語言,其就能夠快速積累知識(GPT恰好就是這個路線,神預測)。然而,作者認為這種路線可能面臨雞和蛋的問題——因為你總的有點理解才能開始積累知識,現在來看GPT幾乎把語言和知識兩個問題合并了,本質上是一個問題——這個很哲學,可能物體本來就是自己的原因,雞和蛋的問題本不存在。
有了知識之后,還要有常識,正像懷特海說的:“人類文明的進步本質是我們潛意識動作模塊化的積累(不需要思考)。”人類能夠根據事物優先級來制定目標和行動計劃,而很多具體行動本身不需要思考。作者認為,這一步對于實現AGI很重要,目前來看從GPT-4的圖片識別來看,其似乎已經具備了一些常識(其知道剪斷掛著鐵球的線,它會落到地上)。但是,博主認為GPT擁有多模態,甚至增加感知世界能力后,這個常識模型可能會更加精進。
AGI實現了會怎樣?
首先,AGI能夠干人類能做的任何事情,數學、編程、研究等。這些工作價值幾何?美國有個調查說,美國人認為如果要讓他們放棄搜索引擎,需要支付給他們1.75萬美元/年,從這個角度AGI版本搜索引擎價值就是幾萬億美元。此外,人和人的大腦并不能聯通,然而機器人AGI卻可以,這一張認知網絡的聯合,一定會產生更加龐大的能力。從學習速度來看,人類可以一周看一本書,然而機器可以在幾小時內看完人類有史以來寫的1.5億本書,這種學習能力無需贅言,而這種超強的學習和思考能力,大概率就能發現我們人類尚未發現的規律——比如治療癌癥的方法。
AGI會有哪些局限性?
一種普遍的錯誤認知是認為AGI會成為“上帝”一樣的存在,即不僅對當下有完美的理解,還包括對于未來。然而,正如前文所說世界中有大量指數級別的復雜問題,AGI也受到物理計算能力的限制,其肯定能比人類找到更優解,但卻不是無限能力。
此外,AGI的研究發現很多情況也受到其他因素限制,比如研發一些藥,其需要臨床測試(需要時間)。當然也可以通過仿真,但是仿真就需要了解清楚每一個生物細節(科學難度很高)。AGI最后的局限性來自于其本身不是人類,他們在預測和理解人類行為時候很可能會碰到困難(比如人類復雜的、非理性方面)。我們人類在理解他人想法的時候,最大的優勢就是我們也是人類,我們可以將心比心,但AGI可能不是。
AGI對就業影響如何?
除了終極的顛覆人類文明外,常見的負面影響包括更沒有隱私,包括致命武器威脅,包括虛假內容誤導人類等。更重要可能對職業的影響,早在亞里士多德的時候,其就指出只要雇主發現一種通過機械實現目標的方法,人們的就業就會受到影響。樂觀派的觀點則認為技術的進步往往會帶來新的就業,比如工業革命。作者給出一個上下半場的解釋,即在技術發展的上半場,其讓很多場景和功能變得可能,其可以增加就業。但是下半場則效率提升到一定幅度后,其肯定對就業有負向影響。用刷墻的毛刷的寬度可以做類比,當毛刷寬度只有頭發絲寬度時候,用其刷墻是不可能的任務,因此就業是0。隨著毛刷寬度不斷增加,到10cm時候,就業規模達到一個高點。此后機械毛刷寬度越來越大,其對就業產生了負向影響(機械刷墻代替)。
當然,需要指出的是,當人們雇傭刷墻工人的花費因為機器人介入減少后,這部分花費可能會花在其他領域,這樣會增加其他領域的就業。另外,技術進步整體增加了生產力,從而能夠讓我們基于同樣的工作享受更多物品和服務。還有一點,技術進步往往利好資本,也就是投資技術形成資產的階層,下面第二張圖顯示1960年代以來技術確實帶來生產效率提升,但是1973年后平均工資卻基本沒變。AGI時代,哪些職業可能比較危險,簡單來說,類似人機互動的職業(比如司機)可能都會被替代,包括白領崗位(操作計算機),外包的職業也是(因為所有外包部分幾乎都是可以模塊化,自動化的)。
最終來說,可能還有價值部分可能就是我們是人類,對人類能夠提供一些人性化的服務。對于人類來說,雖然技術可以提供一切服務,但我們對某些場景,我們還是希望有人類給我們服務,比如教育,雖然AI可以提供很強的個性化教育能力,但是我們可能還是希望有個老師來教我們。對社會而言,UBI(統一最低工資)可能是一種解決方案,可以讓絕大多數人共同享受技術進步紅利(而不是少數人)。如果你需要更高工資,可以去通過給人提供服務來增加收入。
三、機器人會威脅到人類文明嗎?
猿猴怎么看待人類的出現?
人類對于周圍環境的掌控本質來源是人類的智能,由此不難發現“發明一個比人類還聰明的物種”是一種風險很大的行為。1000萬年前,人類從猿猴進化而來,逐步進化到現代社會,猿猴會怎么看待這種行為?如果猿猴能表述自己的想法,這種想法可能會和人面對AGI風險比較類似。
另一種風險是人類過于自信的風險,即使人類能夠給機器灌輸自己的目標,但機器如果足夠智能,其很可能意識到實現這個目標最好的方式是改變人類的目標。這個問題其實比較微妙,皇帝和太監到底是什么關系?真的是皇帝掌控太監么,歷史上有多少太監掌握了皇帝弱點的時候,能夠操縱朝政的?(比如天啟皇帝喜歡做木匠,魏忠賢就專門挑后者做木工活的時候匯報重要事情,后者就會顧不上,說你們看著辦吧)。現實中情況類似內容推薦算法,很可能是通過改變用戶內容消費偏好,從而達到最大化點擊量等目標。
另一個難點是,我們幾乎無法通過簡單地禁止研發AGI來阻止這種風險,其一我們無法停止對于AI的研究(等于限制人們思想),其二是禁止起來也很難,通往AGI的路徑是未知的,我們無法知道我們應該禁止哪條路線,工具AI的發展很可能是通往AGI的路徑,如果禁止AGI就意味著完全禁止工具AI,那人類目前的科技水平要大撤退。
對于AGI的風險,我們也可以聽聽反方的觀點:
完全否定AGI的風險:計算機在計算方面比人類強,馬在運動能力比人強,他們都沒有威脅人類。歷史上,也從來沒出現機器威脅人類的情況。也有人認為AGI完全不可能,或者現在擔憂還太早(楊立昆就認為當下GPT還遠遠稱不上智能,因為其缺乏人類常識模型)。Andrew Ng也說現在擔憂AGI的風險就像擔憂火星上人太多。還有一種說法是我們是專家(比如IBM的人),我們更懂AGI的威脅。
反駁:歷史不代表未來,某個方面智能和AGI也不同。面對AGI的風險,我們早做準備遠遠好過臨時抱佛腳。
即使知道風險,我們也束手無策。比如我們很難控制AI科研,也有人覺得過于談論風險等于忽略AI的好處,也有人認為我們應該對風險保持沉默,他們認為人類文明能夠自然而然處理好這些風險問題。
反駁:實際上,人類對DNA編輯技術的應對(法律禁止),對核武器的應對(無核)都是歷史上對顛覆人類文明歷史的風險應對經驗。
我們不能直接關閉它們嗎?比如建設某些最后措施,能夠在AGI風險前一刻關閉系統。比如我們可以給AI建立一個籠子,比如建設一個Oracle AI,只回答是和不是(限制功能)。還有人覺得我們人類應該和AI合并,通過腦機接口,人類的意識可以輸入AGI,從而實現人機合一(馬斯克搞腦機接口研究可能就是如此吧)。
反駁:這些想法的局限性都是,如果AGI足夠智能,能夠產生自我意識,其就能夠沖破牢籠,防止別人斷電。還有一種提議說每次給機器人下命令都包含一個后綴,比如“幫我沖咖啡同時允許自己不被關閉”,這種方法可能是機器人可能可以保持開關的暢通,但是讓人無法靠近這個開關。
四、一種潛在解決方案
在作者看來,要打造一個始終有利于人類的AGI系統,需要遵守三個原則:
AGI機器的唯一目標是最大化實現人類的偏好。第一條,讓機器無我是最根本的設置,我們要打造一個類似佛教所說的無我,普渡眾生一樣的“佛”。也有很多問題,比如人類真的有明確的、穩定一致的偏好么?比如這么多人,究竟遵從誰的偏好?比如,世界上還有那么多生物、動物呢?
機器最開始對于人類的偏好是不確定的。第二條核心是不能有確定的目標,否則機器可能變成一根筋,最終會導致人類無法對AGI斷電。這點也好理解,對于人也一樣,一根筋的人幾乎無法勸解,但是對未來保持不確定性的人更容易接受別人的看法。
機器學習人類偏好的唯一來源是人類的行為。人的行為是反映人類偏好的唯一證據。可能有人會想到將人類價值觀植入機器,但是這個不好操作,一方面價值觀無法量化,另一方面價值觀千人千面。另一方面是AGI對人類文明的毀滅風險和道德選擇完全不是一個level的問題。這里面問題是,人的邪惡行為機器應該怎么反應?
以上三點其實對做人也很有啟示,比如我們做人不能一根筋,要抱有開放性。比如我們應該更加看重從現實中尋找知識,實事求是,不脫離現實。在作者看來,基于這三條設計AGI系統首先是其足夠的開放性,通用性能夠使得研發者有足夠動力研發這類系統;其次,我們有充足的數據可以讓AGI系統學習人類的偏好。可以用數學定理格式來描述:基于A\B\C機器,以及對應算法和反饋,對于任何類似計算能力和物理能力的機器,這些機器有很高概率能夠提供非常接近人類偏好的、事實上可能的行為。首先,機器無法確保最優解,正如前文所言由于物理世界的復雜性,由此,其提供的是可能性上的最優解。
這里面還有兩個假設,一個是世界的運行規律是一致的,不然就沒法學習;其次是人類對機器的反應是在意的,不然有益的(beneficial)這個定義就沒意義。從偏好角度,需要保證機器學習的是人的底層意圖,而不是機械地模仿人類動作,即使其最開始不知道,但是其底層目標是實現人類的偏好。機器人“無我”還體現在機器人會學習人類每天早晨起來需要咖啡的習慣,而不是學習到“機器自己也需要咖啡”。
從人類選擇中學習偏好——不確定理念很重要
假設機器人Robbie是Harriet的個人助手,其有一個具體任務就是幫助Harriet訂酒店,Robbie并不清楚Harriet的偏好——便宜的還是昂貴的酒店,其選擇的目標效用可能是-40到60,其直接行動平均預期效用是10,其還有一個選擇是關閉自己(效用是0),第三個選擇是等著Harriet給提示——有40%概率,Harriet會關閉Robbie,有60%概率會讓Robbie直接行動。
由此,機器人等Harriet提示再行動,其預期效用是18。這個案例有幾個啟示——Robbie對自己的選擇永遠不是100%確定很重要,這樣其就永遠有被關閉的選項。其次,事實情況下,Robbie等待Harriet提示本質上是對后者一次“騷擾”,對后者增加了一些成本,這個成本越高,機器人越有可能直接行動。
一個潛在問題可能是,機器人Robbie越來越懂Harriet選擇后,其不確定的比例會越來越低,但重要的是其始終不能100%確定。最后,這種不確定性可能會傳遞,也就是即使機器人Robbie開發的機器,可能也會承襲這種對于人意圖不確定性的認知。
AGI需要領會人類意圖
核心是人類和AGI的對話不能簡單理解為確定的命令:比如Harriet在沙漠加油站中,對機器人Robbie說想喝咖啡,但是最近賣咖啡的地方有300km,Robbie的選擇應該是不顧一切去買咖啡嗎?實際上,Robbie應該將Harriet的話理解為后者的偏好的一種提示——他傾向于咖啡類飲料,如果Robbie發現最近咖啡店有300km,其最佳選擇應該是告訴Harriet這個事實。
另一種需要避免的情況是Wireheading——多巴胺的快樂會促使動物跳過行為步驟,直接追求后者快樂(比如通過電擊),機器人也可能。只要AGI足夠智能,其可能會重新編程自己的程序,從而跳過行動步驟,直接獲得reward,甚至操控人類強制后者給自己獎勵。核心還是要區分“reward信號”和“實際的rewards”,前者的積累并不能簡單等同于后者,這樣智能系統就不會這么作弊了。
五、機器人的困惑:人類的復雜性
AGI必須考慮所有人的偏好
首先,人類是各種各樣的。這點其實好辦,因為根據以上定義AGI并不是學習某個人的價值觀,而是可以選擇不同人的偏好,其可以根據不同人的行為來推斷其偏好。此外,考慮到不同偏好人有一定共同規律,機器人可以互相學習和積累認知,這種學習肯定不會從0開始。此外,Robbie應該不僅注重實現Harriet的目標,還應該重視后者的體驗——假設Harriet想登珠峰,Robbie的方案不應該是開啟飛行引擎把Harriet帶上去。比如Robbie要減少Harriet痛苦,其解決方案不應該是讓他消失。更復雜的問題是,社會是由海量的人類組成的,機器人應該遵從誰的偏好呢?(人類通過法律和道德準則來約束每個人的行為)如果Harriet提出一個對他人有害的建議,Robbie應該如何反應?一種方式是將Robbie的行為規范用法律來約束,但是AGI可能會去找各種法律的漏洞(但是不道德的)來實現Harriet的偏好。
因此,Robbie必須考慮其他所有人的偏好來決策其相應的行動,這有點像墨子說的“兼愛”,從效用理論來看,也就是機器人的行為應該是最大化社會整體的福祉(效用),或者每個人的平均福祉(效用)。基于福祉效用的理論也有反對聲音,比如每個人的效用很難量化,更不用談加起來或者計算平均了。還有,超級個體的存在可能會造成偏離,比如人類相對于其他動物,在效用計算時候人類就是超級個體。對于這一點,作者的看法是他覺得效用是可以量化的,但是也要防止機器人Robbie過度“兼愛”,從而持續忽略Harriet的需求的問題。
羨慕嫉妒恨
在正常性善的假設下,人會有同理心,看到別人幸福自己也會覺得幸福。假設有倆人Alice和Bob,Robbie某個行為可能同時對Alice和Bob造成影響,Alice整體效用=Alice效用+C(AB)*Bob效用,這個C(AB)就是Alice有多在意Bob,如果C(AB)是正的,說明Alice真的在意Bob,后者高興他也高興。復雜的情況是C(AB)為負的情況,也即Alice可能嫉妒Bob,后者的痛苦成為了Alice的高興,客觀來講,這種情況在現實世界中,并不少見,任何羨慕嫉妒恨都有可能導致該系數為負。一種解決方案是直接將負數系數變成0,也就是忽略這些負能量,但其實際后果還需要分析。此外,很重要一點是機器人不能簡單學習人類的行為,而是觀察人類的偏好,要能夠出淤泥而不染。
人類的“愚蠢”和非理性
這個其實不太用解釋,人類通常做出違背他們偏好的決策,或者因為短期利益而犧牲長期利益的選擇。此外,人類經常基于感性來做情緒化的決策,因此Robbie必須對情緒化的人類有理解。此外,正如前文所言,人類真的清楚自己的偏好嗎?不管是從認知局限性,還是能力局限性(比如計算能力),人類很多時候都不清楚自己的偏好。當然這點對作者提出AGI體系并沒有什么影響,因為Robbie可以根據人類行為來推斷其偏好,但基于人類非理性的假設,Robbie應該知道這些行為未必能夠反映Harriet的真實偏好。
從心理學看,即使是基于效用最大化,人類也往往基于記憶做出錯誤的決策——因為人類往往只能記得記憶中效用的最大值或者最終值(記住某個瞬間),而不是記住整體效用,或者平均效用。舉個例子,曾經有個實驗有兩個選項,A是人先把手伸進14度的水中60秒,然后伸進15度水30秒;B是直接伸進14度水中60秒。幾乎所有人通過記憶會選擇A,因為人只記得15度那個舒適最高點。這個也好理解,我們往往直接的那些最有記憶點的瞬間(最大值),由此根據記憶做決策是不靠譜的。
機器人改變人類偏好?
人類的認知偏好其實是隨著時間改變的(因此不確定性很重要),如前文所言,機器人為了更容易完成任務,可能會做出改變人類偏好的選擇。這里可能就會涉及到定義哪些改變人類偏好的決策是可以接受的——比如Harriet可能想減肥,Robbie可以做出決策改變Harriet吃甜食的偏好。如果Robbie這些改變人類偏好背后動機是讓人類更長壽、更健康和生活更好,則認為是可以接受的。這里面問題是,美好生活定義是唯一的嗎?我們減少羨慕嫉妒恨的相關系數最終后果可能是什么?
結語:未雨綢繆是必要的
本篇,作者提供一套粗略的約束AGI的框架,但不可否認的是這里面未解決的問題,未知的問題還有很多。比如,機器人Robbie如果開發自己的機器人Robbie II,后者肯定比前者更加智能,Robbie是否會對Robbie II失控?人類通過DNA遺傳基因,我們是不是也要AGI來個DNA(確保服從人類偏好、不確定的態度等是被遺傳的?)。不管怎樣,未雨綢繆,對于人類一定是好的。
本文來自微信公眾號:XYY的讀書筆記(ID:xiaoyanyan00002),作者:肖儼衍
關鍵詞:
關于我們 加入我們 聯系我們 商務合作 粵ICP備2022077823號
創氪網 www.hbftgdzb.com 版權所有 技術支持:廣州中創互聯網信息服務有限公司
投稿投訴聯系郵箱:317 493 128 @qq.com