亚洲欧美日韩丝袜另类_欧美va亚洲va国产综合_亚洲香蕉毛片久久网站老妇人_国产成+人+综合+亚洲欧美丁香花

您的位置:首頁>智東西 >

中國最強AI研究院的大模型,為何遲到了

來源:不二科技精選  

出品|虎嗅科技組


(資料圖片)

作者|齊健

編輯|陳伊凡

頭圖|智源大會直播

“OpenAI會再開源大模型嗎?”

當智源研究院理事長張宏江向線上參加2023年智源大會的OpenAI首席執行官Sam Altman問及開源問題時,Sam Altman微笑表示,OpenAI未來會開放更多代碼,但沒有具體的開源時間表。

這樣的討論來自這次智源大會的話題之一——開源大模型。

6月9日,2023年智源大會在北京舉行,座無虛席。在大會現場,“算力”、“大模型”“生態”等與AI相關的詞時不時出現在參會者的聊天中,還有這個產業鏈上的各家公司。

本次大會上,智源研究院發布了全面開源的悟道3.0。包括視覺大模型系列“視界”,語言大模型系列“天鷹”,以及獨創的大模型評測體系“天秤”

大模型開源,就意味著公開模型代碼,供AI開發者研究。悟道3.0中的“天鷹”基礎層語言模型還是一款可商用的模型,每個人都可以免費使用這款大模型。

“目前,國際上有三家機構在AI領域處在前沿地位,微軟的深度合作伙伴OpenAI,谷歌,以及BAAI。”微軟總裁Brad Smith在不久前的一次采訪中,曾提到一家與OpenAI、谷歌齊名的中國“最強”AI研究機構BAAI,這家機構就是北京智源人工智能研究院。這樣一家研究院舉辦的人工智能大會,被眾多業內人士視為行業的風向標。

被微軟總裁高度認可的智源研究院,早在2020年10月已啟動了AI大模型“悟道”項目,并先后發布了悟道大模型1.0和2.0兩個版本。其中悟道2.0官方公布的參數規模達到1.7萬億。彼時,OpenAI公布1750億參數的GPT-3模型也才一年時間。

不過,就是這樣一個AI大模型的先行者,在最近半年的AI大模型熱潮中,卻異常低調。

當大廠和創業公司中,大模型層出不窮時,智源在過去三個多月里,對外一直保持“靜默”狀態,除了4月上旬與Meta的摳圖AI“SAM”撞車的“SegGPT”,幾乎沒有向公眾透露任何有關AI大模型的信息。

對此,AI行業內外的很多人都有疑問,在AI大模型領域領先的智源研究院,為什么在大模型的高潮時刻似乎來遲了?

開源模型要拆了OpenAI的護城河嗎?

“雖然現在的大模型競爭火熱,但無論是OpenAI還是谷歌,都沒有護城河,因為‘開源’正在AI大模型領域崛起。”

在一份谷歌泄露的文件中,谷歌內部研究人員認為,開源模型或將引領大模型發展的未來,這份文件中提到“開源模型的迭代速度更快,可定制性更強,更有私密性,而當免費的、不受限制的替代品質量相當時,人們不會為受限制的模型付費。”這或許也是智源選擇開發開源大模型的原因之一。

目前,開源的商用大模型并不多,智源研究院對目前已發布的部分AI大模型進行了一個調查,在國外發布的39個開源語言大模型中,可商用的大模型有16個。國內已發布的28個大語言模型中,開源模型有11個,其中開源可商用的模型僅有1個。

智源此次發布的大語言模型是開源且可商用的模型,也是目前為數不多的可商用開源大語言模型之一,這也決定了這樣的模型在發布之前需要更加謹慎。

“就智源來說,肯定不希望開源模型太難看,所以會謹慎發布。”智源大會現場的一位AI研究員表示,開源模型難免要被反復驗證,被大量開發者挑bug,為了保證開源模型的質量,智源的研發進度可能被“開源”拖慢了一些。

智源研究院院長黃鐵軍認為,目前我國市場上大模型的開源開放力度遠遠不夠,“我們應該進一步加強開源開放。開源開放也是競爭,真有水平、真有好算法,拿出來評測、去比,才能證明技術水平。

目前國內的大模型技術透明度不高,不少國內廠商在大模型發布之初,都曾被質疑模型是否自研。有人說他們是API調用ChatGPT,也有人說他們用Meta泄露的LLaMA模型+ChatGPT的答案數據訓練而來,開源模型則從源頭上斷絕了這些質疑。

不過,開源模型,提高技術透明度并不是為了自證清白,而是真的要“集中力量辦大事”。據智源數據顯示,天鷹大語言模型每天的訓練成本在10萬元以上,而在國內“百模大戰”甚至“千模大戰”的大勢下,很多行業中都在進行大量不必要的重復訓練,導致的重復開支可能是個天文數字。

而開源模型可以減少重復訓練,對于有模型需求的企業來說,直接利用開源可商用的AI大模型,結合自身數據進行訓練,或許是AI落地和行業應用的最優解。

開源的另一方面考慮,在于前期積累用戶和開發者,以便構建良好生態,并實現未來的商業化。一位國內大模型公司創始人告訴虎嗅,“OpenAI的GPT-1和GPT-2都是開源的大模型,這是為了積累用戶,提高模型的認可度。等到GPT-3的模型能力涌現出來,就會開始考慮商業化,模型也會逐漸走向封閉。因此,開源模型一般不會允許商用,這也是出于后續商業化的考慮。”

但顯然,智源作為非營利的研究機構,在開源問題上,并沒有商業化的考慮。對于智源而言,在模型開源方面,一方面是希望通過對底層模型等開源開放,促進AI大模型行業的科研創新,加速產業落地。另一方面,或許也是想要基于開源模型積累更多的用戶反饋,提升大模型在工程上的可用性。

不過,模型開源也并非“完美”。

一位大廠AI技術總監告訴虎嗅,目前的AI大模型的商業化市場可以分為三層,第一層是完全具備自研模型能力的頭部大玩家,第二層是需要根據特定場景訓練專有模型的企業,第三層則是只需要通用模型能力,使用API接口調用即可滿足需求的中小客戶。

在這個背景下,開源模型對于有自研能力的頭部玩家來說,可以幫助他們省去了大量研發模型的時間和成本。但對于第二層和第三層企業來說,則需要他們自己組建技術團隊去對模型進行訓練和調優,而這對于很多技術實力不那么雄厚的企業來說,反而把落地流程變得更加復雜了,開源對他們來說似乎有一些“免費的東西最貴”的感覺。

此“悟道”已非彼“悟道”

智源的悟道3.0,是一套完全重新開發的大模型系列,這也是其“遲發”的原因之一。

既然已經有了悟道2.0的基礎,智源為什么要重新開發一套模型體系?一方面是模型的技術方向調整,另一方面則是由于模型底層訓練數據的“換血”。

“悟道2.0的研發是在2021年,所以無論是語言模型(如GLM)還是文生圖模型(如CogView),其所基于的算法架構從現在來看是比較早的。在過去一年多,相關領域的模型架構已經有了更多的驗證、或演進。例如,語言模型中采用decoder only的架構,已經證實,加以更高質量的數據,可以在大規模參數的基礎模型中,獲得更好的生成性能。在文生圖模型中,我們改用了基于difussion來進行進一步的創新。所以在悟道3.0中,我們對語言大模型、文圖生成大模型等都采用了這些更新的架構來重新開發。”智源研究院副院長兼總工程師林詠華表示,基于過去模型的研究,悟道3.0在很多方向進行了重構。

另外,悟道3.0還對底層模型的訓練數據進行了全面優化升級,訓練數據中使用了更新的悟道中文數據,包括2021年到現在的,并進行了更嚴格的質量清洗;另一方面,增加了大量的高質量中文,包括中文書籍、文獻等;此外還增加了高質量的代碼數據集等,因此基礎模型也發生了很大的改變。

在此之前,很多國內模型對中文理解能力不行的問題,就源自底層模型訓練的數據不是原生中文。國外的AI大模型,以及部分國內模型都采用了大量國外開源數據進行訓練。其中主要的來源包括著名的開源數據集Common Crawl。

智源對100萬條Common Crawl網頁數據進行分析,可以提取出中文的網頁有39052個。從站源角度來看,可以提取出中文的網站共有25842個,其中IP在中國內地的,只有4522個,占比僅為17%。這樣不僅中文數據的準確性大打折扣,安全性也很低。

“訓練基礎模型的語料很大程度會影響AIGC應用、微調后的模型等內容生成的合規、安全和價值觀。”林詠華表示,天鷹基礎模型的中文能力不是簡單的翻譯,而是把足夠多中文的知識“壓到這個模型里”,它的中文互聯網數據99%來自國內網站,企業可以放心地基于它做持續訓練。

同時,通過大量對數據、數字的精細化處理和清洗,達到用少的數據量來訓練出一樣性能甚至性能更好的模型,這個數據甚至低到30%、40%的數據量就能趕上或者超過現有的開源模型了。

如今看來,這條路徑對于智源來說,也許是個更優解。因為在訓練數據方面,智源與互聯網廠商相比存在短板。互聯網大廠不僅擁有大量來自用戶側的交互數據,還擁有很多可用于訓練的版權數據。就在不久前,阿里達摩院剛剛發布來一款視頻語言數據集Youku-mPLUG,其中的所有內容均來自阿里旗下的視頻平臺優酷。

由于智源沒有深厚的用戶基礎,所以在訓練數據方面,只能通過與版權方協商獲得授權,并通過一些公益數據項目一點點采集積累。

但是,目前智源的中文數據集還只能做到部分開源,其主要原因是,中文數據的版權分散在各個機構手中,目前智源的訓練數據是在多方協調下,獲得的針對開源模型研究開放的使用權限。大部分數據只能應用到智源的模型中,而沒有開放二次使用的權利。

國內很有必要建立針對數據集的產業聯盟,把版權所有方聯合在一起,對人工智能方面的訓練數據進行統一規劃,但這需要頂層設計的智慧。”林詠華告訴虎嗅。

國內大模型行業的黃埔軍校

悟道3.0正在講一個與悟道2.0不同的故事,研發團隊的變化是其中之一。作為AI大模型行業的先驅,智源研究院就像是國內AI大模型的黃埔軍校。上到智源學者,下至基層工程師,在今天的大模型熱潮中,都成了行業里的香餑餑,智源的原始團隊中,也孵化了幾個大模型的創業團隊。

在悟道3.0之前,一個大模型系列是由多個外部實驗室聯合發布的研究成果的組合,而這次的悟道3.0是由智源團隊完全自研的系列模型。

2021年發布的悟道2.0模型,其中包括:文源、文瀾、文匯、文溯。其中,兩個核心模型分別由清華的兩個實驗室主力完成。而如今這兩個團隊都已成立了自己的創業公司,并沿著CPM和GLM的研發路徑形成了自己的獨立產品。

其中,GLM的主力研發團隊清華大學知識工程研究室(KEG),就與智譜AI一同推出了開源模型ChatGLM-6B,并得到了業界的廣泛認可;CPM的主力研發團隊,清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)中的部分成員組成的深言科技,成立一年就受到了各家資本的青睞,今年的兩輪融資中分別出現了騰訊投資、紅杉中國、奇績創壇等基金的身影。

有接近智源研究院的人士告訴虎嗅,自從國內AI大模型升溫以來,智源團隊成為了人才大戰的“圍獵目標”,“整個研發團隊都被其他公司或獵頭盯上”。

當下國內AI大模型行業,最不缺的是錢,最缺的就是人。在獵聘、脈脈、BOSS直聘三個平臺搜索ChatGPT,碩博學歷職位的月薪普遍高于3萬,最高達9萬。“在薪酬方面IT大廠并不會占多少便宜,AI大模型的研發都是高舉高打,創業公司給出的薪酬可能更有競爭力。”西湖心辰COO俞佳對虎嗅表示,人才大戰在AI行業里將會越來越激烈。

“薪酬double,在智源的很多員工看來根本就沒有競爭力。因為現在都是拿著五倍甚至十倍工資來挖人。即使你再有理想,對未來再有規劃,也很難頂住過百萬年薪的誘惑。”一位接近智源的人士告訴虎嗅,由于智源是一家非營利研究機構,薪酬水平很難與互聯網大廠或者是背后有大量資本支持的創業公司相比。

虎嗅從獵頭處了解到NLP(自然語言識別)研究專家的年薪目前起步都會超過100萬。對于一些工作年限長,工資不高的員工來說,面對幾倍的薪水很難不動搖。

不過,從目前智源的公開數據來看,智源研究院的各個核心項目團隊帶頭人,多數還在全職負責智源研究院的研發項目。

悟道3.0的模型全部是智源自己的研究人員開發的,包括天鷹、天秤,以及視界。”林詠華表示,智源研究院目前的研發實力在行業中一直是頂尖的。

關鍵詞:

最新文章
亚洲欧美日韩丝袜另类_欧美va亚洲va国产综合_亚洲香蕉毛片久久网站老妇人_国产成+人+综合+亚洲欧美丁香花

      五月综合激情网| 99久久er热在这里只有精品15 | 91国内精品野花午夜精品| 91精品国产91久久久久久最新毛片 | 久久国产精品无码网站| 91亚洲国产成人精品一区二三| 亚洲欧美日韩国产手机在线| 欧美日韩你懂得| 国产精品国产馆在线真实露脸| 美女视频一区二区三区| www欧美成人18+| 亚洲成人免费电影| 欧美r级电影在线观看| 亚洲一区二区三区精品在线| 不卡av免费在线观看| 一区二区三区在线视频免费 | 久久久久久久精| 欧美中文字幕一二三区视频| 国产精品乱子久久久久| 精品一区二区成人精品| 中文字幕亚洲一区二区av在线| 欧美精品在线视频| 一区二区三区在线播放| 成人av综合在线| 色综合婷婷久久| 中文字幕亚洲一区二区av在线| 国产一区在线精品| 亚洲乱码国产乱码精品精可以看 | 大陆成人av片| 午夜影院在线观看欧美| 国产欧美一区二区精品秋霞影院| 乱中年女人伦av一区二区| 中文字幕欧美日韩一区| 欧美精品久久99久久在免费线| 一区二区三区在线视频免费观看| 成人av资源在线观看| 午夜精品福利一区二区三区av | 国产网站一区二区| 久久精品国产99| 亚洲精品亚洲人成人网在线播放| 精品裸体舞一区二区三区| 日韩国产在线观看一区| 国产精品丝袜一区| 日韩欧美一区在线观看| 日本亚洲视频在线| 日韩毛片视频在线看| 久久久久高清精品| 国产一区91精品张津瑜| 亚洲一二三四久久| 国产精品美女久久久久久久久| 国产成人精品影视| 91激情五月电影| 亚洲精品老司机| 国产校园另类小说区| 欧美一二三四区在线| 奇米影视在线99精品| 亚洲欧美另类在线| 中文字幕+乱码+中文字幕一区| 丁香婷婷综合五月| 欧美午夜电影一区| 亚洲超丰满肉感bbw| 国产精品久久久久婷婷二区次| 久久亚洲精品国产精品紫薇| 国产一区啦啦啦在线观看| 午夜激情一区二区三区| 一区二区三区四区精品在线视频| 久久精品夜色噜噜亚洲a∨| 日韩一卡二卡三卡四卡| 激情文学综合网| 在线观看av不卡| 无码av中文一区二区三区桃花岛| 国产精品久久看| 亚洲国产精品国自产拍av| 99re热这里只有精品免费视频| 欧美人伦禁忌dvd放荡欲情| 欧美96一区二区免费视频| 亚洲一级片在线观看| 亚洲综合一区二区三区| 亚洲欧洲国产日本综合| 亚洲国产电影在线观看| 2017欧美狠狠色| 2019国产精品| 99免费精品视频| 日韩美女天天操| 高清不卡一区二区在线| 日韩一区二区三区四区| 国产美女一区二区| 欧美日韩成人激情| 国产最新精品精品你懂的| 欧美视频完全免费看| 麻豆久久久久久| 欧美中文字幕不卡| 久久国内精品视频| 欧美综合一区二区三区| 蜜乳av一区二区三区| 色婷婷激情久久| 麻豆精品视频在线观看视频| 在线视频一区二区三| 美腿丝袜亚洲一区| 在线免费av一区| 久久99精品一区二区三区 | 一区二区三区中文字幕| 亚洲一区二区综合| 亚洲午夜激情网站| 五月天国产精品| 在线看日韩精品电影| 久久精品国产精品青草| 欧美日韩高清一区二区三区| 国产精品亚洲第一| 日韩欧美久久久| 成人97人人超碰人人99| 久久久久久久久99精品| 久久久国际精品| 亚洲视频 欧洲视频| 亚洲精品国产精品乱码不99| 亚洲一区二区三区影院| 亚洲国产综合在线| 美女网站色91| 91麻豆精品91久久久久同性| 成人精品免费看| 国产午夜精品一区二区三区四区| 日本一区二区高清| 亚洲精选免费视频| 亚洲妇女屁股眼交7| 久久精品国产一区二区三| 91精品国产综合久久蜜臀| 91麻豆福利精品推荐| 国产精品久久久99| 一区二区三区资源| 久久电影网站中文字幕| 欧美一级黄色录像| 97久久超碰国产精品| 国产精品久久久久影院亚瑟| 亚洲激情中文1区| 午夜精品福利在线| 欧美视频一区在线| 91在线一区二区三区| 国产精品美女一区二区三区| 亚洲男同性恋视频| 久久精品国产亚洲高清剧情介绍| 欧美一区二区久久久| 久久久一区二区| 一区二区三区成人| 91福利区一区二区三区| 成人午夜精品一区二区三区| 中文字幕欧美激情一区| 亚洲一区视频在线观看视频| 久久99精品久久久久久| 久久综合资源网| 亚洲人成精品久久久久| 麻豆freexxxx性91精品| 精品1区2区在线观看| 中文字幕一区二区在线观看 | 亚洲三级在线免费观看| 色综合天天做天天爱| 成人免费av资源| 亚洲视频免费在线| 欧洲精品视频在线观看| 99精品久久只有精品| 一区二区在线免费| 精品视频资源站| 久久精品网站免费观看| 性久久久久久久久| 日韩午夜精品电影| 国产精品久久久久久久久动漫| 美女视频一区二区三区| 国产亚洲精品福利| 亚洲va中文字幕| www.99精品| 一区二区三区免费网站| 3atv在线一区二区三区| 中文字幕日本乱码精品影院| 麻豆成人综合网| 中文字幕欧美区| 欧美中文字幕亚洲一区二区va在线| 久久这里只有精品首页| 亚洲福利电影网| 精品国产三级电影在线观看| 一区二区三区免费网站| 成人av在线资源网站| 亚洲成人动漫在线观看| 欧美大白屁股肥臀xxxxxx| 亚洲影视在线播放| av电影一区二区| 亚洲成在人线免费| 精品久久免费看| 亚洲国产精品久久人人爱蜜臀| 成人福利视频在线看| 亚洲电影一区二区三区| 久久久综合九色合综国产精品| 亚洲成人久久影院| 久久久久国产免费免费| 日本视频在线一区| 国产精品久久久久久亚洲毛片| 欧美日韩一区二区不卡| 亚洲欧美成人一区二区三区| 99这里只有精品| 日本系列欧美系列| 亚洲欧洲精品一区二区三区不卡| 欧美日本韩国一区二区三区视频|