圖源:圖蟲創(chuàng)意
這兩天,中國人工智能初創(chuàng)公司深度求索(DeepSeek)成為全球科技圈熱議的主角。
就在剛剛過去的24小時內(nèi),DeepSeek AI智能助手同時登頂中美iOS免費應(yīng)用排行榜第一,刷爆國內(nèi)外社交平臺,應(yīng)用更是多次被“擠”到宕機(jī)。
美股半導(dǎo)體股受此沖擊,芯片巨頭英偉達(dá)(NVIDIA)股價歷史性暴跌,納斯達(dá)克綜合指數(shù)大幅下跌。
就在今日(1月28日除夕)凌晨,DeepSeek在GitHub平臺發(fā)布了Janus-Pro多模態(tài)大模型,進(jìn)軍文生圖領(lǐng)域。像是送給科技圈的新春禮物。
DeepSeek掀起的聲量也受到了各界大佬高度關(guān)注。
英偉達(dá)發(fā)言人回應(yīng)時代財經(jīng)記者稱:“DeepSeek是一項卓越的人工智能進(jìn)展,也是測試時擴(kuò)展的絕佳范例。”他提到,推理過程還“需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)”。
OpenAI首席執(zhí)行官薩姆·奧爾特曼發(fā)文稱“有了新的競爭對手令人振奮”;美國總統(tǒng)特朗普在佛羅里達(dá)州邁阿密發(fā)表講話時,談到DeepSeek的出現(xiàn)“給美國相關(guān)產(chǎn)業(yè)敲響了警鐘”,美國“需要集中精力贏得競爭。
美股科技股巨震,DeepSeek再發(fā)新模型
美股1月27日收盤,納斯達(dá)克綜合指數(shù)下跌3.07%,標(biāo)準(zhǔn)普爾500指數(shù)跌1.46%,道瓊斯工業(yè)平均指數(shù)逆勢上漲0.65%。據(jù)外媒報道,道瓊斯市場數(shù)據(jù)顯示,當(dāng)?shù)貢r間周一的“市場大屠殺”總共使股市市值蒸發(fā)了約1萬億美元。
其中,歐美科技股重挫。AI龍頭英偉達(dá)暴跌16.97%,單日市值蒸發(fā)5890億美元,創(chuàng)史上最大單日個股市值蒸發(fā)紀(jì)錄。一夜之間,英偉達(dá)創(chuàng)始人黃仁勛的身家大幅縮水210億美元。
此外,甲骨文下跌13.78%,超微電腦下跌12.49%,芯片制造商博通下跌17.4%,臺積電跌13%。當(dāng)日,芯片指數(shù)大跌超9%。
市場分析認(rèn)為,核心原因是中國人工智能初創(chuàng)公司深度求索(DeepSeek)的最新突破,動搖了美國科技行業(yè)的“無敵”地位。
消息面上,1月27日,DeepSeek應(yīng)用登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT。這距離其1月20日新模型DeepSeek-R1的發(fā)布,才過去短短一周時間。
就在1月28日,DeepSeek又拋出的新模型,再次引發(fā)市場高度關(guān)注。
Github社區(qū)信息顯示,Janus-Pro是去年發(fā)布的Janus的高級版本,可顯著提高多模式理解和視覺生成。相比此前的Janus,Janus-Pro優(yōu)化的訓(xùn)練策略、擴(kuò)展的訓(xùn)練數(shù)據(jù)和擴(kuò)展到更大的模型尺寸。通過這些改進(jìn),Janus-Pro在多模態(tài)理解和文本到圖像的指令遵循能力方面都取得了顯著的進(jìn)步,同時也增強(qiáng)了文本到圖像生成的穩(wěn)定性。
在文生圖GenEval和DPG-Bench基準(zhǔn)測試中,Janus-Pro-7B的準(zhǔn)確率較前代Janus大幅提高,準(zhǔn)確率測試結(jié)果分別為80%和84.2%,高于包括OpenAI DALL-E 3在內(nèi)的其他對比模型,Janus的準(zhǔn)確率分別為61%和79.7%。
簡單來說,Janus-Pro模型既能讓AI讀圖(基于SigLIP-L),又能讓AI生圖(借鑒LlamaGen),分1.5B和7B兩個大小。而要知道的是,GPT-4o的圖片生成多模態(tài)模型至今沒開放。
Janus與Janus Pro 7B生成圖像的對比,來源:DeepSeek技術(shù)報告
DeepSeek對AI行業(yè)意義方面,dropbox AI 副總裁 Morgan Brown曾做了一系列總結(jié):“DeepSeek 突然出現(xiàn)并說,如果我們花 500 萬美元做這件事會怎么樣?他們不只是說說而已——他們真的做到了。他們的模型在許多任務(wù)上匹敵甚至擊敗了 GPT-4 和 Claude。”“關(guān)鍵在于,DeepSeek 的團(tuán)隊不到 200 人,但 Meta 的團(tuán)隊僅薪酬就超過了DeepSeek 的整個培訓(xùn)預(yù)算……而且他們的模型并不那么好。”
最先感受到DeepSeek帶來的壓力的是硅谷。
Information網(wǎng)站消息稱,目前臉書母公司Meta已成立了四個專門研究小組來研究量化巨頭幻方量化旗下的國產(chǎn)大模型DeepSeek的工作原理,并基于此來改進(jìn)旗下大模型Llama。其中兩個小組正在試圖了解幻方量化如何降低訓(xùn)練和運行DeepSeek的成本;第三個研究小組則正在研究幻方量化可能使用了哪些數(shù)據(jù)來訓(xùn)練其模型;第四個小組正在考慮基于DeepSeek模型屬性重構(gòu) Meta 模型的新技術(shù)。
DeepSeek所推動的低成本大模型訓(xùn)練方案,引發(fā)科技圈的思考:當(dāng)僅憑相對有限的算力就能達(dá)到與OpenAI模型相媲美的性能水平時,這是否預(yù)示著以英偉達(dá)為代表的高端算力芯片市場正面臨新的泡沫風(fēng)險?
1月28日,薩姆·奧爾特曼在社交平臺X發(fā)文肯定了DeepSeek的表現(xiàn),并表態(tài)將加快產(chǎn)品發(fā)布速度。他在推文中寫道:DeepSeek的推理大模型R1是一款令人印象深刻的模型,尤其是考慮到其性價比。顯然,我們將推出更好的模型。
不過,奧爾特曼特地強(qiáng)調(diào),“我們很高興能繼續(xù)執(zhí)行我們的研究路線圖,并相信更多的算力比以往任何時候都更重要,以成功完成我們的使命。”
同樣,英偉達(dá)發(fā)言人回應(yīng)時代財經(jīng)記者稱:“ DeepSeek的研究展示了如何運用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。推理過程需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)。如今我們有三條擴(kuò)展定律:持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律,以及新的測試時擴(kuò)展定律。”
不過,隨著大量新用戶的涌入,DeepSeek稱近期線上服務(wù)受到“大規(guī)模惡意攻擊”,1月28日官方公告稱,為持續(xù)提供服務(wù),暫時限制了+86手機(jī)號以外的注冊方式,已注冊用戶可以正常登錄,感謝理解和支持。
反超ChapGPT,從“好學(xué)生”升級至“學(xué)霸”
隨著DeepSeek-R1引爆大模型的輿論場,其背后的DeepSeek公司也隨之受到更熱烈的關(guān)注。
DeepSeek,運營主體為杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月17日,是一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù),其創(chuàng)始人梁文鋒也是頭部量化私募幻方量化的創(chuàng)始人。
2015年,幻方量化正式成立,2019年,其資金管理規(guī)模就突破百億元。幻方量化官網(wǎng)顯示,其在2018年就確立以AI為公司的主要發(fā)展方向。
2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進(jìn)軍通用人工智能領(lǐng)域。僅僅不到一年的2024年5月,DeepSeek就推出了史無前例高性價比的DeepSeekV2,因此被外界成為“AI屆的拼多多”。
據(jù)DeepSeek官方表示,DeepSeek-V2采用了創(chuàng)新的架構(gòu),例如注意力機(jī)制方面的MLA(多頭潛在注意力)和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等,以實現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。
自去年12月DeepSeek-V3發(fā)布后,DeepSeek變得更加“驚艷”。AI數(shù)據(jù)服務(wù)公司Scale AI創(chuàng)始人Alexander Wang就曾發(fā)貼稱,DeepSeek-V3是中國科技界帶給美國的苦澀教訓(xùn)。“當(dāng)美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強(qiáng)的實力趕上。”
而不到一個月之后,今年1月20日,DeepSeek正式開源R1推理模型,讓這番關(guān)注量級再上一層樓。1月24日,在國外大模型排名Arena上,DeepSeek-R1基準(zhǔn)測試已經(jīng)升至全類別大模型第三,其中在風(fēng)格控制類模型(StyleCtrl)分類中與OpenAI o1并列第一;緊接著,1月27日,DeepSeek應(yīng)用沖上蘋果中美區(qū)免費APP下載排行榜。爆火的用戶體驗場面,更是直接導(dǎo)致DeepSeek1月26日、27日在兩天之內(nèi)接連出現(xiàn)服務(wù)宕機(jī)現(xiàn)象。
新模型DeepSeek-R1引發(fā)國內(nèi)外高度關(guān)注原因在與其性能和成本。
據(jù)DeepSeek介紹,其最新發(fā)布的模型DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。
“這就相當(dāng)于是說,它(DeepSeek-R1)生成的內(nèi)容不是僅依靠已經(jīng)標(biāo)注給它的數(shù)據(jù),而是它可以根據(jù)標(biāo)注內(nèi)容去深度思考、反向標(biāo)注更多的東西。”資深互聯(lián)網(wǎng)分析師張書樂向時代財經(jīng)記者表示。
“它實際上提供了一個思路,就是人工智能如何完成從‘好學(xué)生’到‘學(xué)霸’的突破。我們之前的人工智能就像一個‘好學(xué)生’,通過深度學(xué)習(xí),對資料進(jìn)行反復(fù)的消化吸收,然后生成答案。這些資料就相當(dāng)于是課本,好學(xué)生一旦遇到課本之外的超綱題就不會做了。而DeepSeek就像掌握了課本里方法論的‘學(xué)霸’,能夠舉一反三,通過學(xué)習(xí)課外讀物,擴(kuò)大知識面,而這些課外讀物不一定是標(biāo)注好的。”張書樂解釋道。
除了性能外,而更令市場驚訝的是,DeepSeek-R1的預(yù)訓(xùn)練費用不到600萬美元,在2048塊英偉達(dá)H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAI GPT-4o模型訓(xùn)練成本的不到十分之一。
據(jù)了解,隨著數(shù)據(jù)規(guī)模效益的Scaling Law(模型規(guī)模定律)逼近極限,OpenAI去年9月發(fā)布采用RL訓(xùn)練的新推理模型o1,引領(lǐng)大模型領(lǐng)域“范式轉(zhuǎn)移”。此前,國內(nèi)大模型廠商無人能及OpenAI o1。而DeepSeek R1的問世,標(biāo)志著國內(nèi)首次突破OpenAI技術(shù)壁壘。
可以說,DeepSeek大模型證明了在Scaling Law之外,AI大模型或許還有另一條制勝之道。
“DeepSeek-R1的成功確實起到示范作用,它證明了AI初創(chuàng)公司確實能夠在開源大模型上打破科技大廠壟斷的局面,甚至在某些方面超越國內(nèi)外科技巨頭。這才是最刺激人心的東西。”張書樂分析道。
而在數(shù)日前,就有Meta的工程師們在匿名社交平臺TeamBlind上表示DeepSeek所研發(fā)的AI模型為其帶來了巨大壓力。Meta首席AI科學(xué)家楊立昆(Yann LeCun)在其發(fā)表在Threads上的一篇文章中指出,比起“中國AI超越了美國”的觀點,DeepSeek-R1更重要的是證明了“開源模型正在超越專用模型”:“DeepSeek得益于開源研究和開源項目(例如PyTorch和來自Meta的Llama)。這就是開放研究與開源的力量。”
本文鏈接:http://m.020gz.com.cn/news-2-359-0.html反超ChatGPT,重創(chuàng)美股,DeepSeek除夕再放大招震動全球科技圈
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇:量子材料領(lǐng)域十年難題獲破解,理想外爾半金屬首次合成
下一篇:AI眼中的中國|開開心心過大年
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕