日本高清中文字幕一区二区三区a-日本高清专区一区二无线-日本高新1区2区3区-日本国产亚洲-操操操综合网-操操久久

“喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?

3個月前 來源:中國科技網 觀看:44

人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業(yè)正轉向使用合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優(yōu)勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

合成數據應運而生Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創(chuàng)建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業(yè)已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯(lián)網上所有可用文本數據,屆時將沒有新的真實數據可供使用。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創(chuàng)造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

科技公司來者不拒Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經開始廣泛使用合成數據來訓練其AI模型。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預訓練階段,也大量使用了合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

英偉達公司發(fā)布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發(fā)者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業(yè)專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

過度依賴風險難測Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節(jié)和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

為解決這些問題,國際標準化組織需要著手創(chuàng)建強大的系統(tǒng),來跟蹤和驗證AI訓練數據。此外,AI系統(tǒng)可以配備元數據追蹤功能,讓用戶或系統(tǒng)能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監(jiān)督,以確保其高質量且符合道德標準。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發(fā)揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態(tài)度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統(tǒng)的準確性和可信度。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業(yè)正轉向使用合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優(yōu)勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

合成數據應運而生Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創(chuàng)建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業(yè)已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯(lián)網上所有可用文本數據,屆時將沒有新的真實數據可供使用。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創(chuàng)造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

科技公司來者不拒Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經開始廣泛使用合成數據來訓練其AI模型。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預訓練階段,也大量使用了合成數據。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

英偉達公司發(fā)布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發(fā)者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業(yè)專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

過度依賴風險難測Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節(jié)和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

為解決這些問題,國際標準化組織需要著手創(chuàng)建強大的系統(tǒng),來跟蹤和驗證AI訓練數據。此外,AI系統(tǒng)可以配備元數據追蹤功能,讓用戶或系統(tǒng)能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監(jiān)督,以確保其高質量且符合道德標準。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發(fā)揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態(tài)度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統(tǒng)的準確性和可信度。Kvq即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://m.020gz.com.cn/news-2-217-0.html“喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?

聲明:本網頁內容由互聯(lián)網博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。

上一篇:仿昆蟲微型機器人飛行長達15分鐘

下一篇:新型光學原子鐘比銫鐘精度高千倍

為你推薦
圖源:pixabay1月17日晚間,思科瑞(688053.SH)發(fā)布公告稱,公司收到四川證監(jiān)局出具的《行政監(jiān)管措施決定書》。據上述文件,思科瑞在2022年...
01-21
據美國辛辛那提大學官網1月13日報道,該校科學家研制出一種新型空氣碳捕獲系統(tǒng),能直接從空氣中捕獲約420ppm(1ppm為百萬分之一)的二氧化碳(CO2)。該系統(tǒng)不...
01-21
  從“人手一件”的沖鋒衣,到火爆全網的始祖鳥、迪桑特、駱駝、伯希和,在服飾行業(yè)增速放緩的背...
01-21
  近日,遼寧省防減救災辦與相關成員單位進行會商,對近期全省自然災害風險形勢開展了研判分析,結合實際對...
01-24
  編者按:年關將近,在外打拼一年的你,返鄉(xiāng)的心情是否雀躍不已?家中的親人,想必也是如此。今年回家,你給家人準備了什么禮物?他們會有怎樣的期待?海報新聞記者在北京、上海、濟...
01-22
  多地表態(tài)節(jié)儉辦春節(jié):燈籠不再滿樹掛,翻新改造舊設施  “如果要在街道綠化樹懸掛紅燈籠的話,不要往年一樣滿樹單個懸掛,這種懸掛方式過于粗暴缺乏形式感,顯得零亂又浪費材料...
01-21
1 月 30 日消息,日本汽車媒體 Mag-X 昨日(1 月 29 日)發(fā)布博文,報道稱由于 LS 轎車 2024 在日本銷量不足 1500 輛,雷克薩斯考慮調整 LS 系列,替代推出三排七座混合動力 SU...
01-31
2 月 4 日消息,恒大汽車昨日發(fā)布公告稱,公司迄今未能成功找到能夠幫助緩解集團流動資金問題并推進集團適當重組的戰(zhàn)略投資者或買家。公告提到,由于現今中國大陸新能源...
02-05
  1、《樹下有片紅房子》景棲遲的媽媽叫林一繁,在劇中是由榮蓉扮演的角色。  2、景棲遲的媽媽和陳歡爾的媽媽是老同學,因為兩家以前就認識,陳歡爾和媽媽才搬到了同一個家...
02-18
在娛樂圈這個星光燦爛的舞臺上,何炅以其出色的主持能力和溫文爾雅的氣質,贏得了廣大觀眾的喜愛與尊敬。而近期,這位步入半百之年的知名主持人,再次以驚人的身體狀態(tài)吸引了公眾的...
02-22
  中國疾病預防控制中心病毒病預防控制所研究員王大燕1月17日表示,近期的流感高發(fā)屬于正常的季節(jié)性流行,每年冬春季基本都會出現。最新一周監(jiān)測數據顯示,北方大部分省...
01-21
21世紀經濟報道記者季媛媛 上海報道 繼2023年出現上市以來首次虧損,科創(chuàng)板首家CRO(醫(yī)藥合同研發(fā)服務)企業(yè)美迪西(688202.SH)2024年的業(yè)績繼續(xù)...
01-22
  大眾網記者 秦瑾 通訊員 張建東 報道  近日,由山東省教育廳主辦、曲阜師范大學承辦的山東省第五屆高校體育教師基本功大賽圓滿落幕。齊魯師范學院體育學院教師們以...
01-21
1月21日,記者從廈門大學了解到,該校能源學院卜令正副教授、鄭志鋒教授團隊...
01-22
    1月19日,中國地質調查發(fā)布,自然資源部中國地質調查局在甘肅安壩里北、內蒙古哈達門溝和黑...
01-21
  儲蓄存款全員營銷、對公拓戶攻堅活動、旺季貴金屬銷售任務……每次看到行里的營銷方案與考...
01-24
天蝎座男生通常被認為是神秘、深沉而又充滿魅力的存在。他們對愛情有著極高的要求,很難...
01-22
金牛座的男生通常被認為是穩(wěn)重、務實、有責任感的代表。如果你想吸引一個金牛男并讓他...
01-22
淺色牛仔襯衫搭配什么褲子好看?一、淺色牛仔襯衫搭配什么褲子好看?淺色牛仔襯衫搭配黑色褲子好看。黑色褲子顯得非常有氣場,清新的淺色牛仔襯衫搭配成熟性感的黑色褲子。性感帥...
02-07
2萬左右可以考慮哪些chanel的包包款式?2萬左右可以考慮哪些chanel的包包款式?1、Chanel小羊皮腰包金色鏈帶設計華麗又生動,配上金色Chanel CC logo小羊皮制作的腰包,大氣又易襯,...
02-07
1.拼多多加大對短劇領域的投入拼多多向短劇領域發(fā)起了春節(jié)攻勢。據了解,拼多多近期更新并發(fā)布了兩項針對短劇領域的新政策。一是“新版多多有好劇計劃”,作為對舊版計劃的升級...
02-07
2月12日消息,蘇寧易購將聯(lián)合方太、老板、美的、博西等品牌啟動春季廚衛(wèi)家裝節(jié),持續(xù)助力以舊換新國補新政策。活動期間,蘇寧易購將推出三重補貼至高立減40%,“免費檢測、免費安裝...
02-13
2月4日消息,抖音生活服務發(fā)布《2025春節(jié)消費數據報告》,展現乙巳年農歷除夕至正月初六期間消費特色及用戶購買偏好。數據顯示,今年春節(jié)消費需求旺盛,1月28日-2月3日,平臺吃喝游玩...
02-07
又一外資大手筆并購!近日,德國化妝品巨頭漢高宣布完成對蘇州博克生物科技股份有限公司(以下簡稱“蘇州博克”)的收購,繼去年完成對寶潔...
03-10
【#國家能源集團等在安徽成立新公司# 注冊資本2.1億】天眼查App顯示,近日,國能(太湖)新能源有限責任公司成立,法定代表人為趙冠永,注冊資本2.1億人民幣,經營范圍含太陽能發(fā)電技術服...
01-21
在全國36個城市(地區(qū))試點近兩年后,2024年12月15日個人養(yǎng)老金制度全面落地。如今該政策已落實“滿月”,除了稅收優(yōu)惠政策以及金融產品品類擴容外,各金融線上平臺為了滿足客...
01-23
春節(jié)想打麻將,但又無力招架親戚們在牌桌上的花式八卦盤問?那就來試試這款主打單人PVE的“i人麻將”吧! 點數無上限、構筑無下限,一起來花式贏積分。在這個春節(jié),i...
01-27
世嘉在最新財報中詳細分析了第三季度的表現,稱其娛樂內容業(yè)務在銷售額和利潤同比均增長后依然“強勁”。 具體來看消費者子部門(世嘉娛樂內容部門的電子游戲業(yè)...
02-10
巴勒斯坦伊斯蘭抵抗運動(哈馬斯)發(fā)言人哈齊姆·卡西姆當地時間2月6日表示,美國總統(tǒng)特朗普有關“接管加沙”的言論相當于公開宣稱其要占領加沙的企圖,這完全不可接受。卡西姆說,我...
02-07
加沙地帶(資料圖) 當地時間9日,針對以色列總理內塔尼亞胡稱可以在沙特境內建立巴勒斯坦國的言論,沙特外交部發(fā)表聲明稱,相關言論將導致巴勒斯坦人民流離失所,旨在轉移人們對以...
02-09
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕

主站蜘蛛池模板: 久久综合影视 | 黄色a三级免费看 | 高清色黄毛片一级毛片 | 免费一级毛片女人图片 | 日韩啪啪电影 | 人人玩人人添天天爽 | 日本www免费| 欧美黄色免费网站 | 国久久 | 亚洲第二页 | 色午夜影院 | 人人揉揉香蕉大青草 | 亚洲a网站| 寄宿日记在线看 | 天天舔天天操天天干 | 天天舔天天射天天干 | 看逼网址 | 亚洲一区二区三区在线网站 | 亚洲高清一区二区三区四区 | 视频一区视频二区在线观看 | 午夜视频在线观看免费观看在线观看 | 日本三级全黄 | 黄色网络在线观看 | 亚洲人的天堂男人爽爽爽 | 欧美一区二区高清 | 国产成人v爽在线免播放观看 | 亚洲好骚综合 | 韩国理伦片在线观看2828 | 国产专区日韩精品欧美色 | 亚洲伊人久久大香线蕉影院 | 射在老师的里面真爽 | 国产骚b | 亚洲综合在线一区 | 日本欧美强乱视频在线 | 天天干天天操天天爱 | 午夜看片a福利在线 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 久久国内| 四虎影视院 | qyule亚洲精品 | 国产免费亚洲 |