來源:硬AI
高質量數據的緊缺正成為AI發展的重要障礙。
4月1日,據媒體報道,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們訓練更先進的AI系統。
科技巨頭的AI系統,比如能與人類聊天的ChatGPT,是通過學習網上的信息變得越來越聰明的。但現在,高質量、有用的信息日益緊缺,同時,一些網站開始限制AI公司訪問他們的數據。據業界一些高管和研究人員表示,AI行業對高質量文本數據的需求可能在兩年內超過供應,這將可能減緩AI技術的發展速度。
面對信息不足的問題,AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓練它們的下一代智能模型GPT-5。有的公司甚至創造合成數據來學習,盡管這種方法被許多研究人員認為可能會導致系統發生嚴重故障,但不失為克服數據短缺的一種潛在途徑。
據悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨著數據需求不斷增長,找到新的學習材料、與數據所有者的合作,讓AI系統變得更加聰明,就成了這個行業的重要備戰區。
OpenAI的GPT-5面臨10萬億到20萬億tokens的數據短缺
AI語言模型的構建依賴于從互聯網上收集的大量文本數據,這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關系和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創作詩歌。
模型的能力在很大程度上取決于它訓練的數據量。通常情況下,數據越多,模型的性能就越好,因為它有更多的例子來學習不同的語言用法和復雜性。
OpenAI通過為其GPT系列模型提供海量訓練數據,不斷提升性能,借此成為世界頂尖AI公司。這展示了大數據訓練對于AI發展的重要性。
但是,隨著GPT-4模型的不斷擴大,OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓練涉及的數據量高達12萬億tokens,而未來模型,如GPT-5,可能需要60萬億到100萬億tokens。因此,即便是利用所有可用的高質量語言和圖像數據,研發GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至于如何彌補這一巨大的數據缺口,目前尚無明確方案。
據媒體報道,為應對數據短缺挑戰,AI公司正在嘗試各種方法來尋找新的信息源。Meta創始人扎克伯格近期強調,公司通過Facebook和Instagram等平臺擁有的大量數據,為其AI研發提供了重要優勢。扎克伯格表示,Meta能夠利用網絡上數以百億計的公開共享圖片和視頻,這些數據的規模超過了大多數常用數據集,盡管其中高質量數據的比例尚不明確。
而OpenAI則考慮使用其自動語音識別工具Whisper轉錄的高質量視頻和音頻示例。此外,OpenAI還在考慮建立一個數據市場,以評估每個數據點對模型訓練的貢獻并據此向內容提供者支付費用,這一創新想法也引起了Google的關注。
Epoch研究所預測AI數據短缺危機將推遲至2028年
兩年前,Villalobos和他的同事寫道,到2024年年中,對高質量數據的需求超過供給的可能性為50%,到2026年發生這種情況的可能性為90%。自那以后,他們變得更加樂觀,在AI研究員Pablo Villalobos及其團隊的審慎評估下,新的預期顯示,這種短缺風險將延遲至2028年。
這項樂觀的更新基于對當前數據質量和可用性的深刻洞察。Villalobos指出,互聯網上的絕大多數數據并不適合作為AI訓練材料。在無盡的信息流中,只有一小部分數據(遠低于先前預計)能對AI模型的增長和發展做出實質性貢獻。
同時,各大社交媒體平臺和新聞出版商已開始限制其數據被用于AI訓練。他們擔心如果數據被自由用于AI訓練,可能導致內容創造者和平臺本身失去應得的經濟回報。
此外,普羅大眾對于個人隱私的保護意識顯著提升,許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓練的意愿較低,人們可能擔心他們的隱私可能會受到侵犯。
最近,一位女記者就OpenAI最新模型Sora的訓練數據向CTO Murati提問時,Murati未能明確回答,這引發了業界對OpenAI管理層對于訓練數據來源的關注度的質疑。這一事件觸發了更廣泛的討論,關于公共領域數據的所有權問題——我們在網絡上發布的內容,究竟是屬于個人私密還是公共共享的資產?
因此,這些因素共同導致了數據獲取的困境。隨著用戶和監管機構對數據使用的監控趨嚴,研究者們必須在保護隱私與數據采集之間找到新的均衡。