《iPhone News 愛瘋了》報導,蘋果公司最近發布了一份技術文件,詳細介紹了為 Apple Intelligence 開發的模型。未來幾個月內,這些生成式人工智慧功能將會在 iOS、macOS 和 iPadOS 上推出,為用戶帶來更智慧的使用體驗。
蘋果強調隱私,反擊道德質疑
蘋果在文件中強調,公司在訓練模型時沒有使用私人用戶數據,而是綜合利用了公開數據和授權數據。
蘋果指出:「[預]訓練資料集由我們從出版商處獲得授權的資料、經過策劃的公開或開源資料集以及我們的網路爬蟲 Applebot 抓取的公開資訊組成。鑑於我們注重保護用戶隱私,我們注意到資料混合物中不包括蘋果用戶的私人資料。」
針對外界質疑的回應
今年 7 月,Proof News 報導稱,蘋果使用了一個名為 “The Pile” 的資料集(包含數十萬個 YouTube 影片的字幕)來訓練模型。
許多 YouTube 創作者並不知情,也不同意這樣做。蘋果後來發表聲明稱,它並不打算使用這些模型為其產品中的任何人工智慧功能提供動力。
Apple Foundation Models 訓練方法
這份技術文件揭開了蘋果公司在今年 6 月 WWDC 2024 大會上首次披露的 Apple Foundation Models(AFM)的神秘面紗,並強調 AFM 模型的訓練數據是以負責任的方式取得的。
AFM 模型的訓練資料包括公開的網路資料以及未公開出版商的授權資料。
蘋果與出版商的合作
根據《紐約時報》報導,蘋果在 2023 年底與 NBC、Condé Nast 和 IAC 等多家出版商達成了價值至少 5000 萬美元的多年協議,利用出版商的新聞檔案訓練模型。
AFM 模型也在 GitHub 上託管的開源程式碼上進行了訓練,特別是 Swift、Python、C、Objective-C、C++、JavaScript、Java 和 Go 程式碼。
訓練數據的篩選與使用
蘋果表示,它對程式碼進行了「許可過濾」,只包含使用限制最少的軟體來源,如 MIT、ISC 或 Apache 許可的軟體來源。
為了提高 AFM 模型的數學技能,蘋果特別在訓練集中加入了來自網頁、數學論壇、部落格、教程和研討會的數學問題和答案。
大規模數據訓練與目標
AFM 模型的訓練資料集約有 6.3 兆個詞元,雖然相較於 Meta 用來訓練其旗艦文本生成模型 Llama 3.1 405B 的代幣數量(15 兆)還不到一半。
蘋果收集了更多數據,包括人類回饋的數據和合成數據,以微調 AFM 模型,並嘗試減少任何不良行為,例如生成毒性內容。
蘋果的人工智慧目標
蘋果表示:「我們創建模型的目的是幫助用戶在他們的蘋果產品上進行日常活動。」
這篇論文沒有提供任何驚人的見解,但這是精心設計的。由於競爭壓力,同時也因為揭露過多可能會為公司帶來法律糾紛,所以這類論文很少會非常露骨。
法律挑戰與道德定位
一些公司透過搜尋公共網路資料來培訓模型,並聲稱他們的做法受到合理使用原則的保護。但這個問題仍有待商榷,而且訴訟數量也不斷增加。
蘋果在論文中指出,它允許網站管理員阻止其爬蟲搜尋他們的資料,但這讓個人創作者陷入困境。舉例來說,如果藝術家的作品集存放在一個拒絕阻止蘋果資料抓取的網站上,他該怎麼辦?
法庭之爭將決定人工智慧生成模型及其訓練方式的命運。不過目前,蘋果正試圖將自己定位為一個有道德的企業,同時避免不必要的法律審查。
蘋果訓練人工智慧模型
蘋果公司致力於以負責任的方式開發和訓練人工智慧模型,強調用戶隱私和數據授權的重要性。
《iPhone News 愛瘋了》表示,雖然面臨外界的質疑和法律挑戰,蘋果仍堅持其道德立場,努力為用戶提供更智慧、更安全的科技體驗。