自從 2022 年末,OpenAI 的 ChatGPT 的橫空出世,「AI」這個關鍵字便成為新聞媒體和社群平台上最熱門的話題;微軟將搜尋引擎 Bing 和 ChatGPT 相結合、要跟 Google 打對台的商戰新聞,更為這股浪潮推波助瀾。
開源模式帶來了百花齊放的 AI 時代
不過,當眾人將目光聚焦在科技巨頭的商戰、或是又有哪間新創公司推出 AI 應用時,可別忘了,自從深度學習時代以來,AI 就有很深厚的開源傳統。雖然科技巨頭將 ChatGPT 的出世稱為「AI 的 iPhone時刻」,但是看看現在開源軟體的迅速普及、開源社群的蓬勃朝氣,Stanford AI Lab 副教授 Chris Ré 指出:「這是 AI 的 Linux 時刻啊!」
正如同 Linux 在工程及伺服器領域佔有領導地位,Chris Ré 認為,開源模式讓更廣泛的人群參與貢獻,也消除了障礙、讓更多人能夠使用技術;而寬鬆的授權,甚至能讓人運用開源產品來創業。簡單的說,開源模式改變了世界;而開源 AI 有機會達成與 Linux 同樣、甚至更好的成果。
令人驚豔的開源成就
Chris Ré 在文中細數了過去一年中,開源 AI 所取得的驚人成就(但因為篇幅關係,我們每項僅舉出一個例子):
- 平台:有「機器學習領域的 GitHub」之稱的 Hugging Face,讓 AI 模型前所未有地開源!
- 社群:為了解放機器學習的研究,非營利組織 LAION 集結眾人之力,提供了開源的數據集、工具和機器學習模型;包括 OpenCLIP、Stable Diffusion 等重要的模型,都來自於 LAION 的貢獻。
- 演算法:除了開源工具包以外,AI 演算法的開發,也一直受益於將成果發佈到 Arxiv 的文化。許多不隸屬於大公司的研究者,正以個人身份貢獻著成果。
編按:Arxiv 是一個分享學術論文預印本(preprints) 的網站,維基百科指出,它是預印本模式的早期採用者和推廣者,而 Arxiv 在推廣預印本的成功,也被認為是促成後來科學出版界的開放進用(open access)運動的原因之一。
- 資料集 (dataset):比起 AI/ML 高深的核心技術,對多數人來說,資料比起程式碼更能夠傳達想法。社群努力推出了 Pile、C4、LAION-5B 等大規模資料集(massive datasets),而 Hugging Face 的 Datasets library 和 hub 這樣的資料集集散地,也讓社群成員更便於存取。
- 工具:為了讓任何人都能輕鬆參與 AI,社群持續地改善工具,包括 PyTorch (Meta),Keras (Google),Transformers (Hugging Face),MegatronLM (Nvidia),DeepSpeed (MSFT) 等。
透過開放力量,降低 AI 的潛在風險
AI/ML 已逐漸被運用在社會各個領域,包括醫療和科學研究、訴訟輔助、警務預測…等等,但另一方面,AI 依舊有著潛在的問題。
其中一個問題是「資料黑箱」:電子前鋒基金會(EFF)指出,機器學習最終依賴於訓練資料來「學習」如何做出正確的預測,但若是輸入的資料原本就有偏差,AI 自然會得出帶有偏見的結果。文中以犯罪預測 AI 工具為例:當司法系統本身對工薪階級或有色人種社區帶有偏見時,其提供給 AI 的訓練資料,會使 AI 給予這些社區不符比例的犯罪率預測。
EFF 認為,AI 未來可能在醫療和執法等領域做出攸關生命的決定,然而 AI 的運作原理和資料集卻被隱藏在黑箱裡,這是不合理的。EFF 指出,開放資料是解決 AI 黑箱問題的一個關鍵因素,不僅能對 AI 進行監督和評估,同時也能讓更多人貢獻於 AI 的發展和治理。
另一個潛在的問題是,由於 AI 訓練和維運的成本非常高昂,跟小公司或新創相比,科技巨頭握有的運算基礎建設,讓他們具備極大的優勢;更有甚者,Debian 的開發者 Mo Zhou 在 OSI 的訪談中提到,在硬體上,不只是資金的問題,訓練神經網絡時至關重要的 GPU,其驅動程式和韌體絕大多數是非自由的,無法符合 Debian 社群對於基礎設施的規範,導致 Debian 無法將深度學習的應用集成於自身系統中。以此推論,未來當 AI 成為水、電這樣的民生基礎建設時,科技巨頭豈非掌握了絕大多數人們的生存命脈?其實不用這麼悲觀,充滿生命力的開源社群,總是能夠找到出路,新創公司 Hugging Face 做出了很好的示範。
新創公司:為社群培力,而非與社群競爭
前面提到,Hugging Face 有「機器學習領域的 GitHub」之稱,作為一個 “hub”,它讓社群能夠共同開發模型、資料集,並有 demo 的空間。
Hugging Face 的共同創辦人兼 CEO:Clément Delangue,在 2021 年的一篇訪談中,他認為作為一間新創公司,所能做出的最大貢獻並非推出最厲害的 ML 模型,而是為社群培力(empower)、提高社群的生產力。Delangue 說,在 AI/ML 這個快速發展的領域,外頭恐怕有超過 100 間的實驗室、組織或大學在做同樣的題目,就算你新創公司比他們厲害,但他們數量太多了,當你只能做一次迭代的時候,外頭也做出了 100 次迭代;起初你可能擁有最先進的產品,但幾天後可能就被超過了,從此不再領先。
「我們採取了一種非常不同的方法,」Delangue 說:「不是試圖與開源領域和科學領域競爭,而是想辦法為它培力。像 Elastic、MongoDB 這樣做開源基礎設施和資料庫的公司,帶給我們的啟發是:作為一家新創公司,若可以為社群賦權,創造出的價值比構建專有工具多一千倍,對吧?」
「而且你不必獲取所創造價值的 100%,對吧?你可以創造巨大的價值,而只將其中的 1% 來變現,這就足以讓公司持續發展。甚至可以像 MongoDB 那樣成為一家大型上市公司。這兩家公司都擁有類似的開源核心,同時又可以壯大組織、並實現永續發展。」