如果說隱私計算賽道,最近的熱門關鍵詞是什么?
“開源”當屬其一。
隨著數據要素市場培育提速,隱私計算作為數據安全流通的關鍵技術解,如何加快其技術開發以及商業化的速度成為市場關切。
從2020商業落地元年,再至今年,在隱私計算技術服務商與B端客戶的深度磨合和訴求匹配中,市場越發共識到,隱私計算的“商業化藍圖”中,高性能算力、開源生態、軟硬件工程優化以及場景適配成為“標配項”,缺一不可。而“開源”則被視為隱私計算通向性能提升、規?;涞氐闹匾窂胶图夹g手段。
去年10月,央行等部門聯合印發《關于規范金融業開源技術應用與發展的意見》,強調“鼓勵開源技術提供商,加快提升技術創新能力,切實掌握開源技術核心代碼,形成自主知識產權,夯實產業支撐能力”。
算力智庫發現,自今年至8月份,已先后有螞蟻集團宣布開源隱私計算框架“隱語”,九章云極發布YLearn因果學習開源項目,原語科技推出隱私計算開源平臺Primihub,翼方健數宣布開源翼數聯邦學習與翼數安全計算,肉眼可見,開源逐漸“風行”,開源隊伍也已不是阿里、字節、百度等大廠專屬,一些諸如原語科技、翼方健數這樣新銳的力量也在陸續加入。
與此同時,今年5月份,由產學研用近50家單位聯合發起的國內首個國際化自主可控隱私計算開源社區——開放群島(Open Islands)開源社區也正式成立。
“開源吞噬一切”,這是極客們口中的箴言,擁抱開源成為全球基礎軟件行業的主流之路,在過去的25年,開源驅動了絕大多數的技術創新,從我們智能手機上搭載的應用,到瀏覽的每一個網站、平臺,再到物聯網時代萬物之間的協同交互,可以說世界上90%以上的代碼,背后都有開源的身影。
而對于尚處技術萌芽期的隱私計算而言,開源革命才剛剛開始。
隱私計算二連問:
為什么要開源?為什么是現在?
隱私計算作為數據流通的基礎設施,其開源的必要性,不僅在于實現技術本身優化迭代的通用需求,同時也是基于其服務數據要素流通的特殊性。
“如果隱私計算和聯邦學習技術只是掌握在少數寡頭的手里,我們還是得不到真正的數據流通,也得不到真正的數字經濟發展,因此必須把門檻降低,其中一個有效手段就是開源,能夠讓人人都可以使用這樣的技術,人人都能貢獻到這樣的技術”,香港科技大學計算機與工程系講席教授、FATE開源社區技術指導委員會主席楊強如是表示,同時他也是上述開放群島(Open Islands)開源社區的執行主席。
從目標導向來說,數據使用的邊際收益是遞增的,只有實現廣泛流通的數據要素市場,才能創造釋放更大的數據價值,這意味著必須要打通基礎設施的閉環,消解技術孤島,如果巨頭們皆出于商業趨利性,而實行技術封閉壟斷,是無利于隱私計算的可持續長遠發展,對于隱私計算這種“作用于和棲身于”數據流通場景中的技術屬性而言,開放性、普惠性才是其應有之義。一位隱私計算行業從業者向算力智庫表示。
楊強也表達了同樣的觀點,他認為在隱私計算、聯邦學習的商業路線圖上,安全、效率、有效性、普惠是緯線,開源生態主導的技術迭代與場景普及是經線,開源促進了隱私計算的“普惠”與價值共生。以聯邦學習開源社區FATE為例,FATE的開源開啟了國內隱私計算技術的開源浪潮,有效降低了“聯邦學習”的技術門檻,據中國信通院調研統計顯示,55%的國內隱私計算產品是基于或參考了開源項目,FATE開源社區加速了聯邦學習從“大廠”向小微B端企業的覆蓋與普及的同時,讓聯邦學習產業生態及參與方從“單兵作戰”走向生態化。
此外,另一個顯而易見的原因是“從技術開發的供給側來說,利用現有資源,不需要重復開發,再造一次輪子,站在既有的技術基礎上,抓住已經錘煉驗證過的生態系統和場景,再鉆研添加自己的創新,也不會造成技術資源浪費。
從銀行金融、醫療機構等需求側來看,不同技術路線的隱私計算產品在互聯互通上存在先天壁壘,“各自割據”,以至于在實際支撐數據計算分析和跨業務決策上無法兼容通用;而且一個很重要的問題是,隱私計算以算法驅動,其“算法黑箱和數據黑盒”后門風險也伴隨而生,雖然隱私計算廠商一直承諾“安全可信可靠”,不會竊取和留用數據,但如何能真正取信于人,自證清白呢?螞蟻集團隱私智能計算部總經理、“隱語”框架負責人王磊亦表示:“從技術層面,如果別人看不到我們的代碼,就不能確認產品的安全性,那又談何信任,只有以開源共享的方式,吸引更多優秀的開發者加入,才能凝聚技術合力降低隱私計算開發者和使用者的技術門檻?!?/p>
可以觀察到,近幾年來,無論是監管合規層面、還是個人信息保護、業務風控上對于算法和模型的可解釋性及安全性要求越來越高,比如2021年3月,央行發布并實施的《人工智能算法金融應用評價規范》要求,應用AI算法需滿足安全性和可解釋性;2021年末,四部委聯合發布的《互聯網信息服務算法推薦管理規定》,其中在用戶權益保障方面,特別規定算法推薦服務提供者應當以顯著方式告知用戶其提供算法推薦服務的情況,并以適當方式公示算法推薦服務的基本原理、目的意圖和主要運行機制等。
“可解釋性”和“零信任”應該成為技術基因,隱私計算也不例外,開源通過全代碼的公開可驗證有利于使用者了解其技術邏輯,促進技術透明化,才能做到不證自明”,上述那位隱私計算行業從業者繼續表示。
值得注意的是,就在前幾年,開源在隱私計算圈并未流行開來,而至如今,開源走熱,呼聲高漲。
“為什么隱私計算開源開放越來越被重視,是因為恰逢其時,首先,是順應全國統一大市場的趨勢,一開始我們更多地強調隱私計算使用的是哪一項技術,而不是特別關心要達到什么目的,所以可能有點跑偏了,比如有些廠商特別強調隱私計算要使用多方計算才安全,使用其他的一些技術就不安全。所以在技術選型上,A金融機構用的是一類技術,B用的是另一類技術,C可能是大數據公司,用的第三類技術,標準不一,以至于當大家想互聯互通的時候,卻發現這些技術之間很難溝通,所以現在提出統一大市場非常及時;其次,某種程度上,開源也是隱私計算逐步走向成熟的標志,越來越多的企業選擇開源,一是相信自己的產品和技術實力,二是開源可以為隱私計算大規模落地應用和創新提供更加高效的解決方案,基于開源協作的方式,用戶、生態伙伴等更多角色的參與,使得技術接受更多維度檢驗,也能夠建立起更加敏捷、全面的反應機制,隨時響應安全風險,極大提高了軟件算法的安全性與迭代效率?!睏顝姳硎?。
技術賽馬,有哪些高質量開源項目?
開源成為“潮流”,高質量選手云集。
據算力智庫不完全統計,近年來國內外很多大廠和創業團隊都在積極開源。
表1:隱私計算主要開源框架/平臺
(數據統計:信通院、算力智庫)
當前隱私計算開源項目大致可分為協議框架開源和產品開源,協議框架開源大部分是針對于某一技術,如MPC領域的mp-spdz、OpenCheetah等,專注于安全與性能提升。另外也有對產品平臺的開源,更易形成生態??傮w來講,優秀的底層開源協議可以嵌入到平臺中被廣泛應用,而隱私計算的產品開源項目大部分仍處于初期,僅代碼開放但社區建設不完備。上表是國內外主要的開源平臺或協議框架,可以看出近三年越來越多的企業加入隱私計算開源隊伍,有包括底層技術協議,也有企業的平臺類項目。
面對目前市場上的眾多開源方,開發方和使用機構更關注哪些指標?一位隱私計算企業技術負責人透露:目前在各種隱私計算的開源框架中,以聯邦學習和多方安全計算開源框架居多,這兩種技術路徑相對比較成熟且逐漸形成主流。在和一些大型商業銀行合作時,他們通常會考慮在成熟框架上自研,從聯合開發起步。
螞蟻集團隱私智能計算技術部總經理王磊也指出,銀行在招標和共建時主要關注技術的易用性和合規性,如果一個框架使用門檻高就很難用起來,另外,比較關注技術合規標準問題,但這方面行業仍在摸索階段。
客觀來說,軟件生態建設比軟件本身的研發更加困難,隱私計算若想取得工業級規?;瘧?,還需要做很多超出隱私計算之外的事情,而生態構建是關鍵一步,通過開源開放可以增強生態中各界之間的粘度。
翼方健數首席科學家張霖濤亦表示:伴隨技術發展,越來越多的行業玩家都已具備了相當的技術實力,想要進一步拉開競爭差距,就必須對行業有更深入的洞察,而不再是純技術問題。人工智能等新科技領域的開源歷史已經給隱私計算提供了借鑒參考,獲得絕對技術優勢也變得更難,TensorFlow、PyTorch等開源框架的出現,就在技術競爭之上轉向吸引更多人進入AI賽道,推動AI的整體發展。
可見,“開源”正在拉開隱私計算技術賽馬的下一征程,從比拼技術,到重生態,整個賽道的價值觀和站位開始向“更具包容性、擴展性和連接性”傾斜,成人達己,合力共建開源生態社區和數據要素市場,才是長期主義的發展路徑。
參考資料
中國經營報《隱私計算開源創新 數據市場有望提速》經濟觀察報《楊強:隱私計算為何要開源?》雷鋒網leiphone《螞蟻“隱語”開源,邁過隱私計算的「界河鴻溝」》SegmentFault思否《我們對“開源”的力量一無所知,卻無限期待》隱私計算聯盟《發布|2022隱私計算十大觀察》
???????原文標題?:?隱私計算迎來“開源革命”,高質量項目有哪些?