近期,國產(chǎn)AI大模型DeepSeek受到了海內(nèi)外廣泛關(guān)注,它不僅在性能上可比肩ChatGPT等頭部AI大模型產(chǎn)品,而且訓(xùn)練成本相比傳統(tǒng)AI大模型節(jié)省了約96%。使用了中文語料進(jìn)行訓(xùn)練的DeepSeek不僅具備展現(xiàn)邏輯推理過程的“深度思考”模式,還加入了“聯(lián)網(wǎng)模式”以實時更新數(shù)據(jù)庫,使得生成內(nèi)容更智能、更準(zhǔn)確和更懂中文用戶。DeepSeek的創(chuàng)新技術(shù)和新型功能給AI行業(yè)帶來了驚喜,但也存在著相應(yīng)的侵權(quán)責(zé)任風(fēng)險。
“蒸餾技術(shù)”引發(fā)的侵權(quán)責(zé)任挑戰(zhàn)
DeepSeek之所以能夠高效率和低成本地訓(xùn)練模型,一個重要原因是采取了模型“蒸餾技術(shù)”(Distillation)?!罢麴s”的過程通過從性能強(qiáng)大、數(shù)據(jù)豐富的教師模型中提取輸出數(shù)據(jù)樣本,由學(xué)生模型模仿教師模型的運(yùn)算邏輯,并利用監(jiān)督微調(diào)技術(shù)(SFT)、強(qiáng)化學(xué)習(xí)技術(shù)(RL)來不斷校準(zhǔn)和驗證輸出結(jié)果、優(yōu)化計算結(jié)構(gòu),最終使學(xué)生模型在參數(shù)量減少逾90%的情況下,仍能保留教師模型90%以上的性能表現(xiàn)。然而,“蒸餾技術(shù)”不僅顛覆了傳統(tǒng)大模型從零訓(xùn)練數(shù)據(jù)的原始方案,也與開源替代、新增差異化模塊等簡單“做加法”的方案存在很大的區(qū)別,“蒸餾”極為依賴教師模型,通俗來講就是對教師模型的優(yōu)化甚至“拷貝”。這不禁引起我們的思考:將他人研發(fā)的大模型用作自家大模型訓(xùn)練、輔助決策的工具,這究竟構(gòu)成合理使用還是侵權(quán)?
一方面,雖然“蒸餾”技術(shù)本身并不違法,但在某些情況下可能引發(fā)侵權(quán)糾紛。在未取得合法授權(quán)的情況下,學(xué)生模型優(yōu)化、改良教師模型的行為有可能構(gòu)成侵犯他人復(fù)制權(quán)、改編權(quán)等權(quán)利,還可能構(gòu)成《反不正當(dāng)競爭法》中的“搭便車行為”以及侵犯他人商業(yè)秘密的行為。即使學(xué)生模型取得了教師模型的合法授權(quán),由于“蒸餾技術(shù)”借助他人模型來輸出生成數(shù)據(jù)并開展標(biāo)注作業(yè),這意味著需依賴既有的教師模型來生成數(shù)據(jù)標(biāo)簽,此類數(shù)據(jù)不再是原始數(shù)據(jù)而是衍生數(shù)據(jù),若利用數(shù)據(jù)的行為超出了授權(quán)范圍,仍然可能會侵犯教師模型開發(fā)者、提供者的一系列數(shù)據(jù)權(quán)益。當(dāng)然,目前沒有任何證據(jù)顯示DeepSeek存在“非法蒸餾”行為,并且OpenAI采取閉源策略,其推理過程是隱形的,指控DeepSeek通過蒸餾技術(shù)獲取其內(nèi)部數(shù)據(jù)純屬無稽之談。
另一方面,“蒸餾技術(shù)”還可能引發(fā)對外共同侵權(quán)中的責(zé)任承擔(dān)問題。由于監(jiān)督微調(diào)技術(shù)并不需要洞悉教師模型的具體運(yùn)算過程,“蒸餾”過程中的強(qiáng)化學(xué)習(xí)獎勵機(jī)制具有不確定性,加上學(xué)生模型本身的誤差形成了“雙重黑箱”。因此,當(dāng)學(xué)生模型生成了虛假信息、有害信息等侵權(quán)內(nèi)容時,很難對侵權(quán)內(nèi)容的來源以及生成機(jī)理進(jìn)行追溯,究竟是學(xué)生模型學(xué)藝不精還是教師模型錯誤教學(xué)導(dǎo)致侵權(quán)不得而知。此時,若要求教師模型與學(xué)生模型承擔(dān)連帶責(zé)任,對于教師模型而言肯定不公正,畢竟教師模型并未直接生成侵權(quán)內(nèi)容,否則有違自己責(zé)任的基本法理。對此,出于激勵技術(shù)改良和進(jìn)步的目的,并且依據(jù)侵權(quán)法中的“報償理論”,由學(xué)生算法對其輸出的侵權(quán)內(nèi)容單獨承擔(dān)責(zé)任更具有合理性。
聯(lián)網(wǎng)增強(qiáng)模式下的侵權(quán)責(zé)任風(fēng)險
大數(shù)據(jù)模型分為純離線模式、聯(lián)網(wǎng)增強(qiáng)模式與混合架構(gòu)模式。此前,大多數(shù)主流的大模型如ChatGPT-4、Claude等默認(rèn)不具備實時聯(lián)網(wǎng)生成功能,它們的知識主要依賴訓(xùn)練時吸收的離線數(shù)據(jù)庫。而現(xiàn)在,DeepSeek、Kimi智能助手、文心一言等大模型均加入了自帶實時聯(lián)網(wǎng)生成功能,可以供用戶自主選擇,OpenAI也將訂閱才能支持的ChatGPT Search(聯(lián)網(wǎng)搜索)功能面向所有用戶開放。然而,訓(xùn)練大模型所需要的大規(guī)模、高質(zhì)量、多模態(tài)數(shù)據(jù)集,通常是從各個領(lǐng)域和多個數(shù)據(jù)源收集的。這些數(shù)據(jù)來源繁雜且內(nèi)容混雜,如果不經(jīng)解析、清理和篩選,不僅會對模型性能的提升造成障礙,還有可能不分真假好壞地收集信息,更容易生成具有危害性的內(nèi)容,而實時聯(lián)網(wǎng)生成功能很難迅速、高效地過濾掉數(shù)據(jù)中的“雜質(zhì)”。
從性質(zhì)上看,DeepSeek等大模型提供者同時具有網(wǎng)絡(luò)服務(wù)提供者、網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者、大模型訓(xùn)練者、個人信息處理者等多重身份,既需要對前端訓(xùn)練數(shù)據(jù)的質(zhì)量和合法性負(fù)擔(dān)注意義務(wù),也需要對后端生成內(nèi)容承擔(dān)信息治理義務(wù)。一方面,根據(jù)《生成式人工智能服務(wù)管理暫行辦法》規(guī)定,生成式人工智能服務(wù)提供者有義務(wù)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型,采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性,從前端確保生成內(nèi)容不違反法律法規(guī)的要求。DeepSeek自帶實時聯(lián)網(wǎng)生成功能供用戶選擇使用,在數(shù)據(jù)處理流程中對原始數(shù)據(jù)的清洗精度與廣度存在天然局限,難以確保完全剔除不良信息。此種背景下,DeepSeek作為大模型提供者有義務(wù)構(gòu)建一套可靠高效的數(shù)據(jù)實時過濾機(jī)制,保證實時聯(lián)網(wǎng)模式下大模型的穩(wěn)定性和可靠性。
另一方面,DeepSeek實時聯(lián)網(wǎng)生成功能依托在線網(wǎng)絡(luò)抓取信息,具備顯著的時效性和實用性優(yōu)勢,卻也陷入信息更新過快導(dǎo)致真實合法性受質(zhì)疑的泥沼。基于此,大模型提供者需承擔(dān)如下義務(wù):一是鏈接義務(wù),向用戶展示使用的所有搜索鏈接網(wǎng)頁,同時在生成內(nèi)容的各個部分附上對應(yīng)的鏈接,方便用戶知曉生成內(nèi)容的來源素材。二是提示義務(wù),以醒目、突出的方式向用戶附上明晰、無歧義的免責(zé)聲明,提醒用戶利用該功能生成的內(nèi)容有潛在風(fēng)險,可能存在敏感、虛假、有害等信息,以便共同預(yù)防和制止侵權(quán)行為的發(fā)生。三是救濟(jì)義務(wù),大模型提供者還必須設(shè)立多元、便捷、暢通的反饋與投訴路徑,配套高效的響應(yīng)流程。一旦接獲侵權(quán)通知,應(yīng)當(dāng)及時對涉事侵權(quán)內(nèi)容采取停止生成、停止傳輸、消除、模型優(yōu)化訓(xùn)練等措施,確保大模型不再生成侵權(quán)內(nèi)容。
推理可視化功能帶來的侵權(quán)責(zé)任難題
深度思考模式是DeepSeek的重要技術(shù)特色之一,旨在通過模擬人類認(rèn)知過程,提供更精準(zhǔn)、連貫且富有邏輯性的輸出,并且會向用戶展示大模型的邏輯推演過程。這使得DeepSeek更加智能和人性化,可降低算法不透明帶來的信任問題,但也不可避免地引發(fā)一個傳統(tǒng)大模型未曾遭遇的困境,即在生成侵權(quán)內(nèi)容的情況下,這樣的推演過程可能會成為主動暴露的侵權(quán)證據(jù)。
一方面,深度思考模式通過多層級推理生成更“擬人化”的輸出,其邏輯鏈條可能更接近人類專家的表達(dá)方式,若訓(xùn)練數(shù)據(jù)中包含未授權(quán)的版權(quán)內(nèi)容(如書籍、論文、代碼、圖像等)或者其他侵權(quán)內(nèi)容,而生成內(nèi)容又恰好與之相似,無疑會增加侵權(quán)概率。與此同時,當(dāng)前對大模型生成內(nèi)容的權(quán)利歸屬仍存在爭議,若用戶基于暴露的邏輯推演過程二次創(chuàng)作衍生作品,可能引發(fā)權(quán)利鏈條斷裂。而根據(jù)《著作權(quán)法》等相關(guān)規(guī)定,獨創(chuàng)性判斷標(biāo)準(zhǔn)在人類與人工智能協(xié)作場景下尚未明晰,大模型提供者還可能因“實質(zhì)性相似+接觸可能性”原則承擔(dān)共同侵權(quán)責(zé)任。這些以往很難被證明的內(nèi)容極易通過深度思考功能被展示得一覽無余,由此增加大模型提供者承擔(dān)侵權(quán)責(zé)任的風(fēng)險。
另一方面,雖然深度思考下的推演過程屬于一種“中間結(jié)論”而非正式生成文本,但仍有可能被視為生成內(nèi)容的一部分,并且推演過程可能比最終生成內(nèi)容更詳細(xì)。因此,推演過程展示也應(yīng)當(dāng)構(gòu)成生成內(nèi)容,需要與最終結(jié)論承擔(dān)同樣的合規(guī)義務(wù)。不僅如此,相較于正式生成文本部分,深度思考模式在處理多源數(shù)據(jù)和展示推理過程時,可能更容易引用未經(jīng)授權(quán)的版權(quán)內(nèi)容或者其他侵權(quán)內(nèi)容,而且多模態(tài)支持可能涉及圖片、視頻等各類素材的使用,進(jìn)而增加侵權(quán)風(fēng)險的預(yù)防難度。因此,大模型提供者應(yīng)當(dāng)針對深度思考模式下的推理過程建立敏感信息實時過濾機(jī)制,對多模態(tài)輸入進(jìn)行合法性校驗,避免推演過程引發(fā)侵權(quán)或成為證明侵權(quán)的直接證據(jù)。
?。ㄗ髡哙嵵痉?,系西南政法大學(xué)民商法學(xué)院教授)