基礎模型訓練的著作權問題：理論澄清與規(guī)則適用

2024-11-19 14:11:12 來源：法治日報-法治網 -標準+

□ 陶乾

2023年以來，國內外許多著作權人先后發(fā)起了對基礎模型開發(fā)者的侵權訴訟。原告方認為模型訓練過程中的作品使用行為構成侵權，但被告方辯稱其行為屬于一種合理使用，目前在世界范圍，尚無法院對此問題給出定論。

我國著作權法第二十四條合理使用條款窮盡式地列舉了13種情形，從文義來看，無法將模型訓練使用作品解釋為任何一種情形。很多學者從立法論出發(fā)，建議我國引入“文本與數據挖掘”侵權例外制度，但在法律修改之前，司法機關仍需在現行著作權法下進行規(guī)則適用。有鑒于此，筆者從解釋論的角度，將人工智能基礎模型訓練過程中，數據準備、數據投喂和機器學習三個階段的作品使用置于著作權法基本法理與現有規(guī)則中進行剖析，為司法實踐處理此類糾紛提供創(chuàng)新性思路。

數據準備階段：數據集創(chuàng)建者的著作權合規(guī)

數據準備階段是模型開發(fā)的重要前置階段?；A模型所使用的數據集包括開源數據集、付費數據集和自建數據集。在前兩種情況下，模型開發(fā)者與數據集創(chuàng)建者是兩個不同的主體。

數據集創(chuàng)建涉及的著作權問題有二：第一，數據集創(chuàng)建者在選取數據源時，是否需要過濾掉那些本身具有侵權屬性的內容；第二，在內容本身不侵權的情況下，數據集創(chuàng)建者將作品復制于其數據集之中，是否需要獲得著作權人的另行授權。

第一個問題涉及的是數據集創(chuàng)建者對著作權侵權內容的注意義務。數據集里的數據樣本來源分為三種：在經營過程中積累的自有數據、抓取的網絡公開數據以及購買的第三方數據。在這三種來源之下，數據集創(chuàng)建者的注意義務有所不同。

在數據集創(chuàng)建者使用自有數據的情形下，將數據中的侵權內容復制在數據集里，其應承擔直接侵權責任。在采集網絡公開數據的情形下，數據集創(chuàng)建者扮演著數據使用者的角色。侵犯內容是由直接侵權人進行網絡公開傳播的，數據集創(chuàng)建者不對該侵權內容承擔賠償責任，除非其明知該內容的侵權性質仍將其收錄于數據集。在數據集創(chuàng)建者購買第三方數據的情形下，有必要要求其對數據中的作品來源合法性問題有事前的合理預見，合法來源抗辯的成立以履行適當的注意義務為前提。

第二個問題涉及的是數據集對作品的復制行為是否落入到著作權人的專有權利范圍內。數據集是創(chuàng)建者依照特定的標準收集和整合各種信息而成，根據數據集的創(chuàng)建目的和數據內容，可區(qū)分為通用數據集和專門數據集。這兩種數據集在復制作品的行為效果上存在差異性。

通用數據集的價值基于其數據體量和數據維度。數據樣本內容具有多樣性和綜合性的特點，其中既有各種類型的作品，也有不構成作品的信息。數據中所包含的單一作品，在價值上，對于整個數據集來說微乎其微；在體量上，占據整個數據集的極微小部分。對已發(fā)表的單一作品的復制，盡管落入到著作權人的權利范圍，但從比例原則下社會公共福祉與著作權人利益的取舍來看，考慮到侵權情節(jié)極其輕微，可將其作為一種停止侵權的例外情形，基于這種“低密度性”使用作品的方式對權利人造成的損害微乎其微，且給使用人帶來的所得亦極其微弱，所以，通常而言，使用者亦無需承擔損害賠償責任。

專門數據集的價值基于其數據內容和數據質量。數據樣本內容具有特定性和專門性的特點，比如，特定作者的作品、特定歷史時期的作品、特定風格的作品或者特定行業(yè)領域的數據。數據集的價值與作品集合的價值產生了重合，是數據集商業(yè)化的基礎。此時，數據集創(chuàng)建者理應獲得這些作品的著作權人的授權，否則侵犯了著作權人的復制權或匯編權。數據集的開源傳播還會侵犯作品信息網絡傳播權。對于專門數據集所涉及的著作權問題，未來的制度完善可引入“選擇退出”機制和事后許可機制，降低數據集創(chuàng)建者與作品著作權人之間的溝通成本。

數據投喂階段：基礎模型開發(fā)者的有限義務

模型開發(fā)者獲取了數據集之后，將數據集以指定的批量大小、順序等方式加載到模型的開發(fā)程序中，模型通過算力來實現特征提取和對數據集的“吸收”。

數據投喂階段的著作權問題有二：第一，基礎模型開發(fā)者是否需要對數據集的著作權合規(guī)盡到注意義務；第二，基礎模型開發(fā)者是否就此階段的數據輸入行為承擔復制權侵權責任。

第一個問題涉及數據與作品之間錯綜復雜的關聯關系。作品是一種信息，數據是信息的載體。數據集是其創(chuàng)建者與模型開發(fā)者之間進行交易的一種商品。只要數據集的來源合法合規(guī)，就不需要再考察組成數據集的每一個樣本是否經過授權。但需要指出的是，基礎模型開發(fā)者付費獲得專門數據集時，看重的正是數據集的樣本內容和質量，模型開發(fā)者應當對于專門數據集的內容合規(guī)具有一定程度的注意義務，盡最大努力去避免其使用的數據集侵犯他人著作權。

第二個問題涉及的是基礎模型開發(fā)者將數據集加載至模型過程中對數據中若干個作品的整體復制。著作權法行為定性采取的是結果主義，鑒于此時的復制是純粹的內部復制，屬于為了實現其他結果而進行的過程性復制，是一個被后續(xù)行為所涵蓋的行為，故不需要對其進行單獨的法律評價。

機器學習階段：基礎模型開發(fā)者的非侵權性

開發(fā)者進行數據“投喂”的目的在于對數據進行機器學習。機器學習階段的著作權問題是這種使用作品的行為是否落入到著作權人的專有權利范圍內。

著作權法保護表達，而不是思想。著作權人的權利所控制的行為是對作品的“表達性使用”，包括對作品中的獨創(chuàng)性表達的直接再現的呈現式使用和間接再現的演繹式使用。將著作權法意義上的作品使用限定在“表達性使用”，是劃定知識產權保護范圍與公眾信息自由與表達自由之間界限的關鍵。無論是我國著作權法第十條規(guī)定的著作財產權，還是第五十二條、第五十三條所列舉的侵權行為，均在語義內涵上指向對作品的“表達性使用”。

在傳統(tǒng)著作權法下，有形載體之上的物權與載體之上的知識產權能夠有效區(qū)分，有形之物與無形財產之間的涇渭分明使得人們很容易界定一個行為所使用的是作品中的表達還是作品的載體。數字時代，數據也成為作品的載體，作品的無形性與載體的無形性產生重疊，對作品的使用與對數據的使用混合為一體。此時，區(qū)分“表達性使用”與“非表達性使用”就變得重要。

當人工智能進行模型訓練時，第一，其抓取和識別的是數據，旨在讓機器掌握文字與文字、美術元素與元素之間分布的規(guī)律，這種規(guī)律本身不受著作權法所保護；第二，機器學習的本質是從數據中計算出概率，形成表達范式，無論是模型本身還是模型背后的開發(fā)者，都未產生對作品中的表達的理解和欣賞。因此，模型訓練并非將數字化的內容作為作品進行使用，而是將其作為數據來使用，該行為并不應當落入到著作權的控制范疇。

結語

基礎模型的開發(fā)是發(fā)揮數據要素使用價值的直接方式，是發(fā)揮新質生產力效能與創(chuàng)新商業(yè)模式的實現路徑。各國對于人工智能基礎模型訓練的著作權問題的處理態(tài)度，關乎著作品數據的國際化流動與價值開發(fā)以及各國在人工智能領域的國際競爭。我國目前人工智能產業(yè)發(fā)展仍面臨著數據集供應不足、質量不高、多樣性匱乏等情況，有必要探索合適的方式來減少我國生成式人工智能產業(yè)在數據獲取上的著作權授權阻礙和合規(guī)束縛。我國《生成式人工智能服務安全基本要求》在“語料安全”中規(guī)定應重點識別訓練語料中的著作權侵權問題，這種一概而論的規(guī)定是否恰當仍需要從著作權法的法理上進行更審慎的思考。在個案中，司法機關應當在著作權法的現有框架下，根據模型開發(fā)過程中各個環(huán)節(jié)的作品使用目的和方式，運用基礎法理來確定侵權與否，劃定數據集創(chuàng)建者與模型開發(fā)者版權注意義務的邊界，從而為技術開發(fā)與產業(yè)發(fā)展提供指引。

（原文刊載于《政法論壇》2024年第5期）　　

編輯：武卓立

母亲1在线观看免费完整版中文电影,天天综合射,日本在线网,年轻保姆5电视剧在线观看,美女被男人捅到爽,欧美丰满少妇xxx高潮app,啊v天堂在线观看

基礎模型訓練的著作權問題：理論澄清與規(guī)則適用