基建工程兵子弟作品

第307章風險與控制：論生成式人工智能應用的個人信息保護

 

【內容摘要】生成式人工智能的技術躍進架空了個人信息處理的告知同意規制和最小必要原則，引發了虛假信息生成和個人信息洩漏的廣泛風險迭代問題。傳統個人信息的權利保護路徑面臨認知和結構困境，無法應對生成式人工智能給個人信息保護帶來極大挑戰。以風險控制為導向的個人信息保護機制不強調信息主體對個人信息的絕對控制，旨在通過識別、評估、分配和管理將風險控制在最小範圍內，可以靈活和實用地平衡生成式人工智能應用中的信息利用和風險控制，提供有效的解決方案。在風險控制理念下，對告知同意規則和最小必要原則進行風險化解釋與調試，並建立從預防到識別再到控制的虛假信息生成風險的全過程應對機制，以及基於風險的個人信息保護合規管理體系，是當前的最優選擇。

【關鍵詞】生成式人工智能 Chatgpt 個人信息保護風險控制

文章來源：《政法論叢》2023年第4期

因篇幅所限，省略原文註釋及參考文獻。

在2023年初，Chatgpt憑藉其卓越的自然語言處理能力成為人工智能領域的重要里程碑，引起了社會生產生活和未來科技發展的顛覆性變革。然而，以海量語料庫數據為基礎的生成式人工智能在為社會帶來積極變革和影響的同時，也引發了諸多個人信息保護層面的問題。2023年3月20日，Chatgpt發生了一起嚴重的信息安全事故，部分用戶的聊天記錄片段、用戶信用卡信息（包括最後四位數字、到期日期）、姓名、電子郵件地址和付款地址等敏感信息遭到洩露。3月31日，意大利數據保護當局gpdp宣佈，由於openAi未經同意收集、使用和披露個人信息，即刻對Chatgpt施加暫時限制，成為全球範圍內第一道針對Chatgpt的政府禁令。而當前諸多跡象預示生成式人工智能應用即將迎來大規模普及。這意味著，生成式人工智能給個人信息保護帶來的潛在風險可能伴隨人工智能技術的發展而持續發酵。為促進生成式人工智能的健康發展與規範應用，國家網信辦聯合國家發展改革委、教育部、科技部等七大部門於2023年7月13日公佈《生成式人工智能服務管理暫行辦法》，並自2023年8月15日起施行。人類社會在迎接新興人工智能科技發展同時，須直面與冷靜審視生成式人工智能技術的正當性，須前瞻性思考、設計與配置與之匹配兼容的個人信息保護系統制度。

一、生成式人工智能開發凸顯個人信息保護風險

以Chatgpt為代表的生成式人工智能產品首先於2022年底在美國推出，目前已被廣泛用於智能辦公、智慧科研等許多領域，或將成為推動第四次工業革命的關鍵因素。從生成機制來看，生成式人工智能本質上是一種“生成型預訓練語言轉換器”。生成式人工智能技術服務提供者通過各種方式收集海量數據來形成語料庫，再通過連接大量的語料庫來訓練模型，以使其能夠學習和理解人類語言，並進行交流對話和內容生成。這一過程中伴隨著循環式的數據收集與分析，涉及大量的個人信息處理活動，無疑將給個人信息保護帶來相應風險及多重挑戰。

（一）告知同意規則被架空的風險

告知同意是我國個人信息處理的核心準則，這一規則要求信息處理者在處理個人信息時須履行告知義務，並徵得信息主體明確同意，方可進行處理，其目的在於確保信息主體對其個人信息的處理過程具有充分的控制權和知情權。《網絡安全法》一度將告知同意作為個人信息處理的唯一合法性基礎，後來頒佈的《個人信息保護法》儘管規定了更加多元化的合法性基礎，但仍保留了告知同意基礎性的地位。然而，在生成式人工智能的開發和應用過程中，尤其是語料庫構建與更新的過程中，告知同意規則往往無法得到有效的貫徹。

生成式人工智能語料庫的構建與更新可以分為被動和主動兩種類型。被動的語料庫構建與更新指大量用戶通過對話框自行輸入信息，系統自動將該類信息保存並納入語料庫。生成式人工智能技術的高度自動化和複雜性特點使得其難以在自動收錄用戶個人信息時向信息主體提供充分、全面的告知，讓信息主體完全瞭解個人信息的處理過程和結果，從而造成對告知同意規則的違背。以Chatgpt為例，openAi的服務條款規定openAi可以廣泛使用用戶輸入和輸出的內容，將其納入語料庫並用於改進Chatgpt。Chatgpt用戶在首次註冊賬號時將收到來自系統的個人信息收集提示，用戶點擊彈窗下方“下一步”即視為對其個人信息收集的同意許可。然而，從彈窗提示和openAi隱私政策具體內容來看，均只涉及到基本的信息收集事項，不涉及具體的個人信息處理方式和算法規則，而這恰恰是生成式人工智能個人信息處理中最為關鍵的內容。尤其是在語料庫模型訓練方面缺乏透明度和公開性，這導致用戶無法全面瞭解其個人信息的處理流程、用途、保存期限等關鍵信息，從而無法判斷自己的信息是否被合理使用和保護。可見，openAi在收集用戶個人信息時未完全履行告知義務。同時，由於用戶只能選擇接受隱私政策並同意信息處理，否則將無法享受由Chatgpt提供的服務，用戶的同意實際上並不是真正的自主選擇，往往只是一個形式上的程序。

主動的語料庫構建與更新則包括數據爬蟲、圖書數字化、收集學術文獻數據等方式，其中以數據爬蟲為主。openAi官方網站的“我們的方法”頁面表明，為支持其人工智能系統的訓練和發展，openAi使用數據爬蟲技術來獲取大量的文本數據。這些數據來源包括博客、Bing搜索引擎、維基百科等公共網站和在線資源，以及專業非營利性組織如Common Crawl通過其他渠道獲得的數據。數據爬蟲技術可以通過程序自動地收集互聯網上的大量數據，這種收集方式的優點在於其能夠快速、高效地獲取大量的數據，使得模型的訓練和表現更加準確和可靠。然而，這些數據中可能存在個人信息，其來源難以追溯和驗證。生成式人工智能通過“灌入”這些數據，未經告知和徵得信息主體同意，直接架空個人信息處理的告知同意規則。可見，在生成式人工智能語料庫構建與更新的過程中，無論是被動的個人信息“輸入-收錄”還是主動的數據爬取，告知同意規則均在一定程度上處於缺位狀態。

（二）最小必要原則被虛置的風險

最小必要原則要求信息處理者在處理個人信息時，必須有明確、合理的處理目的，並且該目的必須與個人信息的處理直接相關，同時採用對個人權益影響最小的方式進行處理。該原則包括三方面的內容，即最小化、相關性和合比例性。最小必要原則源自傳統的比例原則，是國內外法律實踐中被普遍接受的個人信息處理原則，我國個人信息保護法草案歷次審議稿中均包含關於最小必要原則的規定。然而，在生成式人工智能應用實踐中，存在著信息收集超出必要範疇、信息處理期限不明、信息用途不清晰等問題，這些問題導致最小必要原則難以得到有效的貫徹。

首先，最小必要原則中的信息處理最小化要求個人信息處理應限制在為實現特定目的所必不可少的範圍內，即離開某項個人信息的處理，就無法合理地通過其他手段實現目的。信息處理最小化可進一步細化為最少數量、最少類型、最短存儲時間、最小共享範圍、最低處理頻率等具體內容。生成式人工智能作為一個超大型語言模型，通常需要逾億萬單詞的人類語言數據支持。海量訓練數據的收集是其獲取語言生成能力、上下文理解能力和世界知識能力的關鍵前提，但也可能因此在信息處理數量、頻率、類型等方面違背信息處理最小化要求。例如，在生成式人工智能應用實踐中，由於其數據處理方式的複雜性和不確定性，往往難以確定個人信息的處理期限。當生成式人工智能的應用場景發生變化或數據集需更新時，信息處理者可能需要重新處理之前收集的個人信息。這種情況可能會導致信息主體只同意了一次處理，卻面臨自己的個人信息被無期限處理的情形，這與個人信息處理的最小必要原則不相符。其次，根據《個人信息保護法》第6條第1款，最小必要原則中的相關性要求必須是直接相關，即實現處理目的與個人信息處理之間具有必然的、緊密的聯繫。在語料庫構建過程中，生成式人工智能有時會收集與處理目的無關的個人信息，例如用戶的搜索記錄、設備信息、通信信息，用戶的時區、地點、國家、日期和具體接觸時間等。這些信息的收集與最終的文本生成服務之間缺乏必要聯繫，違背最小必要原則中的相關性要求。最後，最小必要原則中信息處理合比例性要求個人信息處理所帶來的風險與特定目的實現所帶來的利益相比須符合一定比例。然而，生成式人工智能語料庫數據中包含大量敏感的用戶個人身份信息，如姓名、電子郵件地址、電話號碼等，而這些信息並非實現優化模型目的必不可少，一旦這些敏感個人信息洩露或被不當利用，容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害。因此，處理敏感個人信息所帶來的風險與實現特定目的所帶來的利益（優化語言模型）相比顯著不合比例，不符合最小必要原則中最小化、合比例性兩個子原則的要求。

（三）虛假信息生成與累積的風險

生成式人工智能強大的泛化和生成能力也為個人信息保護帶來一系列負面影響，尤其是大量虛假信息生成與累積。根據《個人信息保護法》第8條，處理個人信息應當保證個人信息的質量，避免因個人信息不準確、不完整對個人權益造成不利影響。然而，據美國新聞可信度評估與研究機構newsguard測試，Chatgpt模型能夠在極短時間內改變信息，生成大量令人信服但缺乏信源的內容。究其原因，生成式人工智能生成的內容是基於對語料庫的學習和預測，是一種經驗的再現，並非從語義和邏輯角度進行推理和判斷的產物，對於生成內容本身的真實性和準確性，生成式人工智能無法進行判斷。這一特點可能導致生成式人工智能產生大量虛假信息，從而侵害個人信息權益，甚至造成對公共利益和國家利益的危害。

事實上，虛假信息生成與累積、乃至氾濫已開始對社會和個人產生嚴重影響。近期，一起由信息來源不實引發的Chatgpt編造法學教授性騷擾醜聞事件，再次凸顯生成式人工智能所帶來的信息可信度和可靠性方面的潛在風險。這種看似中立可信的技術能力實則對判斷能力不足的用戶產生極大了誤導性，同時也對相關信息主體的個人信息權益、名譽權、隱私權以及其他人格權造成損害。可以設想，如果虛假信息被誤用於學術研究，將會嚴重影響科學研究的嚴謹性，並導致相關政策制定缺乏合理性。更為嚴重的是，惡意用戶行為者或團體可能會利用該技術故意製造和傳播虛假的新聞和信息，甚至生成不端或仇視性的信息，以操縱輿論。這將嚴重影響政治穩定，破壞公眾對政治體系和社會價值觀的信任。

在當今全球各種思潮、文化和價值觀念相互碰撞的背景下，人工智能技術面臨著被政治操縱、用作意識形態宣傳的風險，我國在生成式人工智能開發與應用中應當重點關注防範。西方發達國家掌握大數據和人工智能核心技術，按照其自身價值觀制定全球政治秩序和規則，裁剪符合自身意識形態標準的數據庫，加劇全球信息體系和政治秩序中的不平等和壟斷現象。在這種背景下，生成式人工智能技術服務提供者可以通過操縱算法或裁剪數據庫的方式，在模型中植入某些價值觀。如果開發者持有歷史錯解、文化偏見或種族歧視的價值觀，這些觀念可能會最終呈現為不實或仇視性的文本信息，並通過模型與用戶的互動產生潛在的不利意識形態影響。在當今高度互聯的社會中，生成式人工智能大面積生成虛假信息已經不再是單純的個人信息權益問題，而是關係到國家安全和穩定的核心議題。2016年微軟的聊天機器人tay被黑客攻擊，並被惡意操作，在網上傳播種族主義和仇恨言論便是先例。meta開發的聊天機器人meta Ai也有類似的經歷。

（四）個人信息洩露頻發的風險

個人信息洩露頻發風險是生成式人工智能將給個人信息保護帶來的又一大痛點。當前，生成式人工智能應用中的個人信息安全面臨來自人工智能系統內在隱患與外部風險的雙重考驗。Chatgpt開發者openAi的首席技術官米拉·穆拉蒂率先表示，必須謹慎使用Chatgpt，切勿在其上上傳敏感信息或核心數據，以免信息洩露，導致損失。為此，許多互聯網公司紛紛向員工發出相關警報。微軟基於預防商業機密洩露的考慮，已宣佈禁止公司員工向Chatgpt分享公司敏感數據。同樣，亞馬遜公司律師也警告員工“不要與Chatgpt分享任何亞馬遜的機密信息，因為他們有可能將其用於訓練未來的模型。”事實證明，這種擔心並非多餘。近日，就在gpt-4最新發布之際，Chatgpt出現嚴重技術漏洞，用戶在社交媒體上表示看到其他人的歷史搜索記錄標題。openAi隨即立刻關閉Chatgpt，當用戶再次打開該系統時，歷史聊天記錄側邊欄已被替換為“歷史記錄暫不可用，我們正在努力盡快恢復這一功能”。該事件正是由內部開源數據庫錯誤所致，隨後openAi首席執行官sam Altman在社交媒體發文，宣佈修復程序已驗證完成，並對此“感覺十分糟糕”。可見，與其他人工智能技術一樣，生成式人工智能模型本身存在著漏洞和安全隱患。諸如模型設計不當、存儲系統錯誤、算法漏洞等都可能導致用戶個人信息洩露頻發。此外，黑客入侵人工智能系統的技術已催生出一個龐大黑色產業鏈，犯罪分子通過植入病毒性插件侵入數據庫，也將對用戶個人信息安全造成嚴重威脅。

第307章 風險與控制：論生成式人工智能應用的個人信息保護

第307章風險與控制：論生成式人工智能應用的個人信息保護