您所在的位置: 首頁 >
新聞資訊 >
技術(shù)前沿 >
ChatGPT 的發(fā)展現(xiàn)狀、風(fēng)險及應(yīng)對
任何事物往往都具有兩面性,ChatGPT 在帶來技術(shù)發(fā)展紅利的同時,也引發(fā)對此類技術(shù)的使用規(guī)范、監(jiān)督和風(fēng)險管理等問題的討論。認清 ChatGPT 的本質(zhì)和局限性、研判潛在的風(fēng)險和挑戰(zhàn),結(jié)合信息安全和倫理道德的約束,提出相應(yīng)的風(fēng)險評判標準,以及推進人工智能技術(shù)健康發(fā)展的對策建議,對同類人工智能技術(shù)的發(fā)展規(guī)劃和落地實施,具有必要的作用。
一、人工智能發(fā)展進入新階段
一、人工智能發(fā)展進入新階段
生成式人工智能的本質(zhì)是通過從數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的概率分布,從而生成新的數(shù)據(jù)或預(yù)測未來的數(shù)據(jù)。生成式人工智能大多使用生成模型,例如傳統(tǒng)的高斯混合模型、隱馬爾可夫模型,其中,深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)、對抗生成神經(jīng)網(wǎng)絡(luò)也是重要的生成模型。在 ChatGPT 出現(xiàn)之前,生成式人工智能就已經(jīng)開始應(yīng)用在不同場景,例如股票預(yù)測、智能對話、機器翻譯等。但是,生成式模型在實際應(yīng)用過程中存在推理速度慢、長距離依賴等問題。因此,在生產(chǎn)活動中,依然以分析式人工智能為主。隨著近年來科研成果的推陳出新,人工智能的落地應(yīng)用開始從分析式人工智能逐步轉(zhuǎn)向生成式人工智能,其原因在于:第一,數(shù)據(jù)量的增加?;ヂ?lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的發(fā)展生成了大量可用的數(shù)據(jù),豐富了生成式人工智能的數(shù)據(jù)資源,為大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn)奠定了基礎(chǔ)。第二,計算能力的提升?,F(xiàn)代計算機和云計算技術(shù)的發(fā)展,使原來的摩爾定律不再適用,也使訓(xùn)練更深、更大的深度神經(jīng)網(wǎng)絡(luò)成為可能。第三,算法的改進。上述環(huán)境的改變,促使大規(guī)模預(yù)訓(xùn)練模型誕生。這意味著模型具備更豐富的知識,而其計算和推理的能力也大幅的提升,更準確地模擬真實世界的數(shù)據(jù)分布。這些原因并不能直接促使人工智能發(fā)展方向的改變,卻為生成式人工智能被更好地應(yīng)用到工業(yè)生產(chǎn)和真實生活中埋下了種子。而且,ChatGPT 產(chǎn)品的成功應(yīng)用,則意味著這顆種子的生長進入了一個新的階段。
一是基于大數(shù)據(jù)的大模型。Transformer 模型保證了 ChatGPT 的基本生成能力。GPT 系列的模型本體是基于 Transformer 模型的解碼器堆疊而成的,相較于原本的 Transformer 解碼器,GPT 模型移除了多頭編碼器-解碼器注意力模塊,僅保留了多頭掩碼自注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)模塊;多頭掩碼自注意力模塊保證輸出語義信息的多樣性和自回歸生成的過程?;?Transformer 模型的自注意力機制和位置編碼等特性,GPT 模型能更好捕捉長距離依賴關(guān)系和上下文信息,生成連貫的語言表達。而且,大數(shù)據(jù)保證了 ChatGPT 的知識儲備。GPT 的訓(xùn)練數(shù)據(jù)包含了文本語料庫、網(wǎng)絡(luò)文章、社交媒體、電子書籍、維基百科等多領(lǐng)域多類型的海量文本數(shù)據(jù),保證了 GPT 模型有足夠的“知識”和強大的“推理”能力。GPT 本質(zhì)是自回歸生成的語言模型。Prompt Tuning 作為一種微調(diào)預(yù)訓(xùn)練模型技術(shù),幫助預(yù)訓(xùn)練模型更好地適應(yīng)具體的任務(wù)和應(yīng)用場景,生成更加精準的語言,保證了 ChatGPT 的適應(yīng)能力。InstructGPT 引入的基于人類反饋的強化學(xué)習(xí)(RLHF)模型促進生成符合人類觀點和價值觀的內(nèi)容,保證了 ChatGPT 生成文本的精確性和真實性??梢姡珻hatGPT 背后的技術(shù)依然是在深度學(xué)習(xí)的框架內(nèi),其效果也是在一次次訓(xùn)練迭代和人工的指導(dǎo)下完成的,其知識儲備更多是來自訓(xùn)練數(shù)據(jù)。
二是滿足內(nèi)容生成需求。隨著人們接受新鮮事物的渠道越來越多,承受能力越來越強,傳統(tǒng)的專家生成內(nèi)容(PGC)和用戶生成內(nèi)容(UGC)已經(jīng)不能滿足人們的信息需求。在 ChatGPT 之前,已經(jīng)有基于對比語言-圖像預(yù)訓(xùn)練(CLIP)模型的迪斯科擴散(Disco Diffusion)、達利-2(DALLE-2)的人工智能繪畫軟件,而基于人工智能的生成內(nèi)容(AIGC)在傳媒、電商、影視、娛樂、教育等領(lǐng)域都得到了廣泛的應(yīng)用。AIGC 的出現(xiàn)正在彌補內(nèi)容生產(chǎn)的缺口,諸如 ChatGPT 之類的產(chǎn)品也確實展現(xiàn)了更加人性化和智能化的創(chuàng)作水平。這些幾乎沒有準入技術(shù)門檻的產(chǎn)品,使每個人都可能成為創(chuàng)作者;而海量的訓(xùn)練數(shù)據(jù)也在一定程度上改善了生成內(nèi)容的質(zhì)量。目前,ChatGPT 之類的產(chǎn)品創(chuàng)作依然受限于人的“指令引導(dǎo)”。根據(jù)用戶的輸入,模型會根據(jù)從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的“知識”生成用戶所需要的內(nèi)容。該過程從以往需要用戶自己負責(zé)創(chuàng)意產(chǎn)生、內(nèi)容創(chuàng)作,發(fā)展到現(xiàn)在只需要用戶有一個想法就可實現(xiàn)初步的創(chuàng)作。
三是改進人機交互體驗。ChatGPT 采用了基于語言模型的生成式對話系統(tǒng),通過多輪對話、上下文感知、模型優(yōu)化等技術(shù),實現(xiàn)了更加自然、流暢和智能的對話,從而使用戶感覺在與一個真正的人進行交流。這種自然的交流方式突破了傳統(tǒng)文本輸入的限制,使對話更加順暢,主要表現(xiàn)在:第一,多輪對話。從用戶的反饋看,ChatGPT 相較于過往的對話系統(tǒng),能進行更多輪對話,聊天主題也不會發(fā)生偏離。第二,上下文感知。ChatGPT 能夠有效將上下文信息與用戶的輸入進行結(jié)合,理解用戶的意圖和需求,并生成相應(yīng)的回復(fù),從而使用戶感覺自己在與一個真正理解自己的人進行對話。第三,模型優(yōu)化。ChatGPT 采用了大規(guī)模語料訓(xùn)練、預(yù)訓(xùn)練-微調(diào)等優(yōu)化技術(shù),提高了模型的生成能力和準確性,使 ChatGPT 可以生成更加準確、有條理和自然的回復(fù),并具有更好的魯棒性和泛化能力。
四是實現(xiàn)多維數(shù)據(jù)融合。ChatGPT 可以從多個不同維度獲取數(shù)據(jù),通過將訓(xùn)練階段的社交媒體、新聞、百科、論壇、網(wǎng)站、社區(qū)等數(shù)據(jù)與部署階段的搜索引擎實時數(shù)據(jù)的深度融合,更好地理解用戶的意圖和需求,生成更加準確和自然的回復(fù)。從本質(zhì)上講,ChatGPT 是對現(xiàn)有數(shù)據(jù)的深度融合,并不存在創(chuàng)造力,所回答的內(nèi)容并不會超出現(xiàn)有的知識范圍,而且機器本身并不能真正理解所提問題的真實含義,以及它所表達的真實邏輯。因此,既要肯定 ChatGPT 在技術(shù)層面的巨大進步,也要認識它的局限性。本質(zhì)上,ChatGPT 是一個基于大數(shù)據(jù)人工智能的階段性成果,并不具有真正意義上的創(chuàng)造力,要實現(xiàn)人工智能領(lǐng)域質(zhì)的飛躍,還需要相關(guān)專家學(xué)者的進一步技術(shù)“深耕”。
二、ChatGPT 帶來的風(fēng)險
二、ChatGPT 帶來的風(fēng)險
與 ChatGPT 強大的生成能力相伴而生的是一系列風(fēng)險和挑戰(zhàn)。充分認識并應(yīng)對這些問題,需要深入了解 ChatGPT 面臨的風(fēng)險挑戰(zhàn),并采取相應(yīng)的措施確保其安全、可靠和有益的應(yīng)用。
(一)信息安全風(fēng)險
ChatGPT 的訓(xùn)練數(shù)據(jù)和算法模型決定了它的內(nèi)容和輸出。由于 ChatGPT 訓(xùn)練數(shù)據(jù)大多來自網(wǎng)絡(luò),其內(nèi)容本身的真實性、完備性、嚴謹性無法得到保證,易導(dǎo)致生成內(nèi)容存在片面、虛假或誤導(dǎo)性信息,帶來信息混亂,干擾用戶獲取科學(xué)權(quán)威信息。此外,如果訓(xùn)練數(shù)據(jù)中存在特定價值判斷、政治偏見或帶有意識形態(tài)宣傳性質(zhì)的數(shù)據(jù)內(nèi)容,就會導(dǎo)致輸出的內(nèi)容呈現(xiàn)特定政治立場觀點,甚至成為某些國家和組織進行輿論操控、干擾選舉、挑起事端、顛覆活動的意識形態(tài)工具,威脅國家安全和社會穩(wěn)定。美國黑莓公司 2023 年 2 月的研究報告《信息技術(shù)領(lǐng)袖預(yù)測 ChatGPT 驅(qū)動的網(wǎng)絡(luò)攻擊即將到來》(IT Leaders Predict ChatGPT-Enabled Cyberattacks AreImminent)的問卷調(diào)查數(shù)據(jù)表明,71% 的接受調(diào)查人員認為,一些國家可能已經(jīng)將該技術(shù)應(yīng)用于針對其他國家的惡意目的。
(二)網(wǎng)絡(luò)安全風(fēng)險
ChatGPT 所用過的訓(xùn)練數(shù)據(jù)包含了大量的編程語言和技術(shù)文檔,這就意味著 ChatGPT 具備生成惡意代碼的能力。公開資料顯示,ChatGPT 被刻意用于創(chuàng)建編寫用于間諜、勒索軟件、垃圾郵件、社會工程攻擊、撞庫攻擊等惡意代碼,降低了實施網(wǎng)絡(luò)攻擊的技術(shù)門檻,成為網(wǎng)絡(luò)攻擊者的有力助手。ChatGPT 不斷催生新的“一鍵式”“傻瓜式”的網(wǎng)絡(luò)攻擊手段和工具,加劇了網(wǎng)絡(luò)犯罪活動自動化、智能化、隱蔽化、大眾化,給網(wǎng)絡(luò)空間安全帶來諸多不確定性。記錄未來(Recorded Future)公司的一篇名為《我,聊天機器人》的研究報告指出,已在暗網(wǎng)和封閉論壇發(fā)現(xiàn)了 1500 多條使用 ChatGPT 進行惡意代碼開發(fā)的記錄。
(三)數(shù)據(jù)安全風(fēng)險
非法收集數(shù)據(jù)、侵犯個人隱私風(fēng)險。ChatGPT 的訓(xùn)練數(shù)據(jù)的來源主要是互聯(lián)網(wǎng),可能未經(jīng)過用戶同意和授權(quán)進行數(shù)據(jù)訓(xùn)練,并用于提供商業(yè)化服務(wù),存在非法收集數(shù)據(jù)、侵犯個人隱私的風(fēng)險。開發(fā)商 OpenAI 并沒有對 ChatGPT 的數(shù)據(jù)來源做詳細說明。OpenAI 的使用條款規(guī)定了 OpenAI 對用戶輸入和輸出內(nèi)容擁有廣泛使用權(quán),目的是將其納入訓(xùn)練數(shù)據(jù)庫、用于改善 ChatGPT。截至目前,OpenAI 并未詳細說明該機制將如何有效運行。ChatGPT 具備連續(xù)問答功能,收集用戶提問軌跡,使用戶存在被以熟人式誘導(dǎo)方式推送更多精準信息,獲取用戶行為習(xí)慣、興趣偏好等隱私信息,進而進行用戶“精準畫像”,加劇“信息繭房”效應(yīng),給用戶隱私保護和生命健康帶來潛在影響。
敏感數(shù)據(jù)泄露風(fēng)險。在發(fā)現(xiàn) ChatGPT 生成的文本中含有疑似商業(yè)機密的情況后,微軟與亞馬遜先后禁止公司員工向 ChatGPT 發(fā)送公司機密信息。若用戶在輸入請求時輸入個人相關(guān)信息、業(yè)務(wù)數(shù)據(jù)或涉及商業(yè)秘密等的內(nèi)容,將增加相關(guān)數(shù)據(jù)泄露的風(fēng)險。這種數(shù)據(jù)泄露風(fēng)險具體可體現(xiàn)在直接泄露與間接泄露兩方面。直接泄露與通常意義上的隱私泄露類似,攻擊者通過一些手段,竊取了用戶的對話內(nèi)容。間接泄露則是因為采用用戶的對話內(nèi)容(如商業(yè)機密、隱私、核心算法等)訓(xùn)練 GPT 模型后,模型具備了上述能力,導(dǎo)致隱私內(nèi)容可能被其他 ChatGPT 用戶獲取到。
催生新的“數(shù)據(jù)霸權(quán)”。隨著 ChatGPT 的廣泛應(yīng)用,用戶規(guī)模的快速上漲和數(shù)據(jù)的頻繁交互,ChatGPT 背后的科技公司不斷積攢其計算資源更豐富、算法模型更先進、數(shù)據(jù)質(zhì)量更優(yōu)質(zhì)的先發(fā)優(yōu)勢,不斷構(gòu)筑全球數(shù)據(jù)收集、信息處理、大模型訓(xùn)練的壟斷式競爭優(yōu)勢,逐步形成“強者恒強”的馬太效應(yīng),催生新的“數(shù)據(jù)霸權(quán)”“算法霸權(quán)”,繼而形成大型科技平臺公司的壟斷權(quán)力,威脅政府公信力。
(四)社會穩(wěn)定風(fēng)險
倫理道德。ChatGPT 模型對世界的理解和表現(xiàn)可謂是基于海量數(shù)據(jù)的一種經(jīng)驗,其道德行為是由它所使用的算法和在決策過程中內(nèi)置的價值觀和道德原則決定的。例如,為自動駕駛汽車設(shè)計的人工智能系統(tǒng)可能會優(yōu)先考慮安全問題,然而,車內(nèi)人員與車外人員安全的優(yōu)先級孰輕孰重則很大程度上由設(shè)計和執(zhí)行人工智能系統(tǒng)的人決定,所以,人工智能系統(tǒng)的倫理最終取決于創(chuàng)建它的人的倫理。人工智能系統(tǒng)規(guī)模日趨龐大,截至目前,仍缺乏對 ChatGPT 等人工智能生成模型進行審查的系統(tǒng)性方法。如果將生成式人工智能技術(shù)用于政治謠言、污蔑抹黑,就會給政治安全和國家安全帶來重大危害。
知識產(chǎn)權(quán)。ChatGPT 之所以能夠回答不同領(lǐng)域的各類問題,是因為它有龐大的語料庫和知識庫做支撐。利用 ChatGPT 根據(jù)輸入提示自動生成內(nèi)容的特性,用戶可實現(xiàn)代寫課程作業(yè)甚至撰寫學(xué)術(shù)論文等創(chuàng)造性工作。從著作權(quán)法的角度看,這些通過人工智能技術(shù)拼接、整合得到的“答案”是否構(gòu)成作品、是否存在侵權(quán)風(fēng)險,如何有效評估人工智能創(chuàng)作中的知識產(chǎn)權(quán)原創(chuàng)性以及平衡二者之間的矛盾等,都是亟需認真考慮的問題。
三、對策建議
三、對策建議
生成式人工智能如 ChatGPT 正逐漸展現(xiàn)出其無限潛力和廣闊前景。然而,隨著其應(yīng)用范圍的不斷擴大,多方面的風(fēng)險挑戰(zhàn)逐漸顯現(xiàn)。因此,需要進行引導(dǎo)和管理。
一是完善人工智能發(fā)展的頂層設(shè)計。以 ChatGPT 為代表的生成式人工智能將成為未來研究熱點和產(chǎn)業(yè)化新方向,應(yīng)緊抓發(fā)展機遇,完善頂層設(shè)計,統(tǒng)籌資源配置,夯實產(chǎn)業(yè)根基,規(guī)范健康發(fā)展,打造人工智能安全發(fā)展良性生態(tài)。充分發(fā)揮科技創(chuàng)新的引領(lǐng)作用,加快核心技術(shù)創(chuàng)新突破,鼓勵人工智能優(yōu)勢企業(yè)加大科研投入,推動新場景、新應(yīng)用的落地實踐,增強我國在人工智能領(lǐng)域的國際競爭力。建議進一步健全相應(yīng)知識產(chǎn)權(quán)保護機制,明確人工智能創(chuàng)作內(nèi)容的權(quán)利歸屬。既要鼓勵人工智能創(chuàng)作,促使人工智能生成技術(shù)為社會創(chuàng)造更大價值,又要防止人工智能生成內(nèi)容的侵權(quán)以及大量同質(zhì)化內(nèi)容影響自然人創(chuàng)新的積極性。
二是加強風(fēng)險評估和監(jiān)督管理。建議從主動鑒別和被動鑒別兩個維度,研發(fā)高效可靠人工智能生成內(nèi)容鑒別方法。在主動鑒別方面,加強對相關(guān)企業(yè)的監(jiān)管,督促落實信息安全主體責(zé)任,建立健全用戶注冊、信息發(fā)布審核、應(yīng)急處置等技術(shù)保障措施,規(guī)范開展生成信息內(nèi)容的標識以及針對敏感重要數(shù)據(jù)的安全評估工作,確保深度合成類應(yīng)用符合國家和大眾利益。在被動鑒別方面,加強隱藏編碼識別、水印加注等技術(shù)手段建設(shè),提升人工智能生成內(nèi)容鑒別準確性,完善針對網(wǎng)絡(luò)謠言、蓄意抹黑等不良信息內(nèi)容的治理,凈化網(wǎng)絡(luò)空間。
三是倫理道德治理。人工智能系統(tǒng)所表現(xiàn)出的倫理道德很大程度上由模型的設(shè)計者決定。因此,應(yīng)加強人工智能倫理治理,建設(shè)人工智能系統(tǒng)智能評測平臺(體系),將“科技向善”等倫理融入人工智能全生命周期。建議將計算機和人工智能從業(yè)人員的思想道德建設(shè)作為第一道防線,在研發(fā)階段做好治理策略的融入;將人工智能相關(guān)企業(yè)、行業(yè)的自律作為第二道防線,建立企業(yè)、行業(yè)的自律組織,出臺行業(yè)自律規(guī)范,促使相關(guān)企業(yè)在技術(shù)工程的開發(fā)、設(shè)計、應(yīng)用方面均恪守正確的價值觀、科技倫理基本原則;將智能評估作為第三道防線,構(gòu)建嚴格的倫理領(lǐng)域的風(fēng)險控制體系和專業(yè)的倫理風(fēng)險控制機制,建立高效可靠的人工智能系統(tǒng)智能評測平臺,實現(xiàn)產(chǎn)品立項、發(fā)布、運營等全生命周期的人工智能倫理審核;將倫理、政策與法律的多維度監(jiān)管作為最后一道防線,綜合運用社會輿論、政策引導(dǎo)、法律規(guī)范等多種力量,引導(dǎo)人工智能技術(shù)的安全有序發(fā)展。
四是構(gòu)建完備中文知識體系。ChatGPT 在中文交互服務(wù)上存在“知識盲區(qū)”“政治偏見”,直接原因是 ChatGPT 的訓(xùn)練數(shù)據(jù)主要以外文為主,根本原因是中文知識體系在全球知識體系的占比較低。截至 2020 年 3 月,W3Techs 預(yù)測,前一百萬互聯(lián)網(wǎng)網(wǎng)站使用的語言文字百分比中,英語占 59.3%,中文僅占 1.3%。要構(gòu)架更加強大豐富的中文知識體系,一方面,要加強中文推廣使用,講好“中文故事”,另一方面,要加強世界知識體系的中文吸收和轉(zhuǎn)化的能力,用中文“講述世界故事”,提升中文在世界知識體系的占比。
五是加強數(shù)據(jù)保護。在技術(shù)層面,建議進一步規(guī)范互聯(lián)網(wǎng)數(shù)據(jù)的獲取使用,提升數(shù)據(jù)使用方式的透明度。模型研發(fā)過程需保證訓(xùn)練數(shù)據(jù)獲取的合法性,包括合法使用爬蟲技術(shù)、合法處理個人信息等;模型應(yīng)用后應(yīng)嚴格保護企業(yè)商業(yè)秘密和個人隱私,對存在泄露用戶隱私風(fēng)險的場景,應(yīng)提前征得用戶同意。在政策層面,建議進一步加強相關(guān)技術(shù)標準體系中隱私保護內(nèi)容的構(gòu)建,建立隱私數(shù)據(jù)分類保護制度。在數(shù)據(jù)的收集和存儲、共享和交換、使用和加工等層面,應(yīng)建立全生命周期的安全標準和規(guī)范。同時,應(yīng)進一步建立健全如隱私條款、合規(guī)評估等政策措施,從法律層面確保個人數(shù)據(jù)的安全。
六是加強人才培養(yǎng)和技能培訓(xùn)??萍几偁幍膶嵸|(zhì)是人才,擴大創(chuàng)新型、復(fù)合型人才培養(yǎng)??茖W(xué)技術(shù)的競爭,歸根結(jié)底是人才與教育的競爭。要圍繞人工智能等新興技術(shù)建設(shè)一支規(guī)模大、結(jié)構(gòu)合理、素質(zhì)優(yōu)良的創(chuàng)新人才隊伍,用足用好國家人才引進政策,加強國外高水平創(chuàng)新團隊的引進,注重國內(nèi)“高素質(zhì)、拔尖”人才的培養(yǎng),同時增大我國高(中)等院校在新興技術(shù)人才培養(yǎng)規(guī)模,擴大本土創(chuàng)新融合性人才培養(yǎng)。深入推進《提升全民數(shù)字素養(yǎng)與技能行動綱要》實施,完善職業(yè)技能培訓(xùn)體系,提升高效率,消解“職業(yè)恐慌”。引導(dǎo)支持新興職業(yè)群體,積極利用 5G、人工智能、虛擬現(xiàn)實、大數(shù)據(jù)、區(qū)塊鏈等數(shù)字技術(shù)創(chuàng)新創(chuàng)業(yè)。
原文來源:中國信息安全