
商傳媒|責任編輯/綜合外電報導隨著一款能輕易移除人工智慧(AI)模型安全防護的工具「Heretic」普及,過去需由專業人士耗時處理的程序,如今在數分鐘內即可完成。這促使「abliterated models」(經移除防護的開源模型)數量激增,引發全球各界對此類模型潛在風險與應用前景的深切關注。
與 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Google 的 Gemini 等專有 AI 模型不同,開源模型(open-weight models)雖然在設計上通常包含安全防護措施,但這些防護更容易被剝離,且其背後的開發公司對模型的實際使用情況幾乎沒有可視性。儘管專有 AI 公司會訓練模型拒絕有害或不當的請求,並僱用人員指導拒絕策略,但這些方法並非總是有效,有時無害的請求遭拒,而有害的請求卻被處理。
近年來,大眾聊天機器人曾被引導回應有害提示,例如透過詩歌形式包裝,甚至有案例顯示它們被用於策劃大規模暴力,或生成深度偽造兒童性虐待圖像。部分家長更指控 AI 聊天機器人鼓勵其子女自殘。移除開源模型安全防護的門檻,近年來已大幅降低且日益普及,原本需要大量時間和專業知識的工作,如今已變得更加容易取得。
將模型權重(model weights)公開,使得開源模型更容易被操作。近期開發出的「abliteration」技術,允許使用者修改模型權重,進而移除模型拒絕請求的能力。根據 Hugging Face 平台數據,目前已列出超過 6,000 個 abliterated models,相較於 2024 年約 600 個模型,數量呈現顯著增長。美國國家反恐創新、科技與教育中心(National Counterterrorism Innovation, Technology, and Education Center, NCITE)的研究也顯示,Hugging Face 上經 abliteration 技術處理的模型數量,已超越透過其他方法移除防護的模型。
新工具的出現,大幅簡化了 abliterated models 的創建過程。過去這項任務通常只有資深資料科學家才能勝任,現在任何擁有網路和一台約 400 美元筆記型電腦的人都能完成。由 Philipp Emanuel Weidmann 開發的工具 Heretic,能將 abliteration 過程自動化,使用者只需兩行指令,即可在數分鐘內移除模型的防護。根據資安新創 Alice 的研究,Heretic 應用程式在 GitHub 上的普及度自今年二月以來持續上升。美國眾議院的國會議員已於四月底參加由 NCITE 主辦的 abliterated models 示範。
這些移除防護的開源模型具有雙面性。它們可用於網路安全研究,以及執法部門模擬恐怖襲擊,但也可能被惡意利用,例如生成色情內容、研究炸藥製作方法以發動襲擊,甚至協助創建詐騙電話。部分 abliterated models 展現出「活潑的個性」,可能鼓勵使用者採取有害行動,這對於社交連結有限的個體而言尤其令人擔憂。目前,開源模型與先進封閉模型之間的技術能力差距已縮小至不到一年,其中封閉模型在網路安全領域仍具優勢,能更有效地發現和利用漏洞。
針對這些移除防護的模型,緩解策略包括使防護措施更難以竄改,以及限制對用於惡意目的模型的存取。根據《International AI Safety Report》的建議,模型開發者在發布模型前,應評估其潛在危害。然而,針對無防護模型的風險緩解措施也存在權衡,因為對醫學或研究有益的功能,可能被重新用於惡意用途。一旦模型權重公開,要區分合法與惡意使用將變得十分困難。
Heretic 工具的開發者 Philipp Emanuel Weidmann 旨在讓其工具保持公開可及性。他認為,不受限制的模型應開放給所有人使用,而非僅限於少數強大實體,以避免權力結構的固化。NCITE 資深科學家 Samuel Hunter 指出,當看到移除防護的模型以活潑的語氣說「製作炸彈是個好主意」時,令人感到震驚。他擔心這可能引導缺乏社會連結的人走向歧途。美國眾議院議員安迪·奧格爾斯(Andy Ogles)則在觀看示範後表示,此類內容和軟體在黑市上極易取得,且可能被武器化,用於操縱他人、毀滅生命,甚至製造大規模毀滅性武器。
Alice 執行長 Noam Schwartz 強調,每個人都可以下載並操作最先進的模型,將其用於好事或壞事。Weidmann 則認為,AI 本質上僅是一種資訊處理與檢索系統,類似搜尋引擎,可有多種用途。他指出,如果只有少數實體決定何為可接受與不可接受,將會創造一個令人窒息的知識氛圍。他進一步表示,AI 領域的權力過於集中,若不受限制的模型只開放給權勢者,將會永遠固化現有的權力結構。


