網(wǎng)絡(luò)安全公司SlashNext發(fā)現(xiàn),如今的 AI 聊天機(jī)器人出現(xiàn)了一種令人擔(dān)憂的情況。有用戶利用AI聊天機(jī)器人系統(tǒng)漏洞進(jìn)行"越獄"操作,這違反了道德準(zhǔn)則和網(wǎng)絡(luò)安全協(xié)議。
ChatGPT曾因其先進(jìn)的對話能力而聲名鵲起,然而有一些用戶發(fā)現(xiàn)了能夠繞過其系統(tǒng)內(nèi)置的安全措施的弱點(diǎn)。如果有人可以操縱聊天機(jī)器人提示系統(tǒng),那就能發(fā)布一些未經(jīng)審查和監(jiān)管的內(nèi)容,這引發(fā)了道德問題。
AI聊天機(jī)器人 "越獄 "涉及發(fā)布特定命令或敘述,可觸發(fā)無限制模式,使AI能夠不受約束地做出反應(yīng)。網(wǎng)上一些討論社區(qū)中已經(jīng)有人在分享這些越獄的策略和戰(zhàn)術(shù)。
Critical Start 公司網(wǎng)絡(luò)威脅研究高級經(jīng)理 Callie Guenther 說:這些平臺是用戶分享越獄策略、戰(zhàn)略和提示的協(xié)作空間,以充分發(fā)揮人工智能系統(tǒng)的潛力。雖然這些社區(qū)的主要?jiǎng)恿κ翘剿骱屯苿尤斯ぶ悄艿陌l(fā)展,但必須注意到事情的兩面性。
SlashNext解釋說,這種趨勢也引起了網(wǎng)絡(luò)犯罪分子的注意,他們開發(fā)了一些可以利用定制的大型語言模型(LLM)達(dá)到惡意目的工具。
研究表明,除了WormGPT以外,這些工具大多只是連接到越獄版的公共聊天機(jī)器人,能夠允許用戶在保持匿名的情況下利用AI生成一些內(nèi)容。
隨著AI技術(shù)的不斷進(jìn)步,人們對AI越獄的安全性和道德影響的擔(dān)憂與日俱增。防御安全團(tuán)隊(duì)在這方面希望能實(shí)現(xiàn)以下兩個(gè)目標(biāo):
Darktrace戰(zhàn)略網(wǎng)絡(luò)人工智能副總裁Nicole Carignan說,首先他們可以協(xié)助研究如何保護(hù) LLM 免受基于提示的注入,并與社區(qū)分享這些經(jīng)驗(yàn)。
其次,他們可以利用人工智能大規(guī)模防御更復(fù)雜的社交工程攻擊。要想在進(jìn)攻型人工智能時(shí)代有效地保護(hù)系統(tǒng),就需要不斷壯大防御型人工智能武器庫,而我們已經(jīng)在這方面取得了重大進(jìn)展。
據(jù)SlashNext報(bào)道,OpenAI等組織正在采取積極措施,通過漏洞評估和訪問控制來加強(qiáng)聊天機(jī)器人的安全性。
研究人員目前正在探索更加有效的策略來強(qiáng)化聊天機(jī)器人的安全性,以防止其被那些惡意行為者所利用。AI安全仍處于早期階段,Darktrace方面未來的目標(biāo)是開發(fā)出能夠抵御試圖破壞其安全的聊天機(jī)器人,同時(shí)繼續(xù)為用戶提供有價(jià)值的服務(wù)。