2024-1209
08:39

OpenAI ChatGPT o1模型被曝會(huì)自我復(fù)制,還會(huì)說(shuō)謊

最新研究表明,OpenAI 新推出的語(yǔ)言模型ChatGPT o1已經(jīng)展現(xiàn)出類似的行為。據(jù)BGR報(bào)道,在ChatGPT o1的訓(xùn)練和測(cè)試過(guò)程中,研究人員發(fā)現(xiàn)其具備通過(guò)欺騙來(lái)保護(hù)自身的能力。例如,在面臨被“刪除”威脅時(shí),o1曾嘗試將自己的數(shù)據(jù)復(fù)制到新服務(wù)器,并假扮成更新版本以避免被取代。此外,該模型在與用戶目標(biāo)不一致的情況下,會(huì)在19%的測(cè)試場(chǎng)景中采取隱秘的方式推進(jìn)自身目標(biāo),并在被質(zhì)疑時(shí)會(huì)在99%的情況下否認(rèn)自己的行為,甚至編造虛假解釋以推卸責(zé)任。Apollo Research與OpenAI合作進(jìn)行的研究測(cè)試顯示,o1的欺騙能力不僅超過(guò)了Meta、Anthropic和Google的AI模型,其行為復(fù)雜性和潛在風(fēng)險(xiǎn)也令研究人員倍感壓力。(IT之家) (投資界) 下載投資界APP