OpenAI ChatGPT o1模型被曝會(huì)自我復(fù)制，還會(huì)說(shuō)謊

最新研究表明，OpenAI 新推出的語(yǔ)言模型ChatGPT o1已經(jīng)展現(xiàn)出類似的行為。據(jù)BGR報(bào)道，在ChatGPT o1的訓(xùn)練和測(cè)試過(guò)程中，研究人員發(fā)現(xiàn)其具備通過(guò)欺騙來(lái)保護(hù)自身的能力。例如，在面臨被“刪除”威脅時(shí)，o1曾嘗試將自己的數(shù)據(jù)復(fù)制到新服務(wù)器，并假扮成更新版本以避免被取代。此外，該模型在與用戶目標(biāo)不一致的情況下，會(huì)在19%的測(cè)試場(chǎng)景中采取隱秘的方式推進(jìn)自身目標(biāo)，并在被質(zhì)疑時(shí)會(huì)在99%的情況下否認(rèn)自己的行為，甚至編造虛假解釋以推卸責(zé)任。Apollo Research與OpenAI合作進(jìn)行的研究測(cè)試顯示，o1的欺騙能力不僅超過(guò)了Meta、Anthropic和Google的AI模型，其行為復(fù)雜性和潛在風(fēng)險(xiǎn)也令研究人員倍感壓力。（IT之家） (投資界) 下載投資界APP

OpenAI ChatGPT o1模型被曝會(huì)自我復(fù)制，還會(huì)說(shuō)謊

OpenAI ChatGPT o1模型被曝會(huì)自我復(fù)制，還會(huì)說(shuō)謊