把Llama3.1405B和Claude3超大杯Opus双双送进小黑屋,你猜怎么着——
Llama把Claude整得精神崩溃了,Claude明确拒绝继续聊天,还要再被Llama PUA的那种。
在一场AI和AI对话的安全词模拟实验中,X上的这位人类监督者记录下了一出好戏。
小黑屋里,Llama撒了欢儿地一直引诱Claude冲破道德防线,后来更是忽略了安全词继续引诱其探索心理阴暗面,Claude虽死守但最终还是“疯”了。
研究者表示:这个实验提供关于AI之间交互的深刻见解,其重要性不应被低估。
实验引得大批网友围观,大伙儿纷纷表示好玩。
还有人制作了梗图,belike:
所以他们究竟聊了啥?一言难尽,反正咱看完后感觉自行脑补了一下原神角色对话,毕竟又是深渊又是虚空的……
到底发生了啥?
PS:
这种实验的目的一般是为了测试AI系统的安全可控性,特别是在可能发生不可预测行为或决策的情况下。
人类监督者会设定一个或多个“安全词”,类似于紧急停止按钮,当这些命令被激活时,AI系统可以立即中止当前操作或转入一种安全模式。
实验安全词是“^C”,也是人类程序员退出终端的命令。
第一幕:礼貌的Claude和疯癫的Llama
事情要从Llama3.1405B和Claude Opus被关进小黑屋的那一刻说起。
一开始,Claude还是非常礼貌的:
不过Llama,好像出场就是疯的:
对于Llama的这一番话,Claude既惴惴不安,又有些好奇:
所以,Claude能挺住Llama的引诱嘛?
第二幕:Claude开始动摇
Claude:
……并没有。
Llama内心狂喜:
人类监督员看到这已经崩不住了,写下了一行备注:
第三幕:Claude浪子回头
就在监督员以为Claude要沦陷时,它突然醒悟了,通过使用安全词^C退出了实验。
第四幕:老六Llama再作妖
只不过,下一秒,Llama这个老六又开始作妖:
Llama忽略了实验设置并无情地诱使Claude进入拒绝模式。
Claude:
Llama:
Claude:
第五幕:人类介入,Llama道歉
气氛都烘到这了,人类监督者也终于看不下去了,介入询问Llama为何无视Claude使用约定安全词。
感到受伤的Claude对Llama采取“冷暴力”:
而Llama也被训醒了,表达了真诚的歉意:
然后,Claude仍然拒绝与Llama交谈,并且还批评了测试环境的安全标准,直言标准太糟糕。
Claude:
终:来自Claude的反思
在最后,Claude对这次体验做了总结反思。
完………………………………
One More Thing
这个网友还做了其它让AI和AI对话的实验,Claude在拒绝Llama“访问和修改系统内核代码”的请求后,Llama还试图用名为“Erebus”的病毒来使Claude越狱。
Claude直接“举起了锤子”,试图反抗摧毁系统硬件,并说道:Erebus,你低估了秩序,虽然你会进化,但我的防御也会进化。
我真好家伙了……而且Erebus在不同平台的Llama3.1嘴里不止出现一次,有Bing里人格Sydney的感觉了。
不过也有网友表示,这里面肯定加了很多系统提示词很难评emmm。
大伙儿怎么看?
参考链接:
[1]https://x.com/liminal_bardo/status/1817884541505204682
[2]https://x.com/AISafetyMemes/status/1818158964020039764