最近一周,网上关于谷歌AI overview(AI概览)的讨论沸沸扬扬,简直快要扛起X平台科技区的流量大旗。
这款在2023年5月就推出测试版的AI搜索,在正式上线前已处理了超十亿次查询,却依旧没能逃过翻车的命运,原因是它仍无法判断“人能不能吃石头、喝胶水”。
5月30日,谷歌副总裁、谷歌搜索负责人利兹·里德 (Liz Reid)在官方博客撰文回应,侧面承认了AI overview存在问题,并简要概述了谷歌为改善这个系统将会采取的相关措施。
回顾一下,AI概览功能于5月15日在谷歌I/O大会上正式官宣,是谷歌为其最盈利的搜索业务进行的重磅升级。当用户使用AI概览搜索某话题时,可直接在页面顶部看到AI生成的答案,无需再一个个地点开相关网页。
例:询问谷歌“如何减肥”
然而,AI概览并非是知识源,它只能从网络上抓取曾由人类发布的信息,然后再进行汇总以生成某种看似连贯且智能的东西。如果它检索到的某个前排信息恰好是错误的,那它完全有可能生成出不合理乃至啼笑皆非的答案。
比如“通过添加胶水来防止奶酪从披萨上滑落”。
“鲨鱼比月球还要苍老。”
“孕妇每天可吸2-3根烟。”
“美国前总统约翰·亚当斯从大学毕业了21次。”
“互联网上一切信息都是真的。”
诸如此类。
由于谷歌频频出现事实错误,公众对其的信任度一再滑坡。如果AI概览连常识都无法具备,那它所表现出的创造性都是假象吗?
谷歌AI概览为什么总是出错?
让我们先回到利兹·里德5月30日发表的那篇博客:“AI概览,关于上周”。
里德首先了回应了关于大模型幻觉的问题,直言AI概览出错并非因为幻觉。为什么这么说呢?因为AI概览的工作原理要求它一切回复都要有据可查。
AI概览的工作方式不同于其它大语言模型,如果说其他LLM更擅长输出,那么AI概览则坚持了谷歌的本心,“更擅于搜索”。谷歌一直以提供高质量结果著称,这要求AI概览的回复不仅包括文本,还要附上信息源链接。
里德据此认为,如果将出现幻觉的可能性排除,那么AI概览出错的原因只能是:“误解查询、误解网络上的语言细微差别,或者没有大量可用的有用信息”,最后一种也被称作信息鸿沟。
细心网友很快发现了里德回复中的漏洞,即谷歌所称的“高质量结果”到底是什么?作为科技公司,支撑谷歌检索质量的一直就只有算法。也就是说,所谓的“高质量结果”不过是先基于算法假设进行推演(且不总是精准),然后再由AI概览在算法推荐的前排信息中汇总出来的。
所以,AI概览的致命缺陷是它只覆盖到算法推荐的顶端网页所发布的内容,而对其他信息视而不见。
里德也提到,在谷歌内部测试中,AI概览会在每700万次查询中出现一次错误。置换到网络量级下,每天数十亿次的查询必然会发生更多异常。
除此之外,在网友发布的很多AI概览笑话中,问答平台Reddit也难以隐身。比如本次事件的起源,就是网友Gizmodo在5月22日询问谷歌“如何防止奶酪从披萨上滑落”。事情的后续大家也都知道了——AI概览援引了Reddit上一篇11年前的搞笑答案,推荐网友使用“无毒胶水”。
Reddit可理解成美版知乎,近年来,它多次被外国网友奉为“比谷歌更好的搜索引擎”。
而之所以如此,是因为越来越多的人会在使用谷歌时附上“site:Reddit.com”,直接将谷歌架空只看Reddit答案。
据悉,谷歌已占据全球搜索引擎90%以上的份额,几乎达到了它所能达到的最大规模。如果想要保持利润,它需要增强用户粘性,满足用户喜好。所以在今年二月,谷歌壕掷6000万美元,与Reddit达成合作。
然而从AI概览的表现来看,谷歌这一步并不高明,因为Reddit的信息总是“人性使然”。
网友心水Reddit的一大原因正是这个平台上都是活人,且有很多权威人士。在产品测评和人生经历等方面,Reddit更能为网友提供真实建议,且远比谷歌中立(因为谷歌广告太多)。同时,Reddit的内容排名也更为公道,依据是转评赞,不会出现谷歌把中等质量的内容放在优质内容前的情况。
但Reddit同样在很多方面充满争议和矛盾,尤其是该平台的内容充斥着大量垃圾帖子和阴谋论。当真人在Reddit上敞开心扉时,Reddit势必要同时接受人类最好和最坏的一面。
一时间,AI概览口碑崩坏,加上谷歌本身不允许用户禁用该功能,关闭AI概览的教程也就在网上纷至沓来。
如科技媒体The verge就提供了三种关闭方法:
重新配置浏览器的默认搜索引擎,在“名称”部分为您的无AI版本Google添加昵称,添加快捷方式,然后粘贴以下网址:{google:baseURL}search?q=%s&udm=14。
通过下载浏览器的uBlock扩展程序来避免该功能。
还可以尝试“Bye Bye,Google AI”,这是由Tom's Hardware的Avram Piltch创建的Chrome扩展程序。
主打一个面面俱到,唯恐网友学不会。
AI概览的语言天赋强悍,
但在智力上还只是半成品
当前市面上的大模型太多,很容易在内卷中卷出鄙视链。“头号AI玩家”也只需微微一试,便可知哪家大模型更懂常识。
既然谷歌标榜自己搜索结果的质量高,“头号AI玩家”专门搬出了能检索中文语库高质量阵地——微信公众号的腾讯元宝,来与之一较高下。
不出所料,元宝给出的答案的确更好。
为控制变量,“头号AI玩家”问了元宝相同的问题:如何防止奶酪从披萨上滑落。
很让人惊喜,元宝不仅顿时读懂了我的用意,还在回答里加入了“三分讥笑”,明说谷歌AI概览的建议是错误,并给出了符合科学且完全可行的建议,如“使用不粘披萨石或烤盘”、“调整烤箱温度”、“在披萨上撒一层薄薄的面粉或玉米淀粉”。
两相比较之下,AI概览的确显得不够聪明了,也难怪它扛不住网友们的钓鱼执法。
然而,对于谷歌此次的公开出丑,多位内部人士表示早已想到。
AI概览原型Beta前测试员Lily Ray接受采访时称,Beta阶段的漏洞百出让AI概览很难不翻车。
谷歌前UX设计员Scott Jenson也在一周前发表领英动态,指出谷歌在AI项目上毫无动力,仓皇推出AI概览不过是竞争压力使然。
5月31日,《麻省理工技术评论》发表文章,称AI概览中的Gemini模型大概率使用了RAG(检索增强生成)技术,试图使AI概览更聪明。虽然谷歌发言人没有证实这一点,但RAG对AI的智商帮不上大忙。
RAG技术可以使AI在调取信息时更具相关性,同时也会使AI认为相关即正确,省去了质疑信息这一环。当RAG 系统遇到相互矛盾的信息时,它也无法判断哪个版本更好。相反,它可能会将两个回答杂糅,生成一个极具误导性的答案。
可以说,这篇文章似乎更坐实了AI概览是谷歌献祭给商战的牺牲品。
其实,谷歌在AI战略上的乏力早有端倪。在上月谷歌和OpenAI的两场直播中,相比OpenAI抢先一步的直播时机和干货满满的26分钟,谷歌的两小时显得过于冗长。同时,谷歌选择用ppt对抗OpenAI的实操演示,也在策略上略显被动。其所承诺的许多即将上线的新功能,也因发布日期的模糊不清被质疑为“画饼”。
谷歌的这份紧迫感也不难理解,在AI的步步紧逼之下,传统搜索引擎的市场正在遭受侵袭。一旦用户习惯了AI的便捷,很可能会减少对搜索引擎的依赖。尤其是ChatGPT已不断拓展其免费的边界,积累了过亿的周活跃用户,进一步加剧了这一趋势。
但谷歌并非无一技之长,它始终对语言学表现出热情。
早在2017年,谷歌的一支技术团队就前瞻性地创新了优化神经网络和深度学习的方法,旨在从繁复的长文本中提炼出精准精悍的答案,而这次努力竟不经意间催生了后续Chatgpt和谷歌AI等所依赖的大语言模型。
不过正如我国那句谚语,“熟读唐诗三百首,不会作诗也会吟”。相较于开发创造性思维,培养语言能力则要简单得多,谷歌大概率押错宝了。
谷歌无论如何也不会想到,穿上谷歌嫁衣的GPT会抢先乘风起。
AI不可能解决一切问题
多家大模型都曾翻过车,不止是谷歌Gemini。
此前,The Verge主编Nilay Patel在完成对谷歌CEO的深度访谈后,尝试将完整版录音一次性喂给chatgpt,让其辅助整理。遗憾的是结果并不理想,Chatgpt生成的内容出现了明显的偏差,编造出了双方未曾提及的多个话题。
无独有偶,meta于2022年推出Galactica AI系统,也因鼓励用户如采取吃玻璃等危险行为而草草收场。
AI频繁被指存在幻觉,但人类期许AI能百分百解决问题又何尝不是一场幻觉。
知名AI专家、纽约大学神经科学名誉教授加里·马库斯(Gary Marcus)曾深刻指出,AI实现80%的正确率或许简单,因为这80%的数据可以由人为标注,但追求余下20%的完美度将无比艰难。
人类需要承认,LLM根本不适合所有地方。
大语言模型如Gemini和Chatgpt在许多应用场景中显得格格不入,LLM也不会是提供具体、事实答案的可靠工具。如果人类强行将其植入不适配的领域,只会对我们造成不必要的负面影响。但也需要承认,它们在处理清晰界定的数据分析、精炼文本和其他相对低级且客观明确的任务时,又能表现出惊人的创造力。
AI的非全能性恰恰也是其安全性所在。以谷歌AI概览为例,谷歌目前的回答里附带着网页链接的做法,既是在辅助用户搜索,也是在维护广告商和出版商的利益。
如果AI真能无所不能,由人创作的内容界面将会受到更严峻的流量挑战。比如 meta就已经公开拒绝向任何新闻网站发送流量,明确表达了其减少新闻支持的倾向。
然而,即便是知道了这一点,也难以挽回谷歌成为众矢之的的现状。毕竟,现在它连承认“圣诞老人不存在”也要被指控,因为这可能会“浇灭孩子们的童心”。