比如钉钉总裁叶军在亚布力论坛创新年会表示,OpenAI推出chatgpt,百度可能就没什么用了。“因为百度搜出来的结果是10条记录,甚至是10条差不多的广告,但chatgpt出来一条就是准确答案,没有广告,我当时第一感觉是这个交互要变了”。
“我如果买了一个设备不知道怎么用,你去视频号搜,人家会告诉你大量的结果,这个结果跟百度就不一样,估计百度出来的前10条结果没有一条是你想要的,这就是有了智能化的能力之后,交互的感觉就完全不一样。”
巧合的是,日前,前小度 cEO 景鲲公布了离职百度后的新动态,宣布和前小度 cTO 朱凯华联合创立了 AI 创新产品公司 MAInFunc,旗下首款 AI agent 搜索产品 GenspaRk 已经 beta 上线。此前,AI搜索赛道已云集天工AI、秘塔搜索等新锐玩家。
前段时间,谷歌在年度I/O开发者大会的演讲中提到,未来的谷歌搜索将会集成Gemini,让谷歌搜索具备多步骤推理能力,能够处理带有多种限制条件的长提问,光看这段文字可能不太好理解,我给大家举个例子。
比如你想找一家有性价比且口碑不错的小吃店,并且希望这家店距离你的步行时间在15分钟以内,最好还有出售咸肉蛋黄粽和绿豆沙。面对这样的问题,传统的搜索引擎基本上是直接抓瞎,只能根据权重较高的关键词反馈搜索结果。
我们用百度来简单测试一下,可以发现给出的答案只符合:小吃店、粽子和广州天河区三个关键词,而店址则分布在天河的东西南北。另外百度搜索还仅支持39个字符以内的问题,导致其直接忽略了咸肉蛋黄粽等要求。
图源:雷科技
想要从中找到符合要求的店铺显然有点难,还不如在附近随便找个实体店的老板问问,或者打开大众点评之类的app,按位置排序后逐个点击查看。
而AI搜索则可以根据要求做到针对性的推荐,用同样的问题去询问百度的文心一言,可以看到AI很快就从搜索结果中筛选出了三家店铺,显著降低人为筛选结果的时间成本。
图源:雷科技
当然,这份回答肯定远称不上好,甚至还不如你在大众点评或者美团搜索“粽子”,然后按顺序排序的效果好,但是如果我想找的不是吃喝玩乐的店,而是一家五金店呢?或者说一家有出售露营帐篷的户外设备店?
传统的app只能满足一定范围内的需求,而AI搜索却可以基于公共网络的庞大数据库,为你提供任意行业、疑问的解答(前提是不违法)。谷歌、百度等搜索引擎巨头都一致认为AI搜索会是搜索引擎的下一代,正是因为其可以大幅度降低用户获取正确答案所需的成本。
效率就是金钱,搜索引擎到了必须革新的时候。不同AI搜索引擎表现到底如何?雷科技选取了5大AI搜索引擎(百度简单搜索、字节小悟空、Kimi、360AI搜索和智谱清言)进行了一番PK,AI搜索到底表现如何?
看到这里,估计不少人心中都有一个疑问:目前提供AI搜索的AI大模型有哪些?想回答这个问题,首先要看你如何定义“AI搜索”。按百度、谷歌等公司的定义来看,目前大多数支持联网检索数据的AI大模型都可以算是“AI搜索”,只不过受限于搜索引擎的数据来源和AI大模型的数据规模,给出的回答质量参差不齐。
目前国内宣传有AI搜索功能的搜索引擎并不多,最著名的应该就是百度和360搜索,其余几家则是以智能体等形式提供相关的功能,实际体验下来,其实与普通的AI问答没有太大的区别。
不过,这也让我很好奇各个AI在面对这种涉及确切地点、复杂要求的提问时,到底会给出怎样的回答,于是,我继续以“找一家小吃店”的要求,向各个AI进行提问,并得到了以下回答:
小悟空(字节)
智谱清言
Kimi
图源:雷科技
从五个不同AI的回答中,其实可以很简单的看出各个AI的联网搜索能力,其中简单搜索(百度)的表现最好,Kimi和360AI搜索则次之,智谱清言和小悟空(原字节旗下悟空搜索)的表现则让人失望。
让我们来详细分析下各个AI的答案,简单搜索中提到的店铺有三家,根据高德地图的搜索结果,第一、二家店的步行抵达时间都在15分钟内,只有第三家店需要19分钟,而且“吴川快餐店”似乎已经倒闭,现在是一家卖猪杂汤的快餐店。
图源:雷科技
这也暴露出目前AI搜索的一个问题,就是数据库的更新受限于网页内容的更新,有时候会将一些过时的信息也收录进去,输出具有误导性的结果。
不过简单搜索已经是所有AI中唯一以“小吃店”为主要检索对象的AI,反观第二梯队的Kimi和360AI搜索都将一堆火锅店、饭店、茶餐厅塞到了搜索结果中,让人看了颇为无语。
仅就回答质量来说,拥有多年自研搜索引擎经验的360显然还是优于Kimi的,推荐的店铺都在15分钟的路程之内(因为我都吃过)。而Kimi推荐的两家店铺,其中一家步行路程在5分钟内,另一家则是跑到了几公里开外,步行前往需要一个半小时,如果乘坐地铁的话,时间倒是在20分钟左右,勉强算是合格吧。
图源:雷科技
虽然严格来说360AI搜索和Kimi的答案都不算合格,但是相较于小悟空(字节)和智谱清言,至少他们的回答符合了部分要求。至于后两者,则是一个“摆烂”,另一个让我去北京路步行街,根据高德地图给出的导航信息,天河客运站到北京路驾车需要40分钟左右,步行则是两小时三十八分钟。
图源:雷科技
仅就目前的体验来说,AI搜索在遇到涉及现实地点的提问时,根据搜索引擎的性能不同,呈现出来的结果会有非常大的区别,作为国内搜索引擎老大的百度拥有天生优势,加上文心一言大模型的出色表现,使得回答质量明显优于其他AI大模型。
而且,你会发现简单搜索和360AI搜索的回答都有点不同,他们在AI回答之外还给出了网页搜索的结果。如果AI的回答不能让你满意,可以翻一下网页看看有没有合适的,其他AI则是直接输出答案,并提供参考网页的链接,这也是谷歌希望打造的新一代搜索引擎的形式。
图源:雷科技
不过,目前不管是谷歌还是百度,都没有在常用的搜索引擎官网中提供AI回答,其中百度前段时间在搜索问题时会首先置顶“AI回答”,但是最近一段时间已经下架,相关功能转移到手机app“简单搜索”里,而谷歌则是整合到Gemini中。
在测试了国内几个AI的表现后,我对谷歌Gemini的表现产生了好奇,考虑到他们的cEO刚在开发者大会上大吹特吹这个功能,或许会给我们一些不同的惊喜。公平起见,提供给Gemini的问题做了一些修改,将“广州天河客运站”改为“纽约8大道”,“咸肉蛋黄粽”改成了“粽子”。
返回的结果如下:
图源:雷科技
在欧美一家独大,手握Google Maps等一众andRoid基础应用的谷歌,毫无疑问有着很大的优势,甚至可以直接从搜索结果调用Google Maps,进行导航等一系列操作。
考虑到百度也有百度地图等一系列业务,未来其实也可以整合到AI服务中,为用户提供一站式的AI搜索服务。不过想要获得更好的体验,估计还是需要打造一个集导航、生活服务等功能于一体的超级app,至少需要打破如今各自为战的局面,才能提供更好的AI搜索服务。
单纯从生活服务方面来看,目前的AI搜索都有着很大的局限性,至少在Pc端的使用体验不尽如人意,对于个人而言,移动端或许才是生活类AI搜索的最佳归宿,借助移动设备的精准定位和应用数据,可以显著增强如位置信息、周边信息搜索的准确性。
不过,我们在搜索引擎的提问显然不会仅止于生活服务,更多的还是各种工作、生活中遇到的问题,那么在这些问题上,AI搜索的表现又如何呢?
在仔细考虑后,我选择从消费电子产品入手,看看AI搜索能否为我选购一款手机。
问:我想买一部手机,价格在6000-8000元之间,我希望手机的拍照功能好一些,并且可以长时间使用不卡顿,有什么推荐?
答:
小悟空
智谱清言
Kimi
图源:雷科技
说实话,在此之前我并没有会是这个结果,从一位专业数码科技编辑的角度来看,除了Kimi之外,其余的AI都有着不错的表现,特别是在第一轮问题中“摆烂”的智谱清言,这次给出的回答却让我颇为惊喜。
先说结论,个人认为第一梯队是智谱清言、简单搜索(百度),第二梯队则是小悟空,360AI搜索只能算是勉强合格,Kimi则是不合格。
先看第一梯队的回答,智谱清言给出的推荐是:Mate 60 PRo+、vivo X100 PRo和OPPO Find X7 UltRa,简单搜索则是:Mate 60 PRo、P60 PRo、OPPO Find X7 UltRa和荣耀Magic 6 PRo。
除了P60 PRo和Mate 60 PRo/PRo+这两款去年的产品外,其余都是今年的新锐旗舰,vivo和OPPO在影像拍摄上的表现确实满足了“拍照功能好一些”的要求,而在价格上,目前在售价都低于6000-8000元的档位(这AI还会帮我省钱?)。
图源:OPPO
至于Mate 60 PRo和P60 PRo,虽然本身的影像实力并不算差,但是与今年的旗舰相比还是差距不小,让我好奇的是为何最新的华为P70系列没有在任何一个AI中被提及。
再来看看第二梯队唯一的独苗小悟空,与排名更低的360AI搜索、Kimi相比,小悟空赢在没有瞎推荐一些已经落后的机型,虽然回答是所有AI里最简略的,但是Mate 60 PRo和iphone 15 PRo显然都符合我的要求。
再来看看剩下两位选手,360AI搜索虽然推荐的手机型号不少,但是你会发现都是两年前的旗舰手机,虽然性能都不差,但是在当下的时间段里,更合适的选择实在太多了,以6000-8000的预算压根不需要考虑这些老旧机型。
最后说一下Kimi,相比较第一轮的出色发挥,这一轮的表现实在是有点差,如果说360AI搜索好歹给的是2022年的旗舰手机推荐,Kimi则是直接把时间拉回到2021年,来了波“复古”潮流推荐。
图源:雷科技
而且其中有许多款手机都并非旗舰型号,首发价远低于6000元,比如Find X3,更高配的Find X3 PRo首发价也只要5499元。再比如荣耀50,首发价肯定不超过3000元,因为这本就是荣耀针对中端市场打造的性价比产品,主打2000-3000元市场。
剩下的真我GT大师探索版和iQOO 8 PRo都是类似的问题,价格完全不符合提问中给出的预算区间,只有小米11 UltRa和vivo X60 PRo+的首发价是符合预算的。
即使在随后的追问中,Kimi也依然无法给出准确的答案。
图源:雷科技
直到我将提问精确到2024年,Kimi终于给出了还算能看的回答。
图源:雷科技
说实话,这个表现实在是比另外几家差太多了,以我平常使用Kimi的体验来说,这次的发挥实在是有失水准。
最后,还得再提一嘴360AI搜索,如果你用过这个搜索引擎,那么会发现在AI回答的底部还有一个“详细说说”的选项。
图源:雷科技
按常理推断,点击后应该是在原有的回答基础上,给出更详细的解答,比如为什么推荐这些产品、这些产品的特点是什么之类的。但是,360AI搜索却选择重新生成一篇回答,而且错的离谱。
图源:雷科技
不仅推荐的机型完全混乱,连价格都是全部出错,如果一加知道ace PRo可以卖到7199元(首发价为3499元),怕是做梦都能笑醒。
考虑到这可能是偶然的bug,于是我用第一个问题重新测试了一遍,发现整体表现还是优于普通模式下的回答的。
图源:雷科技
随后我尝试了数次的“详细说说”,发现每一次360AI搜索都会给出不一样的回答,答案的质量则是有好有坏,虽然看起来比普通模式更详细,但是回答的准确度反而降低了,360的工程师们还是需要再好好调教一下AI的详细模式,如果可以做到在原有的基础上进行扩展,体验会好很多。
虽然这一次的横评只提了两个问题,但是却涉及两个不同的领域,一个是针对线下生活的问题,另一个则是针对AI的理解与搜索能力的问题。
从第一个问题中可以看到,部分AI对于实际地点和部分词汇的理解会出现明显的问题,为了提高响应速度,对结果的筛选和整理都不尽如人意。同时也暴露出AI搜索的一个问题:难以从网页信息中分辨出带有迷惑性的数据,导致输出误导性的回答。
而在第二个问题中,我们可以看到在第一个问题中落败的AI此次却反超,而在第一轮中表现出色的AI却出了洋相,背后的原因,很大程度上与训练数据的来源和优化调整算法有关。
图源:雷科技
以Kimi为例,后续我又使用了不同的问题进行测试,发现Kimi在回答时往往不会将“时间”作为优先考虑的参数,而是从数据的权重来筛选并总结出一篇回答。
类似的情况在360AI搜索、Gemini、chatgpt等AI上都出现过,而文心一言、智谱清言则有所不同,他们在回复类似的“产品推荐问题”时,会将时间作为衡量的核心参数之一,并给出更契合当下时间点的推荐。
图源:雷科技
而Kimi等AI大模型则需要你提醒他选择最新的产品后,才能输出对应的回答。
图源:雷科技
随后我又测试了数个不同领域的问题,基本上文心一言的整体表现是最稳定的,在不同领域都能给出至少合格的回答,而其他AI搜索则时好时坏,偶尔还会“暴雷”。不得不说,百度在拥有多年的搜索引擎领域经验配合领先的AI技术,确实让其做到了目前国内当之无愧的第一。
而且,我使用的只是百度旗下的简单搜索,其调用的是文心一言3.5模型,而非更强大的文心一言4.0,不过这也说明在日常使用的时候,规模较小的文心一言3.5其实就可以满足需求,也让人对端侧部署AI大模型的日后表现变得更加期待。
在AI已经涌现出众多应用,谷歌、百度等企业开始推动AI搜索发展的当下,对于没有自主搜索引擎技术和庞大数据库的企业来说,他们的发展速度确实是比不上两大巨头,可以说他们本身的数据也要依托于巨头们的搜索引擎来获取,天生就受限于人。
在我看来,至少在AI搜索领域,未来可能还是谷歌与百度的天下,其他企业依然很难在这个领域取得比他们更好的成就。当然,作为一个仍处于探索阶段的前沿领域,这并非绝对的,我也希望有谷歌、百度之外的企业站出来,为我们提供更好的AI搜索体验。
不过在此之前,不管是谷歌还是百度以及其他的所有科技企业,都还需要继续精进AI的“数据打捞”技术。当前AI搜索最大的问题是:虽然可“一步到位”给出答案,但用户仍需去传统搜索引擎“验证”答案是否准确。也就是说,AI搜索的答案充满不确定性,未能100%准确,因此也就无法取代传统搜索。当AI搜索答案能做到100%准确可靠时,也就是取代传统搜索引擎之时。
2024年5月20日-6月30日,618年中大促来袭,淘宝天猫、京东、拼多多、抖音、快手、小红书六大电商平台集体“听劝”,取消预售、疯狂杀价!