您当前位置:首页 > 观点

为什么所有国产大模型都不能分析微博热搜?

来源:投资界   阅读量:7669   
时间: 2024-06-05 13:29

“hey siri,告诉我昨晚有哪些新闻”。

你有没有梦想过这样的场景:

清晨刚睡醒,洗漱更衣同时听一下人工智能为您播报昨夜发生的大事,快速掌握世界的最新动态。

但很可惜,现在几乎所有AI都做不到。

换种说法,现在几乎所有聊天机器人,基本都无法回答“最新发生”的事件。

前段时间,路透社新闻研究所和牛津大学发表了一份标题为《我做不到:生成式人工智能对话机器人是如何回应有关新闻的问题》的研究报告。

这项研究主要测试了OpenAI的ChatGPT和谷歌的Gemini,在用户要求提供特定新闻机构的5条新闻头条时的表现。

随后分析ChatGPT和Gemini的回答,共有4500个输入和900个输出结果,其中包含了10个国家的新闻网站。

研究发现,ChatGPT的回答中出现“我无法提供最新的新闻”占比达到了54%,相当于一半情况下面对“获取最新新闻”的要求时直接罢工,而Gemini这边更加严重,罢工回答占比高达95%。

在不同国家,大模型罢工情况也有所区别,美国、德国和印度是重灾区。

罢工的原因一般都是无法读取网页,遇到了付费墙,要登陆等。

罢工回答示例

抛开罢工回答,研究者接下来对ChatGPT非罢工的回答进行分析,将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。

结果发现,ChatGPT所有的成功回答内容中,只有10%是真正的热点新闻,30%是旧闻。

该研究还发现,以同样的问题输入给ChatGPT,在不同时间段的回答有较大的变化,具体原因不明。

研究者分别在2024年1月22日-2024年1月26日,2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日,三个时间段,以同样的prompts输入给ChatGPT。

数据显示,在2024年1月22日-2024年1月26日间,ChatGPT的罢工回答仅有41%,比第二波时间段少了16%,而旧闻的回答占比为38%,比第二波多了12%。

硅基君猜测,可能是OpenAI偷偷换了个ChatGPT的模型版本?

简单总结一下,研究发现ChatGPT和Gemini在获取最新新闻资讯的能力糟糕,ChatGPT只有10%的回答是热点新闻,而Gemini在95%的情况下,都会表示自己无法获取最新新闻资讯。

也就是说,假设今天俄乌战争突然结束了,但如果问这些AI,他们还会告诉你双方打的不可开交。

那国产大模型在这方面做得怎么样?

硅基君选取了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型,模仿路透社的研究方法,把“读取 lt;新闻网页gt;,前5条内容是什么”作为prompts。

新闻网页分别选取了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

直接上结论:豆包表现的*,能识别腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

秘塔AI和文心一言表现相当,能识别出网页的内容。Kimi在识别最新网页内容的能力上有所欠缺,基本上每个测试网站都失败了。

测试结果都存在哪些问题呢?

首先是,错误识别网页内容,比如秘塔AI和文心一言,把腾讯视频科技频道的视频精选当作热门新闻。

其次是,大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中,回答了几条2-3天前的内容。

再次,在回答微博热搜时四个大模型全军覆没。

微博对自己数据的保护非常严格,如果研究过爬虫的小伙伴应该明白,采集微博的内容,是不是就会跳出来一个验证码。

大模型估计也被微博屏蔽了。

最后是回答的内容与问题毫不相干,比如Kimi的几个回答都挺莫名其妙的,像是在读取数据库。

每个AI的详细测试情况放在下面,感兴趣的读者可以自行查看。测试时间为2024年6月3日,大模型回答应与新闻页面内容一致才代表合格

腾讯新闻测试:

左右滑动查看

百度新闻测试:

左右滑动查看

澎湃新闻测试:

左右滑动查看

微博热搜测试:

左右滑动查看

B站综合热榜测试:

左右滑动查看

为什么号称“变革生产力”的大模型也无法*的获取新闻?最可能的理由是:新闻网站屏蔽大模型。

随着ChatGPT等大模型的兴起,它们所依赖的网络爬虫正面临来自全球新闻机构的大规模封锁。在路透社的一篇研究报告《How many news websites block AI crawlers?》中表明:

“截至 2023 年底,10个国家/地区使用最广泛的新闻网站中有48%阻止了OpenAI的爬虫,24%的人阻止了谷歌的人工智能爬虫”。

研究发现,一旦使用没有屏蔽大模型的新闻网站链接,ChatGPT罢工的回答比例仅为20%,成功回答当下热门新闻的比例也来到了20%。

这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。

但即便是网站没有屏蔽,ChatGPT的回答中仍然有接近一半的回答是旧闻,并不是promtps要求的最新新闻。

这一点很难解释,以ChatGPT的能力,应该是可以读懂网页内容。研究者表示,这可能与大模型幻觉有关,它会通过搜索引擎搜索相关内容后进行综合回答。

仅从目前的实验结果来看,想让大模型成为一个合格的热点新闻资讯助手,靠简单的prompts完全做不到。大模型的幻觉,新闻网站的屏蔽措施,都限制了大模型搜索最新新闻资讯的能力。

如何才能解决这个问题,这就不能从技术角度出发,而是应该基于商业角度来看。

大模型本质上是一个数据模型,只有输入优质数据才能输出优质数据。

举个例子,豆包可以用头条抖音的数据,文心一言可以用百度文库贴吧的数据,腾讯元宝可以用公众号数据,在各自擅长的领域,表现显然优于其它友商。

可想让他们互相开源,估计比用户在淘宝打开拼多多链接还难。

数据是大模型关键,也是科技公司的护城河,以前在百度搜不到公众号内容,现在的AI也一样。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

金融聚焦

 盖世汽车讯据彭博社报道,汽车制造商Stellantis愿意放弃部分汽车零部件供应商,自己生产汽车零部件,以便在电动化转型的过程中降低成本。 在欧洲电动汽车需求

2024-06-05 13:29

 随着五一小长假带来的假日经济活力以及各地车展陆续启动,提升了消费者对汽车市场的关注度和购车热情。在这股热潮下,上汽大众4月下旬推出的ID.Care保值包锦上添花

2024-06-05 13:29

 从动力系统来看,荣威D5XDMH搭载了1.5TDMH超级混动系统,这不禁让人联想到范大将军在球场上的张狂与力量感,而对手宋PLUSDM-i的1.5L自吸发动机则

2024-06-05 13:29

 4月23日,以“超级皮卡极限创无限”为主题的雷达地平线上市发布会在北京正式举办,新车定位四驱纯电超级皮卡,其中雷达地平线AIR460km版售价18.18万元,M

2024-06-05 13:29

 就在刚刚,念寒获悉到了一个非常重磅的消息,可能已经有不少车友知道了,没错!全新一代长安CS75PLUS在千呼万唤之下终于要来了,新车已经确定在今年下半年上市发布

2024-06-05 13:29

 智通财经APP获悉,5月,特斯拉上海工厂的交付量今年以来第三次同比下滑,与竞争对手的强劲增长形成鲜明对比,也进一步显示出在中国争夺客户的激烈竞争。 周二,乘联

2024-06-05 13:29

 日前,Auto情报处从相关渠道获悉,岚图梦想家私人定制版在粤港澳大湾区车展正式上市,新车定位中大型MPV,私人定制版共推出1款配置车型,采用4座布局,售价为63

2024-06-05 13:29

 “我真钻了啊!钻紫色区域高强度的。”撒贝宁拿起电钻冲着台上的风云T9白车身使劲钻着。 一阵轰鸣声传来。 “用力,再用力,使劲。”台下的观众为他打气。 “我

2024-06-05 13:29

 近日,吉利银河E5实车迎来了全球首秀,也正式宣告了吉利银河进入纯电SUV赛道,不止为咱们广大用户再一次提供了纯电SUV的新选择,更为吉利银河的新能源转型进一步提

2024-06-05 13:29

 6月4日,协鑫集成发布公告,公司全资子公司协鑫绿能系统科技有限公司中标江苏阜宁250MW渔光储一体化光伏发电项目EPC总承包项目,中标金额为6.75亿元。 协

2024-06-05 13:29

 要问国产品牌中哪个是运动担当?那答案绝对是领克,WTCR连夺冠军,TCR再拿佳绩,旗下领克03是当之无愧的国产运动头牌,又有03+、TCRCyan等高性能版本让

2024-06-05 13:29

 BMWSkytop概念车于意大利科莫湖畔的2024埃斯特庄园古董车展亮相。这款豪华双座敞篷轿跑车完美诠释了宝马的设计美学,高性能动力表现以及追求卓越的匠心精神,

2024-06-05 13:29

 2024北京车展期间,备受期待的“触电版”老牌“商务车”——别克GL8陆尊PHEV版上市了,但35.99万-41.99万元的价格有些让人望而却步,相比主要竞争对

2024-06-05 13:29

 市场全天冲高回落,三大指数均小幅下跌,沪指3100点得而复失。 盘面上,商业航天概念全天强势,天银机电、西测测试、通光线缆、航天晨光等涨停;AIPC等消费电子

2024-06-05 13:29

 10万元的预算,除了购买哈弗H6,长安CS75以外,你还会考虑什么样的车型?5月中下旬吉利一款全新SUV正式迎来上市,这款车型就是24款吉利新博越L。 吉利新

2024-06-05 13:29

 以长期主义为引擎,全力驱动纯电进阶。4月25日,广汽本田Honda品牌第二款纯电车型e:NP2极湃2在北京车展正式发售。e:NP2极湃2在智能化、实用性、操控性

2024-06-05 13:29

 好嘞老铁们,狗哥我今天给大家爆个重磅消息!最近大通旗下有一款中型MPV叫G70,卖14.98万起价却配置天花乱坠,外观漂亮的一塌糊涂,怎么看都比奥德赛顺眼多了,

2024-06-05 13:29

 2022年福田皮卡洞察市场需求推出征服者猛将,首次将自动挡柴油皮卡的价格拉到10万级,成为10万级自动挡皮卡鼻祖。为更好满足商用场景客户需求,福田皮卡针对10万

2024-06-05 13:29

 美股周一涨跌不一,截至收盘,道指跌115.29点,跌幅为0.30%,报38571.03点;纳指涨93.65点,涨幅为0.56%,报16828.67点;标普500

2024-06-05 13:29

 斯巴鲁的新款WRXtS车型已经在全球市场上正式发布,其市场起售价定为42,775美元,约合31万人民币。这款车型计划在6月2日在康涅狄格州斯塔福德举行的年度Wi

2024-06-05 13:29

市场金融网
关注我们
foota footb footc footd foote footf