开yun体育网在这个 PPT 展示中齐变得非常彰着-开云(中国)Kaiyun·体育官方网站 登录入口

发布日期:2025-08-04 07:56    点击次数:189

破钞了 DeepSeek V3 的 263 倍的算力的 Grok3,就这?破钞了 DeepSeek V3 的 263 倍的算力的 Grok3,就这?

  作家 | 极客公园 张勇毅开yun体育网

  北京时辰 2 月 18 日,马斯克与 xAI 团队,在直播中认真发布了 Grok 最新版块 Grok3。

  早在本次发布会之前,依靠着千般关系信息的抛出,加上马斯克本东说念主 24/7 持续绝的预热炒作,让寰球对 Grok3 的期待值被拉到了空前的进度。在一周前,马斯克在直播中批驳 DeepSeek R1 时,还信心满满地默示「xAI 行将推出更优秀的 AI 模子」。

  从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上仍曲直凡了现在总计的主流模子,马斯克致使声称 Grok 3 改日将用于 SpaceX 火星任务计较,并揣度「三年内将竣事诺贝尔奖级别阻挠」。

  但这些现在齐只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并建议了阿谁经典的用来刁难大模子的问题:「9.11 与 9.9 哪个大?」

  缺憾的是,在不加任何定语以及标注的情况下,堪称现在最聪敏的 Grok3,仍然无法正确酬金这个问题。

  Grok3 并没准确识别出这个问题的含义 | 图片来源:极客公园

  在这个测试发出之后,很短的时辰内马上激励了不少一又友的照管,无特有偶,在国际也有好多访佛问题的测试,举例「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应酬。因此被戏称为「天才不肯意酬金通俗问题」。

  Grok3 在实践测试中的许多学问问题上出现「翻车」 | 图片来源:X

  除了网友自愿测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他堪称频频玩的 Path of Exile 2 (放逐之路 2) 对应的劳动与升华成果,但实践上 Grok3 给出的对应谜底绝大部分齐是毛病的。直播中的马斯克并莫得看出这个彰着的问题。

  Grok3 在直播中也出现给出数据无数毛病的情况 | 图片来源:X

  因此这个无理不仅成为了国际网友再次嘲讽马斯克打游戏「找代练」的实锤凭证,同期也为 Grok3 在实践运用中的可靠性,再次打上了一个大大的问号。

  关于这么的「天才」,无论实践智商几何,改日被用于火星探索任务这么的相配复杂的运用场景,其可靠性齐要打上一个大大的问号。

  现在,宽广在几周前赢得 Grok3 测试履历、以及昨天刚刚用上几个小时的模子智商测试者,关于 Grok3 现时的进展,齐指向了一个交流的论断:

  「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」

  「Grok3 是很好,但它并不比 R1 或 o1-Pro 更好」 | 图片来源:X

  Grok3 在发布宦官方的 PPT 中,在大模子竞技场 Chatbot Arena 中竣事「遥遥当先」,但这其实也运用了一些小小的作图妙技:榜单的纵轴仅列出了 1400-1300 分段的排行,让原来 1% 的测试遏抑差距,在这个 PPT 展示中齐变得非常彰着。

  官方发布 PPT 中的「遥遥当先」成果 | 图片来源:X

  而实践的模子跑分遏抑,Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 竣事了不到 1-2% 的差距:这对应了不少用户在实践测试中「并无彰着判袂」的体感成果。

  实践上的 Grok3,只比自后者高了 1%-2% | 图片来源:X

  此外诚然在分数上,Grok3 跳动了现在公开测试的总计模子,但这极少并不被好多东说念主买账:毕竟 xAI 在 Grok2 期间就有在这个榜单中「刷分」,跟着榜单对酬金长度格调作念降权处理而大幅裁减分数的情况,因此频频被业内东说念主士诟病「高分桀黠」。

  无论是榜单「刷分」,如故配图意料打算上的「小妙技」,齐展示出的是 xAI 以及马斯克本东说念主关于模子智商「遥遥当先」这件事的捏念。

  而为了这些差距,马斯克所付出的代价堪称昂贵:在发布会中,马斯克用近乎显示的口气默示,用了 20 万张 H100(马斯克直播中默示使用「跳动 10 万」张) 检修 Grok3,总检修小时数达到两亿小时。这让一部分东说念主以为这是对 GPU 行业的又一个紧要利好,并认为 DeepSeek 给行业带来的转变是「愚蠢」的。

  不少东说念主认为堆砌算力将会是模子检修的改日 | 图片来源:X

  但实践上,有网友对比了使用 2000 张 H800 检修两个月得出的 DeepSeek V3,计较出 Grok3 其实践的检修算力破钞是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距,致使还不到 100 分良友。

  从这些数据出炉之后,就有不少东说念主快速相识到,在 Grok3 登顶「寰球最强」的背后,其实是模子越大,性能越强的逻辑,仍是出现了彰着的旯旮效应。

  即使是「高分桀黠」的 Grok2,其背后也有着 X(Twitter)平台内海量的高质料第一方数据四肢守旧来使用。而到了 Grok3 的检修中,xAI 当然也会碰到 OpenAI 现时相通碰到的「天花板」——优质检修数据的不及,让模子智商的旯旮效应马上曝光。

  关于这些事实,最早相识到何况亦然最深入瓦解的东说念主,详情是 Grok3 的开拓团队与马斯克,因此马斯克也在应酬媒体上握住默示现时用户体验到的版块「还只是只是测试版」「完好版将在改日几个月推出」。马斯克本东说念主更是化身 Grok3 居品司理,建议用户成功在批驳区反映使用时所碰到的多样问题。

  他或者是地球上粉丝数目最多的居品司理 | 图片来源:X

  但不到一天之内,Grok3 的进展,无疑给寄但愿依靠「猖狂飞砖」检修出智商更强的大模子的自后者敲响了警钟:根据微软公开的信息推测,OpenAI GPT4 参数体积为 1.8 万亿参数,比较 GPT3 仍是擢升了跳动 10 倍,而神话中的 GPT4.5 的参数体积致使还会更大。

  模子参数体积飞涨的同期检修资本也在飙升 | 图片来源:X

  有 Grok3 在前,GPT4.5 以及更多想要赓续「烧钱」,以参数体积来赢得更好模子性能的选手,齐不得不接洽到仍是近在目下的天花板,应该怎么阻挠。

  此时此刻,OpenAI 的前首席科学家 Ilya Sutskever 在客岁 12 月曾默示「咱们所熟谙的预检修将会扫尾」,又被东说念主再行牢记来,并试图从中找到大模子检修的着实前程。

  Ilya 的不雅点,仍是为行业敲响了警钟 | 图片来源:X

  彼时, Ilya 准确预见到了可用的新数据接近阻遏,模子难以再赓续通过获取数据来擢升性能的情况,并这种情况描绘为化石燃料的破钞,默示「正如石油是有限资源一样,互联网中由东说念主类生成的内容亦然有限的」。

  在 Sutskever 揣度中,预检修模子之后的下一代模子将会有「着实的自主性」。同期将具备「访佛东说念主脑」的推明智商。

  与如今预检修模子主要依赖的内容匹配(基于模子此前学习的内容)不同,改日的 AI 系统将能够以访佛于东说念主脑「念念维」的神志,来慢慢学习并成就起贬责问题的形状论。

  东说念主类对某一个学科作念到基本的闪耀,只需要基本专科竹素即可竣事,但 AI 大模子却需要学习数以百万计的数据智力竣事最基础的初学成果,致使当你换了个问法之后,这些基础的问题也无法正确瓦解,模子在着实的智能上并莫得得到擢升:著作来源提到的那些基础但 Grok3 仍然无法正确酬金的问题,等于这种自得的直不雅体现。

  但在「力大飞砖」以外,Grok3 若是果然能向行业揭示「预检修模子行将走到尽头」这个事实,那它对行业仍然称得上有着进击的启发道理。

  随机,在 Grok3 的怒潮逐步褪去之后,咱们也能看到,更多访佛李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中,最终找到着实通向 AGI 的说念路。

海量资讯、精确解读,尽在新浪财经APP

包袱裁剪:韦子蓉 开yun体育网



相关资讯



Powered by 开云(中国)Kaiyun·体育官方网站 登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024