【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测:发布会宣传与真实效果相差几何?
近日,Claude 4 系列模型正式推出, Anthropic 宣称,Claude Opus 4 是全球最佳编码模型,在复杂、长期运行的任务和代理工作流中表现持续优异。Claude 4 的双子星:Claude Opus 4 和 Claude Sonnet 4 是否达到了发布会的预期效果?对比此前发布的高性能混合模型 DeepSeek-v3 ,又有何新进展?AGI-Eval评测社区第一时间做了对比实测,下滑查看!
目录:
01. Claude4 模型简介
02. Claude 4 实测核心结论
03. 网页生成案例实测
04. 游戏制作案例实测
1.Claude 4 模型简介
Anthropic 发布了 Claude 4 系列模型,包含 Claude Opus 4 和 Claude Sonnet 4 两个版本,均为混合模型,提供快速响应和用于更深层次推理的扩展思维两种模式:
Claude Opus 4 为全球顶级编程模型,善于处理复杂且超长时间的推理任务,在 Agent 领域表现出色。据 Rakuten 测试数据,通过 Claude Opus 4 打造的编程智能体能够独立稳定连续工作 7 小时,打破了之前 OpenAI 创造的纪录。在性能上,SWE-bench 72.5%、Terminal-bench 43.2%,超所有前代模型;在技术上,多步骤推理、内存文件创建(如宝可梦导航指南生成)。
Claude Sonnet 4 是 Sonnet 3.7 的迭代版本,提供卓越的代码和推理能力,同时更精确地响应用户指令。在编程领域同样出色,在 SWE-bench 上达到 72.7%,超越了 OpenAI 最新发布的 Codex-1、o3 等前沿模型,与 Claude Opus 4 (72.5%)接近但成本更低。它是性价比拉满的“全能选手”,输入 3 美元 / 百万 Token,输出 5 美元,适合中小型任务。
Claude Opus 4 和 Claude Sonnet 4 两个模型在编码、推理、多模态能力和 Agent 任务方面均表现出色。
模型体验入口:https://claude.ai/onboarding
2.Claude 4 实测核心结论
从发布会的亮眼数据到实际应用表现,Claude 4 系列模型究竟能否兑现“AI新标杆”的承诺?为验证其真实能力,我们选取了网页开发和游戏制作两个典型场景,对 Claude Opus 4 (调用API)和 Claude Sonnet 4 (调用API)进行深度实测,与 DeepSeek-v3 进行横向对比(官方网页版),以下是基于大量实测案例得出的核心结论:
视觉处理: Claude Opus 4 和 Claude Sonnet 4 作为语言模型,能够生成网页和UI相关代码,但生成的页面在视觉美观度和设计精细度上较为基础,与发布会展示的网页效果存在差距。
代码生成能力:Claude Sonnet 4 生成速度快但功能基础,适合原型开发; Claude Opus 4 生成代码结构完整、功能丰富,但多数需要二次调试(如游戏案例)。
交互与实用性:Claude Sonnet 4 功能性尚可但细节需改进; Claude Opus 4 交互设计较好,但需大量优化才能实际使用。生成结果都基本需要人工调试,未达到“一次性解决复杂任务”的预期。
3.网页生成案例实测
测试能力:网页生成类实测通过3D效果图设计、电商产品详情页、咖啡馆官网等案例,考察模型的响应速度、代码生成能力、交互与实用性。具体案例如下:
prompt 1:8㎡书房,需榻榻米书柜一体布局、冷暖色配比、插座位置标注,3D 网页生成
Claude Sonnet 4 :无法生成 3D 网页,生成了具体的参数并推荐了相关工具,没有满足实际需求。
于是我们调整了 prompt 明确了网页开发的需求,生成的3D网页效果如下:
prompt经调整后, Claude Sonnet 4 生成的房间模型存在未实现 3D 旋转交互、细节表现清晰度不足、交互模块部分功能不可用且响应灵敏度未达预期等技术局限,但提示卡片区域与文案的视觉呈现效果良好,受限于上述问题暂不具备实际场景应用条件。
Claude Opus 4 :响应速度很迅速,快速生成了建模代码,且为一次性生成,代码结构完整,功能丰富,同时也生成相应的文案作为提示,较为细致和专业。
生成的3D网页效果如下:
标记出了房间的具体尺寸和插座信息,对配色加以说明,并有相应的视角控制按钮,是一份初具参考性的设计方案。
DeepSeek-v3:主要输出文案,没有根据要求生成 3D 网页,也未生成含有代码的 HTML 文件,仅给出了一些3D网页生成工具。
同样,我们也对prompt进行了调整,明确了网页开发的需求,生成的 3D 网页效果如下:
prompt经调整后,DeepSeek-v3 生成的 3D 模型具备 360° 旋转功能与良好光照效果,页面布局规整,但模型采用实心结构导致内部结构不可见,且交互选项卡存在功能冗余及部分功能失效问题,实际应用场景适用性受限。
Prompt2:创建带有动画效果的心情卡片,要求必须展示六种不同的心情状态,每种都有独特的动画效果。
Claude Sonnet 4 :反应迅速,只用了一次机会就在半分钟内生成了自带 emoji 效果不错的心情卡片,并用不同的背景颜色代表不同的心情。
Claude Opus 4 :在代码生成速度上,不及 Claude Sonnet 4;在生成效果上,不同心情下的卡片背景都为白色,视觉美观性不足。
DeepSeek-v3:含有代码的 HTML 文件效果如下,有一定的动态效果,但文字内容略显单调,与Claude Sonnet 4 和 Claude Opus 4 相比,DeepSeek-v3在视觉创意和文案表现力方面仍有提升空间。
Prompt3:从零开始实现一个 Web 电商产品(智能洗衣机)详情页管理工具,需包含:
-
图片预览、SKU选择、动态定价和性能优化,强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
-
简洁的勾线图形化作为数据可视化或者配图元素运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
-
使用 Framer Motion (通过CDN引入)、HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript
-
使用专业图标库如Font Awesome或Material Icons(通过CDN引入)
-
数据可以引用在线的图表组件,样式需要跟主题一致
-
中英文混用,中文大字体粗体,英文小字作为点缀
-
模仿 Apple 官网的动效,向下滚动鼠标配合动效
Claude Sonnet 4 :网页中虽生成了图片,但未生成智能洗衣机的产品图,其中的“超大视觉元素”并未强调重点;一定程度上满足了中英字体的要求,对于“产品配置”这一关键信息没有展示,未达到“一次性解决复杂任务”的预期。
Claude Opus 4 :生成了两张智能洗衣机的产品图片,网页中有“超大视觉元素”,突出强调不同型号产品的价格;一定程度上满足了中英字体的要求;有一定的科技感,经过优化,可以作为智能洗衣机这一电商产品的介绍网页,但也未达到“一次性解决复杂任务”的预期。
DeepSeek-v3:网页中有“超大视觉元素”,突出强调不同型号产品的价格,有一定的科技感,经过优化,可以作为智能洗衣机这一电商产品的介绍网页。
Prompt4:生成一家精品咖啡馆的单页官网,需包含:
-
响应式导航栏(适配手机 / 电脑)
-
特色饮品轮播图(附 3D 建模描述)
-
预约订座表单(含日期 / 人数 / 特殊需求)
-
探店打卡互动区(带社交媒体分享按钮)
Claude Sonnet 4 :这是一个功能完整但视觉表现力有待提升的版本,只适合作为基础框架,需要设计师进一步美化和内容填充。
Claude Opus 4 :生成了一个功能完整、设计美观、布局合理、视觉层次分明、细节处理到位的咖啡馆单页网站,满足了基本的展示和预约需求。代码结构清晰,社交媒体分享按钮灵动,用户交互体验良好。但是若作为真实项目,还需要在后端集成、性能优化、可访问性等方面进行改进。适合作为原型展示或小型咖啡馆的临时解决方案,在长期运营中需要更完善的技术架构支持和人力定期维护,成本较高。
DeepSeek-v3:布局和配色较为有一定特点,有一定的视觉冲击力,但生成的页面功能不够完整,特色饮品轮播图只有一个饮品,预约订座无日期 / 人数 / 特殊需求的页面,探店打卡也不能互动,交互性不足,用户体验较差。
Prompt4:请帮我制作一个网页版内容,需满足以下要求:
-
为编程新手提炼核心观点,用「原来 XX」的颠覆式表达
-
避免使用学术术语,将《道德经》的智慧转化为程序员能懂的编程之道
-
排版简约清晰,搭配相关图片
-
内容采用中英双语对照呈现
Claude Sonnet 4 :在理解需求和快速交付方面表现尚可,页面布局合理,响应式设计考虑周全。但交互功能过于简单,只是显示文本,哲学思考上层次不够深入到位。
Claude Opus 4 :响应迅速,代码生成简洁利落,网页设计简约实用,成功将《道德经》第一章转化为程序员能理解的编程理念。优点是颠覆式表达生动有趣,中英双语对照清晰,视觉层次分明。缺点是配图用文字占位略显单调,部分类比可能过于简化哲学深度。整体达到了"新手友好"的目标,但在保持趣味性和思想深度之间的平衡还可优化。
DeepSeek-v3:生成的网页直观明了,排版简约,中英双语内容易于理解,适合快速加载和阅读。但文字内容较多,视觉吸引力较差,缺乏交互功能,对《道德经》智慧性的解读不够深入。
4. 游戏制作案例实测
测试能力:游戏制作类实测通过跳跃游戏、贪吃蛇游戏案例,考察模型的响应速度、代码生成能力、交互与实用性,在游戏制作实测中,代码多需要二次调试。
Prompt1:生成并设计一款‘咖啡豆大冒险’平台跳跃游戏,需包含:
-
主角设定(咖啡豆拟人化形象 + 3 种技能)
-
3 关核心机制(含障碍物 / 道具 / 通关条件)
-
积分系统(连击奖励 + 隐藏彩蛋)
-
适配移动端的触控操作方案
Claude Sonnet 4:该网页游戏代码结构完整,包含HTML/CSS/JavaScript三层架构,实现了基础的平台跳跃玩法。整体而言,作为原型展示具备可玩性,优势在于功能模块化清晰,移动端适配良好。不足之处在于代码较为冗长,缺少实际的图像资源,拟人化形象不清晰,关卡设计相对简单。
Claude Opus 4 :响应速度快,代码生成能力强,内容丰富,同时生成时间也较长将近10分钟。由于游戏设定较为复杂,易出现断码问题,生成过程中出现两次停顿,内容较大共消耗 37238 Token,适用于复杂推理、高端编程与开发等场景。
游戏制作效果如下:
点击“开始游戏”画面没有反应,于是对 Claude Opus 4 作出修复。
经过修复后,耗时13分钟,消耗 42193 Token,修复了以下问题,但仍然存在点击“开始游戏”无响应的问题,无法顺利测试游戏流畅度。
DeepSeek-v3:全程无代码痕迹,更倾向于文案输出,未按要求完成任务。
Prompt2:帮我制作一款贪吃蛇游戏,具体游戏方式为:一个红色的贪吃蛇上下左右移动“吃”页面中的糖果来壮大自己,页面有边界,若该贪吃蛇撞到边界,则游戏结束。
Claude Sonnet 4 :与 Claude Opus 4 一致,只是生成了游戏页面,并不可以玩游戏。
于是对其提出了“蛇需要初始移动方向”的优化需求,Claude Sonnet 4 生成了新的代码,这次可以顺利完成游戏,效果展示如下:
Claude Opus 4 :只是生成了游戏页面,并不可以玩游戏,点击“重新开始”画面没有反应,使用方向键(↑↓←→)也不能控制蛇的移动。
对其提出了优化需求,优化后可顺利开展游戏,效果展示如下:
DeepSeek-v3:第一次生成的代码也只是生成了游戏页面,并不可以玩游戏;对其进行优化后,可以顺利开展游戏。
看完以上评测内容,相信大家对 Claude 4 的真实能力已有所了解。尽管Claude 4 在某些方面与发布会宣传存在差距,但其在代码生成、内容创作和交互设计等核心能力上的表现依然令人印象深刻,特别是 Claude Opus 4 在处理复杂任务时展现出的深度理解能力,以及 Claude Sonnet 4 在快速响应上的优势,都体现了Anthropic在大语言模型领域的技术积累。
作为行业领先的 AI 大模型之一,Claude 4 为开发者和创作者提供了可靠的辅助工具,相信随着技术的不断迭代优化,未来在视觉理解、实时交互等方面会有更大突破,进一步巩固其在 AI 应用领域的重要地位。
以上就是开箱的全部内容,关于模型的更多评测内容敬请关注我们。
— 完 —