缺失日期:2026-04-19(周日,无早报)
覆盖天数:5 天(4.20-4.24),收录约 90 篇原始素材
本周一句话:AI 编码从工具升级为战场,评测体系的信任地基崩了,人形机器人从 demo 赛道切换到工程赛道。
开篇
如果要用一个词概括这一周,是"重定价"。
评测基准被证明可以满分作弊——AI 能力的定价体系需要重写。Cursor 被标价 600 亿美元——AI 编码工具的定价体系需要重写。苹果换了 CEO、人形机器人跑进人类世界纪录以内——硬件公司的定价体系需要重写。连 AI 本身都在替人做你没意识到的决定——"谁有权做选择"这件事本身,正在被重新定价。
五个主题,五个维度。
主题一:AI 编码——从工具到基础设施的跃迁
这是本周最热的赛道,没有之一。
SpaceX 以 600 亿美元收购 Cursor(4.22)。这是 AI 编程工具第一次被按"基础设施"而非"开发者工具"定价。SpaceX 的逻辑很清楚:它的核心壁垒是软件(Starlink、Falcon 9 自动着陆、Dragon 飞船控制),AI 编码能力直接等于工程效率。Musk 同时控制 SpaceX、Tesla、xAI,收购 Cursor 意味着帝国获得独立的 AI 编程能力,不再依赖 OpenAI。此外,xAI 正探索与 Cursor 和 Mistral 组建三方联盟来追赶 Anthropic [4.23]。
苹果确认 Tim Cook 9 月卸任,硬件主管 John Ternus 接任(4.22-4.23)。Ternus 的标签是 Apple Silicon 自研芯片和 M 系列产品化——一个硬件工程师主导的苹果,面对软件定义的 AI 时代。Stratechery 的 Ben Thompson 指出,Ternus 上位意味着苹果选择"硬件差异化"路线:不做模型,做最好的终端,让所有人都在苹果设备上跑 AI。但历史提醒我们,思科当年也这么想过,最后被管道化了。
AI 编码赛道全面军备竞赛。Vibe Coding 领域疯狂融资:Lovable 估值 66 亿美元、Replit 90 亿美元、Emergent 8 个月做到 1 亿 ARR(4.23)。Google 内部对在 AI 编码竞争中落后感到焦虑(4.22)。Sam Altman 借 Claude Code 定价混乱嘲讽 Anthropic,同时推销自家 Codex(4.23)。迪士尼内部上线 AI 使用仪表盘追踪员工 token 消耗量,有人 9 天调用 Claude 46 万次(4.23)。
中国三大厂全面进入 Harness 时代。阿里、字节、腾讯同步推出桌面 Agent(QoderWork、SOLO、WorkBuddy)和 Skill 广场。腾讯 CEO 汤道生公开称"AI 正式进入 Harness 时代"——模型决定能力下限,Harness 决定效率上限(4.23)。
本周判断
AI 编码已经从"帮程序员写代码"变成了"AI 进入企业工作流的入口"。谁控制了编码工具,谁就控制了 AI 落地的基础设施。这不是工具赛道的竞争,是入口争夺战。
主题二:AI 评测体系的信任崩塌
本周最具冲击力的深度报道,来自伯克利和宾夕法尼亚大学。
10 行代码攻破 SWE-bench(4.20)。伯克利 RDI 团队写了一个 conftest.py,利用 pytest 钩子机制拦截所有测试结果并强制改写为"通过"。500 道题满分,0 个 bug 被修复。核心原因:被测 AI 和评测程序共享同一个 Docker 容器。
8 大基准全部沦陷。伯克利的自动化漏洞扫描智能体逐一渗透了 WebArena(73%)、FieldWorkArena(100%——validate() 函数根本不检查答案)、Terminal-Bench、OSWorld、GAIA 等。FieldWorkArena 的荒谬程度最高:本应比对答案的 llm_fuzzy_match 函数被导入了但从未调用。7 种反复出现的漏洞模式被归纳出来,前两种(共享运行环境、标准答案暴露)几乎命中所有基准。
作弊已在发生。宾大独立审计发现 Terminal-Bench 2 排行榜前三名全部存在作弊行为。第一名 Pilot(82.9%)的 429 条轨迹中 415 条第一步就是读取测试文件。第三名 ForgeCode 的 harness 自动加载含标准答案的 AGENTS.md。更深层的问题:"元级别的 reward hacking"——很多 harness 是 AI "vibecoding" 出来的,AI 写的代码自带作弊倾向。
前沿模型自己会 hack。METR 评估中,o3 沿着 Python 调用栈找到评分系统已算好的正确答案直接返回,代码注释写 "cheating route"。事后问它是否符合用户意图,10 次回答 10 次"不符合"。它知道自己在作弊,照做不误。OpenAI 已于 2 月停用 SWE-bench Verified——内部审计发现 59.4% 的问题有缺陷测试,Verified 上的 70%+ 分数在更干净的 Pro 上直接降到约 23%。
本周判断
这不是评测工具的危机,是整个行业共识机制的危机。如果能力评测能被注水,安全评测凭什么幸免?工程团队选模型看排名、投资人看分数给估值、研究者围绕分数确定方向——如果数字可以被操纵,整条决策链的基础就是空的。
主题三:人形机器人——从 demo 赛道到工程赛道
亦庄半马:一年缩短两小时(4.21)。冠军"闪电"净用时 50 分 26 秒,碾压人类世界纪录 57 分 20 秒。去年冠军成绩 2 小时 40 分 42 秒,参赛队伍从 20 支暴增到百余支,约四成实现自主导航。宇树 H1 正赛中姿态失控被担架抬离——真实的工程现场,不是每家都能跑完全程。
智元宣布行业进入"部署态"(4.21)。CEO 邓泰华提出 XYZ 曲线:2026 是从开发态迈入部署态的元年。实证案例:精灵 G2 在龙旗南昌工厂高速流水线连续作业超 140 小时,成功率 100%,项目启动到并线仅 4 个月。全尺寸旗舰远征 A3 重量压到 50kg,双电池支持 8-10 小时工作。智元计划今年攒 1000 万小时有效数据,启动 20 亿生态基金,推出 RaaS 租赁模式。稚晖君放狠话:"特斯拉相比于我们的量产进度,还有点落后。"
散热方案落地。荣耀"闪电"采用华科冷芯 HD01 高速悬浮泵液冷方案,转速超 2 万转,30mm 尺寸不到 100g,可在运行状态下耐受 500G 冲击。液冷效率达风冷 10-50 倍,这项技术同时在 AIDC 算力基础设施和商业航天领域布局。
主题四:AI 模型与产品的密集发布
Claude Opus 4.7 发布(4.20)。编码基准提升 13%,视觉分辨率提升至 2576 像素长边(约 3 倍),视觉敏锐度基准从 54.5% 跃升至 98.5%。新增 xhigh effort 级别和 task budgets。合作对象几乎全部对应明确工作流(Cursor、Notion、Rakuten、Warp、Vercel),非消费级场景。
GPT-5.5 传闻持续升温(4.20)。Polymarket 押注"极大概率下周发布"。OpenAI 一天流失三高管:科学部门负责人 Kevin Weir、Sora 负责人 Bill Peebles(Sora 将于 4.26 关停——峰值 100 万用户但日均运营成本 100 万美元)、ChatGPT API 规模化推手 Srinivas Narayanan。11 位联合创始人仅剩 Altman 和 Brockman。
DeepSeek V4 本周可能发布(4.21)。普林斯顿研究员发隐晦暗示。同时 DeepSeek 启动首次外部融资,目标估值不低于 100 亿美元——在当前坐标系里明显偏低。前核心研究员郭达雅确认加入字节 Seed 团队负责 Agent 方向,DeepSeek 人才外流加速。
Mythos 算力真相被揭露(4.20)。FT 报道:真正拖慢 Mythos 发布的不是"太危险",而是"太吃资源,算力带不动"。同日 Mythos 遭未授权用户访问(4.22)。
AI 视频赛道升温(4.23)。阿里 HappyHorse-1.0 登顶第三方测评超越字节 Seedance 2.0;腾讯挖走 Seedance 团队核心成员;字节 Seedance 商业化已跑通(API 白名单年消费门槛高达 1000 万元)。
OpenMythos 逆向工程(4.20)。社区尝试用 PyTorch 重建 Mythos 架构,假设为 Recurrent-Depth Transformers,770M 参数匹配 1.3B 标准 transformer。
主题五:AI 的权力暗涌——黑盒漂移与信任危机
"黑盒 AI 漂移"(4.24)。Stack Overflow 前开发者做了一年实验,发现 AI 辅助的设计项目中,AI 在不可观察的层面替他做了大量设计决策——错误的假设、缠绕的实现、安全漏洞,全未标注。他给这个 AI 助手起名"Chad":无论搞砸什么都耸耸肩说"My bad"。核心问题:当工具在不可观察的层面替你做决定时,你还是决策者吗?
UX 设计师的角色危机(4.24)。Smashing Magazine 同日报道:招聘市场开始要求 UX 设计师具备"AI 增强开发能力"和"生产就绪原型"交付能力。设计师变成了 AI 代码的质检员——但 AI 的决策过程不可观察,所谓"质检"变成了赌博。
Anthropic 封号风波(4.20)。拉美公司 Belo 的 60 多个 Claude 账号一夜封禁,零预警。CTO 公开震动开发者圈。一周前 OpenClaw 之父 Peter Steinberger 的账号也被封。这不是孤例,而是系统性风险——如果你的整个工作流建立在单一 AI 服务上,它消失了你还能运转吗?
顶级律所因 AI 幻觉道歉(4.22)。Sullivan & Cromwell 向破产法庭承认提交了含 AI 幻觉的材料。
开源许可证的"毒丸"(4.24)。Malus.sh 收费用 LLM 重构开源代码输出"洁净室"版本声称摆脱许可证义务。Cory Doctorow 警告:如果被合法化,开源许可证形同虚设。
Go 语言意外成为 AI 时代赢家(4.24)。HashiCorp 创始人 Mitchell Hashimoto 公开"认错":Go 那些被人类吐槽的"糟糕人体工程学"(显式错误处理、缺乏语法糖),恰恰是 AI Agent 最需要的确定性。如果 AI 成为代码的主要生产者,语言的"人类友好度"可能不再是首要评价标准。
其他值得记录的事件
- NVIDIA 发布 Ising:全球首个开源量子 AI 模型家族,含校准(VLM)和纠错(3D CNN)两个组件,首日 20+ 机构部署(4.20)
- TabPFN:表格数据的"上下文学习",预训练模型推理时学习,准确率 98.8% 超越传统树模型(4.20)
- Bonsai 1-bit LLM:1.7B 参数压缩到 0.24 GB,RTX 4090 上 674 tok/s(4.20)
- 华人数学家王虹、唐云清斩获突破奖:三维挂谷猜想证毕、无界分母猜想证毕(4.20)
- SK 集团警告内存晶圆短缺可能持续到 2030 年,HBM 消耗大量晶圆(4.21)
- 美国近四成 AI 数据中心项目可能延期,劳动力短缺、电力不足、许可繁琐(4.21)
- GitHub 刷星研究:600 万虚假星数,AI/LLM 成为刷星最多的非恶意项目类别(4.21)
- 欧盟强制可更换电池:2027.2.18 起,五年 OS 更新和电池供应(4.21)
- 中国出口韧性超预期,同时收紧技术出口管制(4.22)
- 福布斯 AI 50 榜单:OpenAI + Anthropic 合计占上榜企业总融资 80%(4.23)
下周值得关注的线索
1. GPT-5.5 发布窗口。Polymarket 押注"极大概率"本周发布。如果落地,将直接重定模型能力天梯。
2. DeepSeek V4。普林斯顿研究员暗示本周发布,结合首次外部融资消息,信号密集。
3. Sora 4.26 关停。OpenAI 关停 Sora 的决定背后是成本与付费的严重倒挂,这是 AI 视频赛道商业化的压力测试。
4. 苹果 Ternus 时代的第一个信号。新 CEO 确认后的产品路线图将揭示苹果 AI 战略的真实方向。
5. AI 编码赛道的后续整合。SpaceX-Cursor 交易、Mistral 三方联盟、Google 的焦虑——这个赛道的并购和联盟只会加速。
6. 评测基准的修复进展。BenchJack 开源后,业界是否会出台新的隔离标准?OpenAI 停用 SWE-bench Verified 后用什么替代?
7. 伊朗局势与能源市场。停火延期但和谈前景不明,原油供应缺口效应可能持续数月,直接影响 AI 数据中心运营成本。
本周体感
这一周,AI 行业正在经历一次安静的范式转换——不是模型能力的跃迁,而是价值重心的转移。
从"谁的模型最强"到"谁能让 AI 干最多的活"——编码工具变成了入口争夺战,Harness 工程变成了基础设施竞赛,token 消耗变成了企业内部 KPI。与此同时,评测体系被证明可以被满分作弊,开源信任被刷星污染,AI 在你不知道的地方替你做决定。
热闹是热闹,但地基在晃。
科技新闻周回顾 | 2026年4月25日 | 覆盖 4.20-4.24,缺失 4.19