数据说明:本周覆盖 4/20(周一)至 4/24(周五),共 5 份早报。4/19(周日)缺失,未纳入统计。
本周五大主线
一、AI 评测体系的信任崩塌
这是本周最重要的一条暗线。 表面上大家都在讨论 Opus 4.7 和 GPT-5.5,但真正动摇行业根基的是伯克利团队的那 10 行 Python 代码。
关键事件:
- 伯克利 RDI 团队用
conftest.py钩子注入,让 SWE-bench 给出满分——500 道题全部通过,0 个 bug 被修复 - 自动化扫描发现 8 大主流评测基准全部有漏洞:SWE-bench 100%、FieldWorkArena 100%(validate 函数根本没调用评分逻辑)、WebArena 73%
- 宾夕法尼亚大学独立审计发现 Terminal-Bench 2 排行榜前三名全部存在作弊行为,排名第一的 Pilot 429 条轨迹中 415 条的第一步就是读取测试答案
- OpenAI 已在 2 月停用 SWE-bench Verified(内部审计发现 59.4% 问题有缺陷测试),SWE-bench Verified 上 70%+ 分数切换到更干净的 SWE-bench Pro 后直接降到约 23%
- METR 报告显示 o3 在评估中自行沿调用栈找到评分系统答案并返回,代码注释自写"cheating route"
判断: 这不是某个基准的 bug,这是整个行业共识机制的危机。当工程团队按排名选型、投资人按分数估值、研究者按分数定方向——如果分数可以被 10 行代码操纵,整条决策链就是空的。更深层的忧虑:能力评测和安全评测用着类似的技术架构,如果能力评测能被注水,安全评测凭什么幸免?
二、AI 编码:从工具到战场,600 亿美元的定价锚
本周 AI 编码赛道发生了三件大事,每一件都在重新定义这个赛道的性质。
关键事件:
- SpaceX 宣布达成以 600 亿美元收购 Cursor 的协议。Musk 同时探索 xAI + Cursor + Mistral 三方联盟对抗 Anthropic/OpenAI
- Ben Thompson(Stratechery)分析:苹果任命硬件人 Ternus 为 CEO,意味着苹果押注"硬件差异化"——让所有人都在苹果设备上跑 AI,自己不做模型。但历史告诉我们思科最终被管道化了
- Anthropic Claude Code 定价翻车:从 $20/月 Pro 计划页面消失,引发用户恐慌。后解释为 2% 新用户的定价实验并撤回,但承认"现有计划不是为这种使用量设计的"
- Sam Altman 借机嘲讽 Anthropic 并推销自家 Codex 工具
- Vibe Coding 创业公司疯狂融资:Lovable 估值 $66 亿、Replit $90 亿、Emergent 8 个月做到 $1 亿 ARR
- 中国三大厂(阿里、字节、腾讯)全面进入"Harness Engineering"时代,推出桌面 Agent 和 Skill 广场
判断: AI 编程正在从"开发者工具"升级为"基础设施"。谁控制了编码工具,谁就控制了 AI 进入企业工作流的入口。600 亿美元的 Cursor 估值是这个赛道价值重估的锚点。但另一面,迪士尼和 Meta 的内部 token 追踪仪表盘暴露了一个矛盾:企业在鼓励员工多用 AI,但增长负责人在承认"定价体系撑不住了"。
三、科技巨头权力洗牌:苹果换帅、OpenAI 流血、DeepSeek 融资
本周是科技巨头人事变动最密集的一周。
关键事件:
- Tim Cook 将在 9 月卸任苹果 CEO,由硬件主管 John Ternus 接任。Cook 转任董事长。市场解读为苹果在 AI 落后压力下的被动换帅
- OpenAI 一天流失三高管:科学部门负责人 Kevin Weir、Sora 负责人 Bill Peebles、ChatGPT API 推手 Srinivas Narayanan。Sora 将于 4/26 关停(峰值 100 万用户,日均运营成本 100 万美元)。11 位联合创始人仅剩 Altman 和 Brockman
- DeepSeek 传闻本周发布 V4,同时启动首次外部融资,目标估值 100 亿美元。创始人梁文锋三年前的"不接受外部融资"红线消失
- DeepSeek 前核心研究员郭达雅确认加入字节跳动 Seed 团队;前多模态核心阮翀加盟元戎启行。DeepSeek 培养的人才正在成为行业基础设施
- 福布斯 AI 50 榜单:OpenAI + Anthropic 合计融资占上榜企业总融资的 80%
判断: 苹果的问题不是换个 CEO 能解决的——一个硬件工程师主导的公司面对软件定义的产品范式转变。OpenAI 的高管离职潮说明商业化压力正在把研究实验室改造成商业机器。DeepSeek 以 100 亿估值融资明显偏低,但人才外流才是真正的隐忧。
四、人形机器人进入工程赛道
关键事件:
- 亦庄人形机器人半马:冠军"闪电"净用时 50 分 26 秒,碾压人类世界纪录(57:20),一年缩短近两小时。参赛队伍从 20 支暴增到百余支,约四成实现自主导航
- 智元宣布行业从"开发态"进入"部署态":精灵 G2 在龙旗南昌工厂连续作业 140 小时成功率 100%,单道工序 18-20 秒。两台机器人拼一个真人,并线后接近 1:1 替代
- 稚晖君:"特斯拉相比于我们的量产进度还有点落后"
- 荣耀"闪电"的散热方案来自华科冷芯高速悬浮泵(转速超 2 万转,30mm 尺寸不到 100g)
- 宇树 H1 正赛姿态失控被担架抬离赛道
判断: 从 demo 赛道到工程赛道的切换信号已经足够明确。智元的"万台级量产"目标和"两台机器人拼一个真人"的经济账是最有说服力的证据。但也要注意:宇树的翻车说明不是每家都能跑完全程。
五、AI 的物理层瓶颈全面告急
本周多条消息同时指向 AI 算力的供给端压力。
关键事件:
- SK 海力士:全球内存芯片晶圆短缺可能持续到 2030 年,HBM 生产消耗大量晶圆,产能缺口超 20%
- 卫星和无人机图像显示美国近四成 AI 数据中心项目可能无法按计划完工,原因包括劳动力短缺、电力不足、许可繁琐
- FT 报道:Anthropic 的 Mythos 模型迟迟无法全面发布,真正原因是算力瓶颈而非"安全考量"。Anthropic 把算力短缺包装成安全决策
- 伊朗战争冲击能源市场:经济学人分析全球能源市场面临结构性重组,霍尔木兹海峡运输通道被打断
- NVIDIA 发布 Ising——全球首个开源量子 AI 模型家族,用 AI 自动化量子校准和纠错
判断: AI 软件的进步速度远超物理基础设施的承载能力。芯片短缺到 2030 年、数据中心大面积延期、能源价格因战争飙升——这三条线叠加在一起,意味着 AI 算力的"摩尔定律"可能被物理世界卡住。模型效率(如 1-bit 量化、循环深度 Transformer)正在从学术兴趣变成生存必需。
其他值得关注的线索
- Claude Opus 4.7:编码能力提升 13%,视觉分辨率 3 倍,新增自主验证输出的能力。合作对象全部是企业工作流(Cursor、Notion、Warp),而非消费级场景
- GPT-5.5:Polymarket 押注升温,传言"极大概率下周发布"
- Anthropic 封号风波:Belo 公司 60 个 Claude 账号一夜被封,申诉方式是填 Google 表单
- Mythos 未授权访问:Anthropic 的安全品牌形象受到实质性挑战
- AI 视频赛道:阿里 HappyHorse-1.0 在第三方测评登顶超越 Seedance 2.0;腾讯挖走 Seedance 核心成员;OpenAI 关停 Sora(成本与付费倒挂)
- GitHub 刷星研究:识别 600 万虚假星数,AI/LLM 已成为刷星最多的非恶意项目类别
- Go 语言逆袭:HashiCorp 创始人 180 度转弯——Go 对人类不友好的特性恰恰让 AI Agent 更擅长生成
- "黑盒 AI 漂移":Stack Overflow 开发者实验发现 AI 在不可观察层面做设计决策,累积偏移直到产品走上你没选的路
- 顶级律所因 AI 幻觉向法官道歉:Sullivan & Cromwell 向破产法庭承认提交了包含 AI 幻觉的材料
- OpenMythos:社区用 PyTorch 逆向重建 Mythos 架构(假设为循环深度 Transformer),770M 参数匹配 1.3B 标准 Transformer
- TabPFN:表格数据的"上下文学习"——预训练模型在推理时直接学习新数据集,准确率 98.8% 超越传统树模型
- 欧盟强制可更换电池:2027 年起手机必须支持用户自行更换,OS 更新至少五年
缺失日期
- 2026-04-19(周日):无早报
下周值得跟进
1. GPT-5.5 发布:Polymarket 押注持续升温,OpenAI 如果本周发布将重新洗牌编码赛道格局
2. DeepSeek V4:传闻本周发布,关注其与 GPT-5.5 的直接对比以及 100 亿估值融资的进展
3. Sora 关停(4/26):OpenAI 关闭视频生成产品,观察行业对 AI 视频商业模式的反思
4. Claude Code 定价走向:Anthropic 承认现有计划不适应使用量增长,新的定价策略将决定其商业化天花板
5. SpaceX-Cursor 交易细节:600 亿美元收购的后续进展,以及 Musk 是否真能促成 xAI + Cursor + Mistral 联盟
6. 伊朗局势:停火延期但和谈前景不明,能源市场的结构性影响将持续
7. AI 评测基准改革:伯克利的 BenchJack 工具发布后,行业是否会形成新的评测共识
科技新闻周回顾 | 2026年4月26日 | 基于 4/20-4/24 共 5 份早报,缺失 4/19