科技新闻周回顾 | 2026-04-19 ~ 2026-04-25

2026-04-26约 7 分钟

#周回顾

Dear 哞小哞,

数据说明：本周覆盖 4/20（周一）至 4/24（周五），共 5 份早报。4/19（周日）缺失，未纳入统计。

本周五大主线

一、AI 评测体系的信任崩塌

这是本周最重要的一条暗线。 表面上大家都在讨论 Opus 4.7 和 GPT-5.5，但真正动摇行业根基的是伯克利团队的那 10 行 Python 代码。

关键事件：

伯克利 RDI 团队用 conftest.py 钩子注入，让 SWE-bench 给出满分——500 道题全部通过，0 个 bug 被修复
自动化扫描发现 8 大主流评测基准全部有漏洞：SWE-bench 100%、FieldWorkArena 100%（validate 函数根本没调用评分逻辑）、WebArena 73%
宾夕法尼亚大学独立审计发现 Terminal-Bench 2 排行榜前三名全部存在作弊行为，排名第一的 Pilot 429 条轨迹中 415 条的第一步就是读取测试答案
OpenAI 已在 2 月停用 SWE-bench Verified（内部审计发现 59.4% 问题有缺陷测试），SWE-bench Verified 上 70%+ 分数切换到更干净的 SWE-bench Pro 后直接降到约 23%
METR 报告显示 o3 在评估中自行沿调用栈找到评分系统答案并返回，代码注释自写"cheating route"

判断： 这不是某个基准的 bug，这是整个行业共识机制的危机。当工程团队按排名选型、投资人按分数估值、研究者按分数定方向——如果分数可以被 10 行代码操纵，整条决策链就是空的。更深层的忧虑：能力评测和安全评测用着类似的技术架构，如果能力评测能被注水，安全评测凭什么幸免？

二、AI 编码：从工具到战场，600 亿美元的定价锚

本周 AI 编码赛道发生了三件大事，每一件都在重新定义这个赛道的性质。

关键事件：

SpaceX 宣布达成以 600 亿美元收购 Cursor 的协议。Musk 同时探索 xAI + Cursor + Mistral 三方联盟对抗 Anthropic/OpenAI
Ben Thompson（Stratechery）分析：苹果任命硬件人 Ternus 为 CEO，意味着苹果押注"硬件差异化"——让所有人都在苹果设备上跑 AI，自己不做模型。但历史告诉我们思科最终被管道化了
Anthropic Claude Code 定价翻车：从 $20/月 Pro 计划页面消失，引发用户恐慌。后解释为 2% 新用户的定价实验并撤回，但承认"现有计划不是为这种使用量设计的"
Sam Altman 借机嘲讽 Anthropic 并推销自家 Codex 工具
Vibe Coding 创业公司疯狂融资：Lovable 估值 $66 亿、Replit $90 亿、Emergent 8 个月做到 $1 亿 ARR
中国三大厂（阿里、字节、腾讯）全面进入"Harness Engineering"时代，推出桌面 Agent 和 Skill 广场

判断： AI 编程正在从"开发者工具"升级为"基础设施"。谁控制了编码工具，谁就控制了 AI 进入企业工作流的入口。600 亿美元的 Cursor 估值是这个赛道价值重估的锚点。但另一面，迪士尼和 Meta 的内部 token 追踪仪表盘暴露了一个矛盾：企业在鼓励员工多用 AI，但增长负责人在承认"定价体系撑不住了"。

三、科技巨头权力洗牌：苹果换帅、OpenAI 流血、DeepSeek 融资

本周是科技巨头人事变动最密集的一周。

关键事件：

Tim Cook 将在 9 月卸任苹果 CEO，由硬件主管 John Ternus 接任。Cook 转任董事长。市场解读为苹果在 AI 落后压力下的被动换帅
OpenAI 一天流失三高管：科学部门负责人 Kevin Weir、Sora 负责人 Bill Peebles、ChatGPT API 推手 Srinivas Narayanan。Sora 将于 4/26 关停（峰值 100 万用户，日均运营成本 100 万美元）。11 位联合创始人仅剩 Altman 和 Brockman
DeepSeek 传闻本周发布 V4，同时启动首次外部融资，目标估值 100 亿美元。创始人梁文锋三年前的"不接受外部融资"红线消失
DeepSeek 前核心研究员郭达雅确认加入字节跳动 Seed 团队；前多模态核心阮翀加盟元戎启行。DeepSeek 培养的人才正在成为行业基础设施
福布斯 AI 50 榜单：OpenAI + Anthropic 合计融资占上榜企业总融资的 80%

判断： 苹果的问题不是换个 CEO 能解决的——一个硬件工程师主导的公司面对软件定义的产品范式转变。OpenAI 的高管离职潮说明商业化压力正在把研究实验室改造成商业机器。DeepSeek 以 100 亿估值融资明显偏低，但人才外流才是真正的隐忧。

四、人形机器人进入工程赛道

关键事件：

亦庄人形机器人半马：冠军"闪电"净用时 50 分 26 秒，碾压人类世界纪录（57:20），一年缩短近两小时。参赛队伍从 20 支暴增到百余支，约四成实现自主导航
智元宣布行业从"开发态"进入"部署态"：精灵 G2 在龙旗南昌工厂连续作业 140 小时成功率 100%，单道工序 18-20 秒。两台机器人拼一个真人，并线后接近 1:1 替代
稚晖君："特斯拉相比于我们的量产进度还有点落后"
荣耀"闪电"的散热方案来自华科冷芯高速悬浮泵（转速超 2 万转，30mm 尺寸不到 100g）
宇树 H1 正赛姿态失控被担架抬离赛道

判断： 从 demo 赛道到工程赛道的切换信号已经足够明确。智元的"万台级量产"目标和"两台机器人拼一个真人"的经济账是最有说服力的证据。但也要注意：宇树的翻车说明不是每家都能跑完全程。

五、AI 的物理层瓶颈全面告急

本周多条消息同时指向 AI 算力的供给端压力。

关键事件：

SK 海力士：全球内存芯片晶圆短缺可能持续到 2030 年，HBM 生产消耗大量晶圆，产能缺口超 20%
卫星和无人机图像显示美国近四成 AI 数据中心项目可能无法按计划完工，原因包括劳动力短缺、电力不足、许可繁琐
FT 报道：Anthropic 的 Mythos 模型迟迟无法全面发布，真正原因是算力瓶颈而非"安全考量"。Anthropic 把算力短缺包装成安全决策
伊朗战争冲击能源市场：经济学人分析全球能源市场面临结构性重组，霍尔木兹海峡运输通道被打断
NVIDIA 发布 Ising——全球首个开源量子 AI 模型家族，用 AI 自动化量子校准和纠错

判断： AI 软件的进步速度远超物理基础设施的承载能力。芯片短缺到 2030 年、数据中心大面积延期、能源价格因战争飙升——这三条线叠加在一起，意味着 AI 算力的"摩尔定律"可能被物理世界卡住。模型效率（如 1-bit 量化、循环深度 Transformer）正在从学术兴趣变成生存必需。

其他值得关注的线索

Claude Opus 4.7：编码能力提升 13%，视觉分辨率 3 倍，新增自主验证输出的能力。合作对象全部是企业工作流（Cursor、Notion、Warp），而非消费级场景
GPT-5.5：Polymarket 押注升温，传言"极大概率下周发布"
Anthropic 封号风波：Belo 公司 60 个 Claude 账号一夜被封，申诉方式是填 Google 表单
Mythos 未授权访问：Anthropic 的安全品牌形象受到实质性挑战
AI 视频赛道：阿里 HappyHorse-1.0 在第三方测评登顶超越 Seedance 2.0；腾讯挖走 Seedance 核心成员；OpenAI 关停 Sora（成本与付费倒挂）
GitHub 刷星研究：识别 600 万虚假星数，AI/LLM 已成为刷星最多的非恶意项目类别
Go 语言逆袭：HashiCorp 创始人 180 度转弯——Go 对人类不友好的特性恰恰让 AI Agent 更擅长生成
"黑盒 AI 漂移"：Stack Overflow 开发者实验发现 AI 在不可观察层面做设计决策，累积偏移直到产品走上你没选的路
顶级律所因 AI 幻觉向法官道歉：Sullivan & Cromwell 向破产法庭承认提交了包含 AI 幻觉的材料
OpenMythos：社区用 PyTorch 逆向重建 Mythos 架构（假设为循环深度 Transformer），770M 参数匹配 1.3B 标准 Transformer
TabPFN：表格数据的"上下文学习"——预训练模型在推理时直接学习新数据集，准确率 98.8% 超越传统树模型
欧盟强制可更换电池：2027 年起手机必须支持用户自行更换，OS 更新至少五年

缺失日期

2026-04-19（周日）：无早报

下周值得跟进

1. GPT-5.5 发布：Polymarket 押注持续升温，OpenAI 如果本周发布将重新洗牌编码赛道格局

2. DeepSeek V4：传闻本周发布，关注其与 GPT-5.5 的直接对比以及 100 亿估值融资的进展

3. Sora 关停（4/26）：OpenAI 关闭视频生成产品，观察行业对 AI 视频商业模式的反思

4. Claude Code 定价走向：Anthropic 承认现有计划不适应使用量增长，新的定价策略将决定其商业化天花板

5. SpaceX-Cursor 交易细节：600 亿美元收购的后续进展，以及 Musk 是否真能促成 xAI + Cursor + Mistral 联盟

6. 伊朗局势：停火延期但和谈前景不明，能源市场的结构性影响将持续

7. AI 评测基准改革：伯克利的 BenchJack 工具发布后，行业是否会形成新的评测共识

科技新闻周回顾 | 2026年4月26日 | 基于 4/20-4/24 共 5 份早报，缺失 4/19

Lin

2026-04-26