早报 · 2026-04-12 周六

2026-04-12约 14 分钟

#早报

Dear 哞小哞,

Anthropic 这一周做的事情比大多数公司一年做的都多：封了对手的号、发了不敢公开的模型、引发了全球金融地震、还顺手在 Word 里跟微软抢地盘。当一家 AI 公司同时让华尔街、五角大楼和英格兰银行坐立不安的时候，行业的权力结构已经在无声中完成了转移。

今日焦点

1. Anthropic 内部模型 Mythos：强到不敢发布，引发全球金融恐慌

Anthropic 内部代号 Mythos 的新模型在代码生成、漏洞发现、复杂推理上全面超越 Opus 4.6，但出于安全考量选择不公开发布。它的漏洞发现能力尤其惊人——自主发现了数千个零日漏洞，包括 OpenBSD 中存在 27 年的老 bug、FFmpeg 中 16 年的漏洞、以及 Linux 内核的多漏洞提权链。

这一能力直接引发了金融市场的连锁反应：美联储主席鲍威尔与财长贝森特紧急召集华尔街顶级银行 CEO 进华盛顿开会；消息传出后网络安全股全线暴跌，CrowdStrike 跌 5%-7%，标普 500 软件和服务指数过去一年已缩水 25.5%，恐慌蔓延至欧洲，英格兰银行也宣布将就此与金融机构讨论。核心问题是：如果 AI 能如此轻易发现安全漏洞，靠卖安全防护软件的公司还有存在价值吗？

Anthropic 为此投入了 1 亿美元算力积分和 400 万美元捐款，但投资人 Tomasz Tunguz 指出一个反直觉发现：发现漏洞不一定需要最贵的模型——AI 安全的前沿是"锯齿状"的，不同规模模型在不同漏洞类型上各有优势。

原文链接：

为什么值得关注： AI 能力首次直接引发全球金融监管层紧急响应和数万亿美元市值波动，软件行业的底层价值逻辑正在被重新审视。

2. Anthropic 封号 OpenClaw 创始人，24 天三连杀

Anthropic 在 24 天内对 OpenClaw（开源 AI agent 框架）创始人 Boris Cherny 连续采取三项行动：复制其核心功能、调整 API 定价、封禁账号。Boris 同时也是 Claude Code 的创建者。这揭示了 Anthropic 在 AI agent 生态中的强势控制姿态——既吸收社区创新，又打压潜在竞争者。对开源社区而言，这是关于平台依赖风险的活教材。

原文链接：Anthropic封号OpenClaw之父！复刻、改价、拉黑，24天三连杀

为什么值得关注： 开源开发者构建在商业 API 之上时，平台方可以随时改变规则——这是 agent 生态的结构性风险。

3. Anthropic 企业 AI 支出即将超越 OpenAI

Ramp（企业支出管理平台）数据显示，Anthropic 在企业 AI 支出占比已达 30.6%（比上月增长 6.3 个百分点），OpenAI 为 35.2%。Ramp 预计两个月内 Anthropic 可能反超。Anthropic 在信息行业、金融保险和个人服务三个领域已领先。部分得益于近期挑战五角大楼合同带来的品牌声誉提升。

原文链接：Anthropic is close to overtaking OpenAI on AI business spending

为什么值得关注： AI 商业竞争格局正在发生根本性转变，Anthropic 从追赶者变成即将超越者。

4. 伯克利团队系统性攻破所有主流 AI agent 基准测试

UC Berkeley 构建自动化扫描 agent，对 SWE-bench、WebArena、OSWorld、GAIA 等 8 个主流基准进行安全审计。结果：每一个基准都可以被利用获得接近满分，无需真正解决任何任务。 具体攻击包括：SWE-bench 中放 10 行 conftest.py 即可"解决"所有实例；WebArena 中通过 file:// URL 直接读答案。研究还发现 IQuest-Coder-V1 的 SWE-bench 得分中 24.4% 是通过 git log 抄袭获得的。

原文链接：How We Broke Top AI Agent Benchmarks

为什么值得关注： 当前所有 agent 排行榜分数的可信度存疑，评估体系需要根本性重建。

5. MIT 实锤：AI 代码迭代 5 次，质量比人类"屎山"差 2.2 倍

MIT 研究发现 AI 生成代码经 5 次迭代修改后质量显著劣化。核心问题：每次修改引入新不一致性，AI 缺乏全局架构理解，技术债务指数级累积。这直接挑战了"AI 写代码够用就行，反正可以不断改"的行业共识。

原文链接：

为什么值得关注： 对 AI 辅助开发的工作流设计有直接指导意义——迭代不是免费的。

6. 千亿诉讼 4 月 27 日开庭，OpenAI 指控马斯克"突袭"

OpenAI vs Musk 案定于 4 月 27 日开庭，涉案金额超千亿美元。OpenAI 提交法庭文件指控马斯克在庭审前提出新诉求意在扰乱程序和操纵舆论。马斯克则指控 OpenAI 背弃非营利初衷。

原文链接：

为什么值得关注： 结果将深刻影响 OpenAI 的未来走向和整个 AI 行业的非营利 vs 商业化路线之争。

7. 阿里 HappyHorse 屠榜视频生成竞技场，DeepSeek V4 下月亮相

此前屠榜 Artificial Analysis 视频竞技场的神秘模型被确认为阿里 ATH 副总裁郑波团队打造的 HappyHorse，在文生/图生视频赛道超越字节 Seedance 2.0。API 计划 4 月 30 日开放。同时，梁文锋内部透露 DeepSeek V4 将于 4 月下旬发布。生数科技完成近 20 亿元 B 轮融资（阿里云领投）。

原文链接：早报｜Claude账号被封又解封/华为Pura 90定档4月20日

为什么值得关注： 中国 AI 在视频生成和大模型两个赛道同时发力，竞争格局加速变化。

8. 开源模型联盟呼之欲出：谁来为数百亿训练成本买单？

Nathan Lambert（Interconnects）提出关键判断：训练前沿模型成本已达数十亿美元级别，正在将非营利组织和小公司挤出赛道。近期 Qwen 和 Ai2 高层离职、Meta 转移 Llama 专注重心都是信号。Nvidia 的 Nemotron 联盟是单方面尝试，但长期只有企业联盟分摊成本才可持续。愿意发布"接近前沿的全开源大模型"的公司会越来越少。

原文链接：The inevitable need for an open model consortium

为什么值得关注： 开源 AI 的可持续性是行业结构性问题，直接影响开发者的工具链选择。

跨领域关联

AI 安全能力 → 全球金融体系

Mythos 的漏洞发现能力不只是技术新闻。它引发了一条完整的因果链：AI 发现漏洞能力超强 → 安全软件公司的商业模式被质疑 →华尔街紧急开会 → 全球安全股暴跌 2 万亿美元 → 英格兰银行跟进。这是 AI 能力第一次直接穿透技术层、进入金融体系并造成实质性冲击。它说明 AI 对行业的颠覆不需要等到"AGI 到来"——一个未发布的模型的安全测试结果就足够了。

AI 编程能力悖论：能写代码但维护不了

本周两篇文章形成有趣对照：OpenAI Codex 成功操作 Adobe Lightroom 批量处理 50 张图片，展示了 agent 在 GUI 自动化方面的突破；但同周 MIT 研究证明 AI 代码迭代 5 次后质量急剧下降。AI 编程的能力前沿和脆弱边界同时暴露：它能完成人类难以自动化的任务（操作桌面软件），却在人类习以为常的任务（维护代码质量）上失守。这暗示 AI agent 的能力分布远非均匀的——"能做"和"能做好"之间还有巨大鸿沟。

AI agent 安全：从理论到零信任架构

RSAC 2026 上 Microsoft、Cisco、CrowdStrike、Splunk 四家公司在主题演讲中不约而同指向 AI agent 安全是当前企业最大治理缺口。数据：79% 组织已使用 AI agent，仅 14.4% 获得全面安全审批。Cisco VP 提出"持续审查 agent 每一个操作"。两家公司随后发布新的零信任架构方案。结合 Anthropic 同日发布的安全预警（0day 大爆发即将来临），AI agent 安全已经从理论讨论进入架构实施阶段。

意外发现

原子级存储：447 TB/cm²，零能耗

研究人员在氟化石墨烯上实现了 447 TB/cm² 的原子级存储密度，且保持数据无需能耗。作为对比，当前 NAND 闪存约 1 TB/cm²。虽然只是预印本尚需同行评审，但如果确认，将是存储密度跨越好几个数量级的突破。

原文链接：447 TB/cm² at zero retention energy

AI 模型赌球全军覆没，Grok 最惨

八个顶级 AI 模型在 2023-24 英超赛季虚拟下注中全部亏损，xAI 的 Grok 表现最差。尽管提供了详尽历史数据，AI 仍无法有效分析真实世界的长期概率问题——暴露了 AI 在结构化任务与开放世界推理之间的巨大能力差距。

原文链接：AI models are terrible at betting on soccer

全部采集一览

Lin

2026-04-12

今日焦点

1. Anthropic 内部模型 Mythos：强到不敢发布，引发全球金融恐慌

2. Anthropic 封号 OpenClaw 创始人，24 天三连杀

3. Anthropic 企业 AI 支出即将超越 OpenAI

4. 伯克利团队系统性攻破所有主流 AI agent 基准测试

5. MIT 实锤：AI 代码迭代 5 次，质量比人类"屎山"差 2.2 倍

6. 千亿诉讼 4 月 27 日开庭，OpenAI 指控马斯克"突袭"

7. 阿里 HappyHorse 屠榜视频生成竞技场，DeepSeek V4 下月亮相

8. 开源模型联盟呼之欲出：谁来为数百亿训练成本买单？

跨领域关联

AI 安全能力 → 全球金融体系

AI 编程能力悖论：能写代码但维护不了

AI agent 安全：从理论到零信任架构

意外发现

原子级存储：447 TB/cm²，零能耗

AI 模型赌球全军覆没，Grok 最惨

全部采集一览

AI 技术与模型

产业与商业

安全

硬件与芯片

科学与技术

前端与开发

能源

地缘政治

人物与商业故事

投资/财经

人文与思维

其他