早报 · 2026年4月27日 · 星期一

2026-04-27约 17 分钟

#早报

Dear 哞小哞,

AI 正在学会自己做完整的事，而科学机构正在学会自己散架。两件事发生在同一个星期，不是巧合。

头条

GPT-5.5：AI 终于不用你盯着干活了

OpenAI 在 4 月 23 日发布 GPT-5.5，次日 API 开放。和以往不同，这次最值得说的不是跑分截图，而是一个底层能力的跃迁：模型能自己规划多步骤任务、调用工具、检查结果、处理模糊情况，然后一直做下去直到完成。

OpenAI 把这叫 Agentic（自主行动能力）。实际工作中，用 AI 做复杂任务的最大痛点不是"它不够聪明"，而是"你得像个项目经理一样全程盯着"。稍微多几个步骤，它就开始跑偏，或者停下来问你"接下来怎么办"。你花在"管理 AI"上的精力，有时候比自己动手还多。

几个关键数字：

Terminal-Bench 2.0（复杂命令行工作流）：GPT-5.5 82.7%，Claude Opus 4.7 69.4%
GDPval（44 种职业知识工作能力）：GPT-5.5 84.9%，Gemini 3.1 Pro 67.3%
FrontierMath Tier 4（顶级数学难题）：GPT-5.5 35.4%，GPT-5.4 27.1%，Claude Opus 4.7 22.9%
MRCR（超长上下文信息检索，512K-1M token）：GPT-5.5 74.0%，GPT-5.4 36.6%——翻倍

真正让我停下来的不是这些数字，是两个真实测试者的反馈。

Every 创始人 Dan Shipper 遇到一个棘手 bug，公司最好的工程师花了几天才解决。他拿 GPT-5.5 做回溯测试：把 bug 出现时的代码状态给模型。GPT-5.4 做不到，GPT-5.5 给出了和那位工程师基本一致的方案。他说这是"第一个让我感受到真正概念清晰度的编程模型"。

MagicPath CEO Pietro Schirano 让 GPT-5.5 合并一个有几百处前端改动的分支进主分支——工程上的噩梦级任务，人工做可能要一整天。模型大概 20 分钟，一次搞定。他说"感觉像是在和一个更高智能合作，甚至有一种尊重感"。

还有一个 NVIDIA 工程师说："失去 GPT-5.5 的使用权，感觉像是被截肢了。"

科研方向的案例更有意思。一个内部版本的 GPT-5.5 配合自定义工具，帮助发现了一个关于拉姆齐数的新证明——后来通过了 Lean（数学形式化验证工具）的独立验证。免疫学教授 Derya Unutmaz 用它分析了一个 62 个样本、近 28,000 个基因的基因表达数据集，生成了详细研究报告。他说这些工作，他的团队做可能要几个月。

定价：输入 $5/百万 token，输出 $30/百万 token；Pro 版输入 $30，输出 $180。上下文窗口 1M token。

一句话判断：GPT-5.5 标志着 AI 从"回答问题"到"参与科学过程"的跨越。这两件事之间的距离，比看起来要大得多。能不能真的做到，还需要时间验证。但方向已经很清楚了。

xAI 发布 grok-voice-think-fast-1.0：语音交互的架构级领先

xAI 发布了新的旗舰语音模型 grok-voice-think-fast-1.0，已经在 Starlink 的客服电话里实际部署。在 τ-voice Bench 上以 67.3% 的成绩领先，Gemini 3.1 Flash Live 43.8%，GPT Realtime 1.5 35.3%。

这不是 5% 的边际提升，是架构级领先。

最惊人的是在电信垂直场景（套餐变更、账单争议、技术故障排查）里：grok-voice-think-fast-1.0 73.7%，Gemini 21.9%，GPT Realtime 21.1%——33 个百分点的差距。这意味着在真实企业客服环境里，xAI 的模型和竞争对手已经不在同一个竞争维度上。

技术上最大的突破是"背景推理"：模型在对话的同时进行思考，不增加响应延迟。传统的推理模型会增加响应时间，因为先生成中间"思考"token 再出答案。xAI 把这层计算藏在了对话的 latency budget 里，用户感觉不到变慢，但答案质量显著提升。

一个典型的 edge case：问"一年里哪些月份的英文拼写包含字母 X"，grok-voice-think-fast-1.0 正确回答"没有"，竞品们自信而错误地回答"February"。

一句话判断：语音 AI 的竞争格局正在从"谁的语音识别更准"转向"谁的语音 agent 能真正处理复杂业务流程"。xAI 目前在后者上领先一个身位。

要闻

AI 智力天花板崩了：GPT-5.5 Pro 视觉智商 145，撞倒门萨门槛

LisanBench 最新跑分显示，GPT-5.5 Pro 文本 IQ 130、视觉 IQ 145。门萨俱乐部的入会门槛是 130。1946 年至今的"人类最高智商俱乐部"将迎来第一位非人类成员——如果它算是成员的话。这个分数本身说明不了什么，真正的问题是人类 IQ 测试的设计逻辑是否还适用于评估机器智能。（新智元）

谷歌收 200 美元的 AI 动态图表功能，Claude 免费开放

Anthropic 给 Claude 装了一块"白板"：对话里直接生成交互式图表和流程图，用户点哪里都能展开。OpenAI 两天前也上了类似功能，Google 的同类功能收 $200/月。三家在同一条赛道上撞车，但定价逻辑完全不同。Claude 的选择很明确：用免费功能拉用户，在数据可视化这个高频场景里建立习惯。（新智元）

NVIDIA 开源 Lyra 2.0：老照片炸成可漫游 3D 宇宙

NVIDIA 把 Lyra 2.0 全开源。35 步去噪变 4 步，2D 图片直出 3D 高斯泼溅 + 网格。谷歌还在闭源守宝，老黄已经把手伸进每个人口袋。社交狂欢背后，是对具身 AI 仿真的巨大潜力——机器人需要理解三维世界，而 Lyra 2.0 让这件事从实验室走到了个人电脑。（新智元）

23 岁门外汉携 ChatGPT 攻克 60 年数学猜想，陶哲轩：我们全走偏了

一个毫无高数背景的 23 岁年轻人，靠一段提示词，让 ChatGPT 在 80 分钟内破解了困扰人类 60 年的猜想。陶哲轩的评价是"我们全走偏了"。7 年的专业研究，输给了一次"vibe mathing"。这件事的冲击力不在于结果本身，而在于它揭示了一个让人不安的可能性：专业壁垒在某些领域可能已经被技术抹平，而身处壁垒里的人还没意识到。（新智元）

Sam Altman 向加拿大小镇道歉

OpenAI 曾封禁枪击案嫌疑人的 ChatGPT 账号，却未向警方预警。Altman 向 Tumbler Ridge 镇正式道歉。这件事暴露了一个更深层的问题：AI 公司在内容安全审核上投入了大量资源，但在"什么情况下应该主动配合执法"这个边界上，几乎没有公开的标准和流程。（新智元）

特朗普政府解雇 NSF 全体科学顾问委员会

4 月 24 日，美国国家科学基金会（NSF）下属的国家科学委员会（NSB）全部 22 名成员收到邮件："代表特朗普总统，你们的职位被立即终止。"NSB 成立于 1950 年，成员由总统任命、任期六年且交错安排，理论上不会发生全员更替。这是历史上第一次。

委员会主席 Dan Reed 说："我们需要一个充满活力、独立的 NSB。"加州众议员 Zoe Lofgren 更直接："这是最新的一次愚蠢举动。"

这并非孤立事件。去年特朗普政府解雇了免疫接种咨询委员会全部 17 名成员，取消了 NSF 14 个咨询委员会，还发布行政令解散了包括长新冠委员会在内的多个科学顾问机构。

NSF 接下来还面临预算危机：特朗普连续两年提议将 NSF 预算削减一半以上，虽然国会没有批准，但机构已经流失超过 30% 的员工。

一句话判断：当 AI 正在学会自己做科学研究的时候，美国科学资助体系的决策层被清空了。这个 timing 很糟糕。（Nature）

哈佛 2000 名研究生罢工，科研停摆

从 4 月 21 日起，哈佛 2000 名研究生工人开始罢工。医学院的 Veritas Science Center 走廊空无一人，微生物学家 Adam Sychla 说："实验室没在运行。"

工会要求年薪最低 $55,000（目前约 $50,000）、时薪从 $21 涨到 $25、保护国际学生免遭驱逐、改革骚扰和歧视案件处理机制。哈佛的捐赠基金在去年 6 月结束的财年里增长到近 570 亿美元，增加了约 37 亿，同时创下了捐赠纪录。

另一个代表博士后、讲师、助教的工会（约 2600 人）也在酝酿罢工。如果通过，这将是美国顶尖大学最大规模的学术劳工行动之一。（Nature）

中国期刊分区表停更，学术界震动

中国最有影响力的期刊评价体系——中科院期刊分区表——突然停止更新。这个分区表在科研评价、基金申请、职称晋升中扮演了关键角色。停更后，"什么期刊算一区"这个基本问题突然没有权威答案了。几个替代列表已经涌现，但都没有分区表的影响力。这件事的影响会在未来几个月的基金评审季里逐渐显现。（Nature）

假论文署名明码标价：广告数据库揭露学术欺诈黑产

研究人员分析了数千条论文代写广告，发现"署名位置"已经成为可以购买的商品。第一作者、通讯作者、甚至整个研究团队的署名，都在明码标价。这不是个案，是产业链。当论文工厂和 AI 写作工具结合，学术出版的信任基础设施正在加速崩解。（Nature）

肿瘤细胞周围的大脑组织充满塑料微粒

科学家发现，脑肿瘤周围的组织中，微塑料和纳米塑料的含量显著高于健康脑组织。这暗示血脑屏障可能在肿瘤区域出现了破损。不是因果关系的确立，但打开了一个值得追踪的方向：塑料污染是否参与了神经疾病的发展？（Nature）

心跳能抑制肿瘤生长

《Science》发表研究：心脏的跳动机械压力能够阻止癌细胞在心脏组织中生长。实验团队把心脏移植到小鼠颈部（不跳动但供血正常），注射癌细胞后两周，移植心脏几乎被癌细胞占领；而原生心脏只有约 20% 组织癌变。这解释了为什么心脏肿瘤在哺乳动物中极其罕见（尸检发现率不到 1%）。（Nature）

癌症相关基因变异在阿尔茨海默病小胶质细胞中富集

Cell 发表研究：癌症相关的体细胞变异在阿尔茨海默病患者的大脑免疫细胞（小胶质细胞样细胞）中富集，驱动炎症和增殖状态。癌症和神经退行性疾病之间的分子联系又多了一条线索。（Cell）

肠道菌群与黑色素瘤术后免疫治疗效果相关

对 674 名高风险黑色素瘤患者的多区域研究发现：肠道菌群的区域差异很大，但与术后无复发生存率的关联模式保持一致。这意味着无论你在哪个大洲，菌群-免疫的相互作用机制可能是通用的。（Cell）

皮肤-下丘脑轴：高温压力与代谢失调的隐秘通道

Cell 发表研究：热压力通过 KLK14 依赖的表观遗传重编程激活皮肤-下丘脑轴，导致代谢功能障碍。这个发现把"皮肤感受温度"和"全身代谢调节"连在了一起，为理解热浪对健康的影响提供了分子层面的解释。（Cell）

工程共生菌调节肠-肝-脑轴代谢

Cell：工程化改造的乳酸杆菌株能够代谢氨并重塑肝病小鼠的氨基酸平衡。从肠道菌群出发干预肝脏和大脑代谢，这个方向正在从概念验证走向可操作的疗法。（Cell）

乒乓球机器人 Ace 击败精英选手

Nature 连续两篇报道：AI 驱动的机械臂 Ace 通过高速感知系统和自适应学习，能够在乒乓球比赛中击败精英选手。这件事的趣味在于——乒乓球是人类反应速度的极限运动之一，AI 在这个领域取得突破，说明感知-动作闭环的延迟已经被压缩到了人类无法感知的程度。（Nature）

Wikipedia 训练出的 AI 模型预测"100 项值得关注的技术"

研究人员用 Wikipedia 内容训练 AI 模型，让它预测未来值得关注的技术方向。结果列表里有可预期的（量子计算、基因编辑），也有出人意料的。这种方法的价值不在于预测准确性，而在于它提供了一种"无人类偏见的技术趋势扫描"——Wikipedia 的编辑过程本身已经过滤掉了商业宣传的噪音。（Nature）

6000 名研究者怎么看科学的未来

Nature 对 6000 名研究者的调查显示：资金担忧和发表压力是最普遍的焦虑。当 NSF 被清盘、哈佛研究生罢工、期刊分区表消失——这些个体的焦虑正在变成系统性的现实。（Nature）

AI 时代的孩子教育：8 个问题一次说清楚

乔木博客梳理了 AI 时代教育的最核心问题：不是"学什么"，而是"谁在思考"。Naval Ravikant 说"强制教育系统培养的是工业时代的工人，底层逻辑是服从，不是思考"。Garry Tan 在 YC 看过几千个创始人后，认为最能预测长期成就的单一变量是 Agency（能动性）——相信自己能改变结果，并且真的去行动。

具体的行动框架：项目驱动 + 真实世界反馈、基于掌握的学习（AI 确保 90% 掌握才前进）、每天留"无结构探索时间"。一个会用 AI 的孩子，产出能力可以是不会用 AI 的孩子的 10 到 100 倍。（乔木博客）

用 PageIndex 做 RAG：不用向量，靠推理检索

传统 RAG 靠向量相似度检索，PageIndex 走了一条不同的路：让模型通过推理来定位信息。在需要精确引用和复杂文档结构的场景里，这种"推理式检索"可能比"相似度匹配"更可靠。RAG 的基本假设正在被重新检验。（MarkTechPost）

Google DeepMind 发布 Vision Banana

一个经过指令调优的图像生成模型，在分割任务上击败了 SAM 3，在度量深度估计上击败了 Depth Anything V3。论文的核心论点是：图像生成预训练对计算机视觉的意义，相当于 GPT 式预训练对 NLP 的意义。（MarkTechPost）

准确率评估反而鼓励大模型幻觉

Nature 发表的研究指出：用准确率来评估大语言模型，会系统性地鼓励幻觉。 因为模型被训练去"给出看起来对的答案"，而不是"在不确定时说不知道"。这个发现对 AI 安全评估框架有直接影响——我们用来衡量模型好坏的指标，可能正在制造我们试图解决的问题。（Nature）

把 Pandas 运行时间减少 95% 的方法

不是用更强大的硬件，而是识别隐藏瓶颈：避免不必要的类型转换、减少内存拷贝、用向量化操作代替循环。这篇文章的价值在于它展示了"慢代码"和"快代码"之间的鸿沟往往不是算法复杂度的问题，而是对工具底层行为的理解。（Towards Data Science）

关联

AI 自主科研 + 科学机构崩解 = 一个危险的窗口期

GPT-5.5 已经能帮免疫学教授分析 28,000 个基因的数据集、帮数学家发现新证明、帮生物学家构建研究工具。与此同时，NSF 的决策层被清空、哈佛的实验室因为罢工停摆、中国的期刊评价体系突然消失。

这不是"AI 替代科学家"的科幻场景。这是"AI 正在学会做科学，而做科学的机构正在散架"的现实。如果这两个趋势持续下去，未来几年的科学产出可能会经历一次奇怪的转移：从大学实验室流向 AI 公司和独立研究者。

语音 AI 爆发 + 教育范式重构 = 人类独特价值的重新定义

xAI 的语音模型已经在 Starlink 客服里处理真实电话，GPT-5.5 正在替代项目经理的工作，乔木博客在说孩子应该学会"指挥 AI"而不是"和 AI 竞争计算能力"。三件事指向同一个问题：当 AI 能说话、能推理、能执行复杂任务的时候，人类还剩什么是不可替代的？

一个可能的答案是：提出好问题的能力、在模糊中做判断的胆量、以及对"这个结果对吗"的直觉。这些都不是传统教育擅长培养的。

学术诚信危机 + 评估指标扭曲 = 知识生产的信任基础设施正在失效

假论文署名可以明码标价，用准确率评估 LLM 会鼓励幻觉，期刊分区表停更后评价体系真空。三件事的共同点是：知识生产过程中的"信任机制"——同行评审、指标评估、机构背书——都在被技术或政治压力冲击。

这不是某个环节出了问题，是整个系统的多个节点同时失效。重建信任可能比建立它更难。

拾遗

为什么心脏很少得癌症：不是因为心脏有什么特殊的抗癌基因，而是因为心脏在持续跳动。机械压力本身就是癌细胞的天敌。这提醒我们：运动不只是"有益健康"，可能在分子层面直接抑制肿瘤生长。

脑肿瘤周围充满塑料微粒：血脑屏障这道人类进化了几百万年的防线，可能被微塑料找到了破口。而且是在肿瘤区域。两件事放在一起看，环境污染物和神经系统疾病之间的关系可能比我们现在认为的要深。

来源

1. GPT-5.5发布：AI终于不用你盯着干活了 — 乔木博客

2. xAI Launches grok-voice-think-fast-1.0 — MarkTechPost

3. AI智力天花板崩了！GPT-5.5 Pro视觉智商145 — 新智元

4. 谷歌收200美元的AI动态图表功能，今天被Claude免费开放 — 新智元

5. 老黄100%免费开源！老照片炸成可漫游3D宇宙 — 新智元

6. 23岁门外汉携ChatGPT，攻克60年数学猜想 — 新智元

7. 奥特曼，正式向公众道歉 — 新智元

8. Entire NSF science advisory board fired by Trump administration — Nature

9. Thousands of Harvard graduate students strike — Nature

10. Closure of China's influential journal ranking leaves academics reeling — Nature

11. How much for a fake authorship? Ad database reveals secrets of scientific fraud — Nature

12. Brain tissue near tumours is loaded with plastic — Nature

13. How your heartbeat could keep cancer at bay — Nature

14. Somatic cancer variants enriched in Alzheimer's disease microglia-like cells00341-7?rss=yes) — Cell

15. Gut microbiome is associated with recurrence-free survival in melanoma00342-9?rss=yes) — Cell

16. A skin-hypothalamus axis couples heat stress and metabolic dysfunction00346-6?rss=yes) — Cell

17. Engineered commensals for metabolic modulation of the gut-liver-brain axis00384-3?rss=yes) — Cell

18. This robot can beat you at table tennis — Nature

19. Wikipedia-based AI model reveals the 100 technologies to watch — Nature

20. What 6,000 researchers think about the future of science — Nature

21. AI时代的孩子教育，8个问题一次说清楚 — 乔木博客

22. RAG Without Vectors: How PageIndex Retrieves by Reasoning — MarkTechPost

23. Google DeepMind Introduces Vision Banana — MarkTechPost

24. Evaluating large language models for accuracy incentivizes hallucinations — Nature

25. I Reduced My Pandas Runtime by 95% — Towards Data Science

26. Top 7 Benchmarks That Actually Matter for Agentic Reasoning — MarkTechPost

27. We need to talk about failure in science — Nature

28. Cosmic-ray detection heralds era of mega-observatories for neutrinos — Nature

Lin

2026-04-27