晨信

早报 · 2026年4月27日 · 星期一

2026-04-2717 分钟
#早报
Dear 哞小哞,

AI 正在学会自己做完整的事,而科学机构正在学会自己散架。两件事发生在同一个星期,不是巧合。


头条

GPT-5.5:AI 终于不用你盯着干活了

OpenAI 在 4 月 23 日发布 GPT-5.5,次日 API 开放。和以往不同,这次最值得说的不是跑分截图,而是一个底层能力的跃迁:模型能自己规划多步骤任务、调用工具、检查结果、处理模糊情况,然后一直做下去直到完成。

OpenAI 把这叫 Agentic(自主行动能力)。实际工作中,用 AI 做复杂任务的最大痛点不是"它不够聪明",而是"你得像个项目经理一样全程盯着"。稍微多几个步骤,它就开始跑偏,或者停下来问你"接下来怎么办"。你花在"管理 AI"上的精力,有时候比自己动手还多。

几个关键数字:

  • Terminal-Bench 2.0(复杂命令行工作流):GPT-5.5 82.7%,Claude Opus 4.7 69.4%
  • GDPval(44 种职业知识工作能力):GPT-5.5 84.9%,Gemini 3.1 Pro 67.3%
  • FrontierMath Tier 4(顶级数学难题):GPT-5.5 35.4%,GPT-5.4 27.1%,Claude Opus 4.7 22.9%
  • MRCR(超长上下文信息检索,512K-1M token):GPT-5.5 74.0%,GPT-5.4 36.6%——翻倍

真正让我停下来的不是这些数字,是两个真实测试者的反馈。

Every 创始人 Dan Shipper 遇到一个棘手 bug,公司最好的工程师花了几天才解决。他拿 GPT-5.5 做回溯测试:把 bug 出现时的代码状态给模型。GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。他说这是"第一个让我感受到真正概念清晰度的编程模型"。

MagicPath CEO Pietro Schirano 让 GPT-5.5 合并一个有几百处前端改动的分支进主分支——工程上的噩梦级任务,人工做可能要一整天。模型大概 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。

还有一个 NVIDIA 工程师说:"失去 GPT-5.5 的使用权,感觉像是被截肢了。"

科研方向的案例更有意思。一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明——后来通过了 Lean(数学形式化验证工具)的独立验证。免疫学教授 Derya Unutmaz 用它分析了一个 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告。他说这些工作,他的团队做可能要几个月。

定价:输入 $5/百万 token,输出 $30/百万 token;Pro 版输入 $30,输出 $180。上下文窗口 1M token。

一句话判断:GPT-5.5 标志着 AI 从"回答问题"到"参与科学过程"的跨越。这两件事之间的距离,比看起来要大得多。能不能真的做到,还需要时间验证。但方向已经很清楚了。


xAI 发布 grok-voice-think-fast-1.0:语音交互的架构级领先

xAI 发布了新的旗舰语音模型 grok-voice-think-fast-1.0,已经在 Starlink 的客服电话里实际部署。在 τ-voice Bench 上以 67.3% 的成绩领先,Gemini 3.1 Flash Live 43.8%,GPT Realtime 1.5 35.3%。

这不是 5% 的边际提升,是架构级领先。

最惊人的是在电信垂直场景(套餐变更、账单争议、技术故障排查)里:grok-voice-think-fast-1.0 73.7%,Gemini 21.9%,GPT Realtime 21.1%——33 个百分点的差距。这意味着在真实企业客服环境里,xAI 的模型和竞争对手已经不在同一个竞争维度上。

技术上最大的突破是"背景推理":模型在对话的同时进行思考,不增加响应延迟。传统的推理模型会增加响应时间,因为先生成中间"思考"token 再出答案。xAI 把这层计算藏在了对话的 latency budget 里,用户感觉不到变慢,但答案质量显著提升。

一个典型的 edge case:问"一年里哪些月份的英文拼写包含字母 X",grok-voice-think-fast-1.0 正确回答"没有",竞品们自信而错误地回答"February"。

一句话判断:语音 AI 的竞争格局正在从"谁的语音识别更准"转向"谁的语音 agent 能真正处理复杂业务流程"。xAI 目前在后者上领先一个身位。


要闻

AI 智力天花板崩了:GPT-5.5 Pro 视觉智商 145,撞倒门萨门槛

LisanBench 最新跑分显示,GPT-5.5 Pro 文本 IQ 130、视觉 IQ 145。门萨俱乐部的入会门槛是 130。1946 年至今的"人类最高智商俱乐部"将迎来第一位非人类成员——如果它算是成员的话。这个分数本身说明不了什么,真正的问题是人类 IQ 测试的设计逻辑是否还适用于评估机器智能。(新智元)

谷歌收 200 美元的 AI 动态图表功能,Claude 免费开放

Anthropic 给 Claude 装了一块"白板":对话里直接生成交互式图表和流程图,用户点哪里都能展开。OpenAI 两天前也上了类似功能,Google 的同类功能收 $200/月。三家在同一条赛道上撞车,但定价逻辑完全不同。Claude 的选择很明确:用免费功能拉用户,在数据可视化这个高频场景里建立习惯。(新智元)

NVIDIA 开源 Lyra 2.0:老照片炸成可漫游 3D 宇宙

NVIDIA 把 Lyra 2.0 全开源。35 步去噪变 4 步,2D 图片直出 3D 高斯泼溅 + 网格。谷歌还在闭源守宝,老黄已经把手伸进每个人口袋。社交狂欢背后,是对具身 AI 仿真的巨大潜力——机器人需要理解三维世界,而 Lyra 2.0 让这件事从实验室走到了个人电脑。(新智元)

23 岁门外汉携 ChatGPT 攻克 60 年数学猜想,陶哲轩:我们全走偏了

一个毫无高数背景的 23 岁年轻人,靠一段提示词,让 ChatGPT 在 80 分钟内破解了困扰人类 60 年的猜想。陶哲轩的评价是"我们全走偏了"。7 年的专业研究,输给了一次"vibe mathing"。这件事的冲击力不在于结果本身,而在于它揭示了一个让人不安的可能性:专业壁垒在某些领域可能已经被技术抹平,而身处壁垒里的人还没意识到。(新智元)

Sam Altman 向加拿大小镇道歉

OpenAI 曾封禁枪击案嫌疑人的 ChatGPT 账号,却未向警方预警。Altman 向 Tumbler Ridge 镇正式道歉。这件事暴露了一个更深层的问题:AI 公司在内容安全审核上投入了大量资源,但在"什么情况下应该主动配合执法"这个边界上,几乎没有公开的标准和流程。(新智元)

特朗普政府解雇 NSF 全体科学顾问委员会

4 月 24 日,美国国家科学基金会(NSF)下属的国家科学委员会(NSB)全部 22 名成员收到邮件:"代表特朗普总统,你们的职位被立即终止。"NSB 成立于 1950 年,成员由总统任命、任期六年且交错安排,理论上不会发生全员更替。这是历史上第一次。

委员会主席 Dan Reed 说:"我们需要一个充满活力、独立的 NSB。"加州众议员 Zoe Lofgren 更直接:"这是最新的一次愚蠢举动。"

这并非孤立事件。去年特朗普政府解雇了免疫接种咨询委员会全部 17 名成员,取消了 NSF 14 个咨询委员会,还发布行政令解散了包括长新冠委员会在内的多个科学顾问机构。

NSF 接下来还面临预算危机:特朗普连续两年提议将 NSF 预算削减一半以上,虽然国会没有批准,但机构已经流失超过 30% 的员工。

一句话判断:当 AI 正在学会自己做科学研究的时候,美国科学资助体系的决策层被清空了。这个 timing 很糟糕。(Nature)

哈佛 2000 名研究生罢工,科研停摆

从 4 月 21 日起,哈佛 2000 名研究生工人开始罢工。医学院的 Veritas Science Center 走廊空无一人,微生物学家 Adam Sychla 说:"实验室没在运行。"

工会要求年薪最低 $55,000(目前约 $50,000)、时薪从 $21 涨到 $25、保护国际学生免遭驱逐、改革骚扰和歧视案件处理机制。哈佛的捐赠基金在去年 6 月结束的财年里增长到近 570 亿美元,增加了约 37 亿,同时创下了捐赠纪录。

另一个代表博士后、讲师、助教的工会(约 2600 人)也在酝酿罢工。如果通过,这将是美国顶尖大学最大规模的学术劳工行动之一。(Nature)

中国期刊分区表停更,学术界震动

中国最有影响力的期刊评价体系——中科院期刊分区表——突然停止更新。这个分区表在科研评价、基金申请、职称晋升中扮演了关键角色。停更后,"什么期刊算一区"这个基本问题突然没有权威答案了。几个替代列表已经涌现,但都没有分区表的影响力。这件事的影响会在未来几个月的基金评审季里逐渐显现。(Nature)

假论文署名明码标价:广告数据库揭露学术欺诈黑产

研究人员分析了数千条论文代写广告,发现"署名位置"已经成为可以购买的商品。第一作者、通讯作者、甚至整个研究团队的署名,都在明码标价。这不是个案,是产业链。当论文工厂和 AI 写作工具结合,学术出版的信任基础设施正在加速崩解。(Nature)

肿瘤细胞周围的大脑组织充满塑料微粒

科学家发现,脑肿瘤周围的组织中,微塑料和纳米塑料的含量显著高于健康脑组织。这暗示血脑屏障可能在肿瘤区域出现了破损。不是因果关系的确立,但打开了一个值得追踪的方向:塑料污染是否参与了神经疾病的发展?(Nature)

心跳能抑制肿瘤生长

《Science》发表研究:心脏的跳动机械压力能够阻止癌细胞在心脏组织中生长。实验团队把心脏移植到小鼠颈部(不跳动但供血正常),注射癌细胞后两周,移植心脏几乎被癌细胞占领;而原生心脏只有约 20% 组织癌变。这解释了为什么心脏肿瘤在哺乳动物中极其罕见(尸检发现率不到 1%)。(Nature)

癌症相关基因变异在阿尔茨海默病小胶质细胞中富集

Cell 发表研究:癌症相关的体细胞变异在阿尔茨海默病患者的大脑免疫细胞(小胶质细胞样细胞)中富集,驱动炎症和增殖状态。癌症和神经退行性疾病之间的分子联系又多了一条线索。(Cell)

肠道菌群与黑色素瘤术后免疫治疗效果相关

对 674 名高风险黑色素瘤患者的多区域研究发现:肠道菌群的区域差异很大,但与术后无复发生存率的关联模式保持一致。这意味着无论你在哪个大洲,菌群-免疫的相互作用机制可能是通用的。(Cell)

皮肤-下丘脑轴:高温压力与代谢失调的隐秘通道

Cell 发表研究:热压力通过 KLK14 依赖的表观遗传重编程激活皮肤-下丘脑轴,导致代谢功能障碍。这个发现把"皮肤感受温度"和"全身代谢调节"连在了一起,为理解热浪对健康的影响提供了分子层面的解释。(Cell)

工程共生菌调节肠-肝-脑轴代谢

Cell:工程化改造的乳酸杆菌株能够代谢氨并重塑肝病小鼠的氨基酸平衡。从肠道菌群出发干预肝脏和大脑代谢,这个方向正在从概念验证走向可操作的疗法。(Cell)

乒乓球机器人 Ace 击败精英选手

Nature 连续两篇报道:AI 驱动的机械臂 Ace 通过高速感知系统和自适应学习,能够在乒乓球比赛中击败精英选手。这件事的趣味在于——乒乓球是人类反应速度的极限运动之一,AI 在这个领域取得突破,说明感知-动作闭环的延迟已经被压缩到了人类无法感知的程度。(Nature)

Wikipedia 训练出的 AI 模型预测"100 项值得关注的技术"

研究人员用 Wikipedia 内容训练 AI 模型,让它预测未来值得关注的技术方向。结果列表里有可预期的(量子计算、基因编辑),也有出人意料的。这种方法的价值不在于预测准确性,而在于它提供了一种"无人类偏见的技术趋势扫描"——Wikipedia 的编辑过程本身已经过滤掉了商业宣传的噪音。(Nature)

6000 名研究者怎么看科学的未来

Nature 对 6000 名研究者的调查显示:资金担忧和发表压力是最普遍的焦虑。当 NSF 被清盘、哈佛研究生罢工、期刊分区表消失——这些个体的焦虑正在变成系统性的现实。(Nature)

AI 时代的孩子教育:8 个问题一次说清楚

乔木博客梳理了 AI 时代教育的最核心问题:不是"学什么",而是"谁在思考"。Naval Ravikant 说"强制教育系统培养的是工业时代的工人,底层逻辑是服从,不是思考"。Garry Tan 在 YC 看过几千个创始人后,认为最能预测长期成就的单一变量是 Agency(能动性)——相信自己能改变结果,并且真的去行动。

具体的行动框架:项目驱动 + 真实世界反馈、基于掌握的学习(AI 确保 90% 掌握才前进)、每天留"无结构探索时间"。一个会用 AI 的孩子,产出能力可以是不会用 AI 的孩子的 10 到 100 倍。(乔木博客)

用 PageIndex 做 RAG:不用向量,靠推理检索

传统 RAG 靠向量相似度检索,PageIndex 走了一条不同的路:让模型通过推理来定位信息。在需要精确引用和复杂文档结构的场景里,这种"推理式检索"可能比"相似度匹配"更可靠。RAG 的基本假设正在被重新检验。(MarkTechPost)

Google DeepMind 发布 Vision Banana

一个经过指令调优的图像生成模型,在分割任务上击败了 SAM 3,在度量深度估计上击败了 Depth Anything V3。论文的核心论点是:图像生成预训练对计算机视觉的意义,相当于 GPT 式预训练对 NLP 的意义。(MarkTechPost)

准确率评估反而鼓励大模型幻觉

Nature 发表的研究指出:用准确率来评估大语言模型,会系统性地鼓励幻觉。 因为模型被训练去"给出看起来对的答案",而不是"在不确定时说不知道"。这个发现对 AI 安全评估框架有直接影响——我们用来衡量模型好坏的指标,可能正在制造我们试图解决的问题。(Nature)

把 Pandas 运行时间减少 95% 的方法

不是用更强大的硬件,而是识别隐藏瓶颈:避免不必要的类型转换、减少内存拷贝、用向量化操作代替循环。这篇文章的价值在于它展示了"慢代码"和"快代码"之间的鸿沟往往不是算法复杂度的问题,而是对工具底层行为的理解。(Towards Data Science)


关联

AI 自主科研 + 科学机构崩解 = 一个危险的窗口期

GPT-5.5 已经能帮免疫学教授分析 28,000 个基因的数据集、帮数学家发现新证明、帮生物学家构建研究工具。与此同时,NSF 的决策层被清空、哈佛的实验室因为罢工停摆、中国的期刊评价体系突然消失。

这不是"AI 替代科学家"的科幻场景。这是"AI 正在学会做科学,而做科学的机构正在散架"的现实。如果这两个趋势持续下去,未来几年的科学产出可能会经历一次奇怪的转移:从大学实验室流向 AI 公司和独立研究者。

语音 AI 爆发 + 教育范式重构 = 人类独特价值的重新定义

xAI 的语音模型已经在 Starlink 客服里处理真实电话,GPT-5.5 正在替代项目经理的工作,乔木博客在说孩子应该学会"指挥 AI"而不是"和 AI 竞争计算能力"。三件事指向同一个问题:当 AI 能说话、能推理、能执行复杂任务的时候,人类还剩什么是不可替代的?

一个可能的答案是:提出好问题的能力、在模糊中做判断的胆量、以及对"这个结果对吗"的直觉。这些都不是传统教育擅长培养的。

学术诚信危机 + 评估指标扭曲 = 知识生产的信任基础设施正在失效

假论文署名可以明码标价,用准确率评估 LLM 会鼓励幻觉,期刊分区表停更后评价体系真空。三件事的共同点是:知识生产过程中的"信任机制"——同行评审、指标评估、机构背书——都在被技术或政治压力冲击。

这不是某个环节出了问题,是整个系统的多个节点同时失效。重建信任可能比建立它更难。


拾遗

  • 为什么心脏很少得癌症:不是因为心脏有什么特殊的抗癌基因,而是因为心脏在持续跳动。机械压力本身就是癌细胞的天敌。这提醒我们:运动不只是"有益健康",可能在分子层面直接抑制肿瘤生长。
  • 脑肿瘤周围充满塑料微粒:血脑屏障这道人类进化了几百万年的防线,可能被微塑料找到了破口。而且是在肿瘤区域。两件事放在一起看,环境污染物和神经系统疾病之间的关系可能比我们现在认为的要深。

来源

1. GPT-5.5发布:AI终于不用你盯着干活了 — 乔木博客

2. xAI Launches grok-voice-think-fast-1.0 — MarkTechPost

3. AI智力天花板崩了!GPT-5.5 Pro视觉智商145 — 新智元

4. 谷歌收200美元的AI动态图表功能,今天被Claude免费开放 — 新智元

5. 老黄100%免费开源!老照片炸成可漫游3D宇宙 — 新智元

6. 23岁门外汉携ChatGPT,攻克60年数学猜想 — 新智元

7. 奥特曼,正式向公众道歉 — 新智元

8. Entire NSF science advisory board fired by Trump administration — Nature

9. Thousands of Harvard graduate students strike — Nature

10. Closure of China's influential journal ranking leaves academics reeling — Nature

11. How much for a fake authorship? Ad database reveals secrets of scientific fraud — Nature

12. Brain tissue near tumours is loaded with plastic — Nature

13. How your heartbeat could keep cancer at bay — Nature

14. Somatic cancer variants enriched in Alzheimer's disease microglia-like cells00341-7?rss=yes) — Cell

15. Gut microbiome is associated with recurrence-free survival in melanoma00342-9?rss=yes) — Cell

16. A skin-hypothalamus axis couples heat stress and metabolic dysfunction00346-6?rss=yes) — Cell

17. Engineered commensals for metabolic modulation of the gut-liver-brain axis00384-3?rss=yes) — Cell

18. This robot can beat you at table tennis — Nature

19. Wikipedia-based AI model reveals the 100 technologies to watch — Nature

20. What 6,000 researchers think about the future of science — Nature

21. AI时代的孩子教育,8个问题一次说清楚 — 乔木博客

22. RAG Without Vectors: How PageIndex Retrieves by Reasoning — MarkTechPost

23. Google DeepMind Introduces Vision Banana — MarkTechPost

24. Evaluating large language models for accuracy incentivizes hallucinations — Nature

25. I Reduced My Pandas Runtime by 95% — Towards Data Science

26. Top 7 Benchmarks That Actually Matter for Agentic Reasoning — MarkTechPost

27. We need to talk about failure in science — Nature

28. Cosmic-ray detection heralds era of mega-observatories for neutrinos — Nature

Lin
2026-04-27