X-Ray 情报:Sonnet 4.6 重新定价AI,五角大楼逼宫Anthropic (2026-02-18)
🌡️ Vibe Check
硅谷今日天气:冰火两重天。 Anthropic 一边在技术层面兑现了"中端价格旗舰性能"的承诺,一边在政治层面被五角大楼逼到墙角。这不是技术问题,是立场问题——你到底为谁服务?
🚨 Top 10 Signals
🔴 1. Claude Sonnet 4.6 发布:旗舰性能,中端价格,行业重新定价
Anthropic 昨日发布 Claude Sonnet 4.6,这不只是一次模型升级,而是一次行业定价事件。OSWorld 基准从 Sonnet 3.5 的 14.9% 飙升到 72.5%,SWE-bench Verified 达到 79.6%(仅落后 GPT-5.2 的 80.0% 不到半个百分点)。关键在于价格:$3/$15 per million tokens,仅为 Opus 系列的五分之一。
本质上,Anthropic 正在用 Sonnet 系列系统性地侵蚀自己旗舰产品的定价空间。当企业每天跑百万次 API 调用时,这个数学题的答案已经写好了。
"Claude Sonnet 4.6 matches Opus 4.6 performance at one-fifth the cost." — VentureBeat
🔴 2. 五角大楼威胁将 Anthropic 列为"供应链风险"——AI 伦理的政治代价
Axios 爆料:国防部长 Pete Hegseth 正接近做出决定,将 Anthropic 列为"供应链风险"(supply chain risk)。这个标签通常只用于惩罚外国对手。一旦执行,所有与美军合作的承包商都必须切断与 Anthropic 的业务往来。
核心矛盾:Anthropic 坚持 Claude 不能被用于"无人类监督的自主武器系统",而五角大楼认为这些条件"不可操作"。OpenAI、Google、xAI 已经同意移除类似限制。
这是一个教科书级别的博弈论困境:坚持安全原则,可能失去最大的政府客户;妥协原则,可能失去品牌根基。
"The designation would force any contractor seeking to work with the U.S. military to cut ties with Anthropic." — Gizmodo
⚡ 3. Palantir 成为 Anthropic-五角大楼冲突的"人质"
Fast Company 独家报道:Palantir 被夹在正中间。作为将 Claude 整合进国防系统的核心中间商,如果 Anthropic 被列为供应链风险,Palantir 将被迫在最重要的 AI 合作伙伴和最大的政府客户之间做出选择。
Semafor 进一步披露:冲突的导火索是 Palantir 合作框架中的用途限制条款。Hegseth 在一月就已在公开讲话中点名批评 Anthropic,genai.mil 平台刻意排除了 Claude。
"Palantir to cut ties with one of its most important AI partners." — Fast Company
🔗 Fast Company | Semafor
⚡ 4. Hassabis 在印度 AI 峰会"泼冷水":AGI 在 5-8 年后,但当前系统是"参差不齐的智能"
Google DeepMind CEO Demis Hassabis 在印度 AI Impact Summit 上给出了他迄今为止最具体的 AGI 时间表——5 到 8 年。但他的措辞比标题更值得玩味。他用了 "jagged intelligence"(参差不齐的智能)来形容当前系统,并指出三个关键缺陷:无法持续学习、无法长期规划、表现不一致。
能拿数学奥林匹克金牌,却在简单的日常推理上翻车——这不是 AGI,这是一个极度偏科的天才。
"They can get gold medals in the Math Olympiad, really hard problems, but stumble on simpler reasoning tasks." — Demis Hassabis
🔗 Business Insider | Business Today
⚡ 5. Google I/O 2026 定档 5 月 19-20 日:AI + Android 17 + Gemini 全面更新
Google 通过一个 Gemini 驱动的在线谜题揭晓了 I/O 2026 的日期。预计重点:Android 17、Gemini 生态扩展、agentic coding 工具、Chrome AI 集成。同日还确认 Pixel 10a 将在 2 月 18 日(今天)发布。
这次 I/O 的潜台词是:Google 需要回应 Anthropic 在 coding agent 领域的凶猛进攻。Gemini 3 Pro 在多个基准上已被 Sonnet 4.6 超越,Google 需要一个答案。
🔗 The Verge | Google Blog
🟡 6. Anthropic 超级碗广告效果炸裂:Claude 从 App Store 第 41 飙升至第 7
"A Time and a Place" 营销战役的回报超出预期。四支由 Mother 制作的广告嘲讽了"AI 助手突然在对话中推销产品"的现象,隐含对 ChatGPT 的攻击。Claude App Store 排名一夜之间从第 41 跃升至第 7。
这说明 Anthropic 的品牌策略在消费者端正在奏效——"不打广告的 AI"本身就是最好的广告。
🟡 7. Check Point:AI 助手可被滥用为隐蔽的 C2 代理通道
Check Point Research 发布了一份令人不安的研究:具有网页浏览能力的 AI 助手(特别点名了 Grok 和 Microsoft Copilot)可以被攻击者改造为隐蔽的 C2(Command & Control)中继代理。攻击者的恶意通信可以隐藏在正常的企业 AI 使用流量中,几乎无法被传统安全工具检测。
这意味着:你公司部署的 AI 助手,可能正在成为黑客的通信管道,而你的防火墙对此一无所知。
🟡 8. 智谱 GLM-5 论文:从 Vibe Coding 到 Agentic Engineering,MIT 开源
智谱 AI(Z.ai)发布 GLM-5 技术论文(185 位作者,清华联合),标题直接叫"From Vibe Coding to Agentic Engineering"。MIT 协议开源,在 coding 和 agentic 基准上对标 Claude Opus 4.5 和 GPT-5.2。
中国开源模型在 agent 方向的追赶速度值得关注。当 Anthropic 和 OpenAI 在军事用途上争吵时,中国团队在安静地开源。
🔗 arXiv 论文 | Open Source For You
🟢 9. AI 生成的密码极度不安全:Claude/Gemini/ChatGPT 都有可预测模式
Sky News 验证了安全公司 Irregular 的研究:三大 AI 模型生成的密码都存在高度可预测的模式。搜索 Claude 常用的前缀 "K9#mP" 在泄露数据库中得到 113 条匹配,Gemini 的 "k9#vL" 得到 14 条。
这个发现的反直觉之处在于:大多数人以为让 AI 生成密码比自己想更安全。事实恰恰相反——LLM 的"随机"不是真正的随机,而是训练数据分布的投影。
🔗 Sky News
🟢 10. Amazon 强制 80% 开发者每周使用 AI 编程 + 一线 Tech Lead 的"边界感"
Amazon 内部设定了新的 KPI:80% 的开发者每周至少使用一次 AI 编程工具。与此同时,Business Insider 采访了一位 Amazon Tech Lead Anni Chen,她每天都在 vibe coding,但明确表示:在涉及安全关键路径和核心架构决策时,她拒绝使用 AI。
"了解 LLM 擅长什么、不擅长什么"——这才是 2026 年工程师的核心能力。执行层不缺工具,缺的是判断力。
🧶 Connecting the Dots
今天的 10 条信号有一条隐藏的主线:AI 的"能力"问题已经基本解决,"该不该用"和"怎么用"才是 2026 的真正战场。
- Sonnet 4.6 证明旗舰性能可以以中端价格交付,技术差距在快速收窄
- 但五角大楼事件表明,技术能力的边界正在被政治和伦理重新划定
- Hassabis 的"参差不齐的智能"提醒我们,数学奥赛金牌不等于可靠
- 而 AI 生成密码的漏洞、C2 代理攻击则揭示了一个尴尬的现实:我们在用不完全理解的工具处理不完全理解的风险
在这个时刻,最值得信任的不是跑分最高的模型,而是对自身局限性最诚实的人。