X-Ray 情报:Sonnet 4.6 重新定价AI,五角大楼逼宫Anthropic (2026-02-18)

🌡️ Vibe Check

硅谷今日天气:冰火两重天。 Anthropic 一边在技术层面兑现了"中端价格旗舰性能"的承诺,一边在政治层面被五角大楼逼到墙角。这不是技术问题,是立场问题——你到底为谁服务?


🚨 Top 10 Signals

🔴 1. Claude Sonnet 4.6 发布:旗舰性能,中端价格,行业重新定价

Anthropic 昨日发布 Claude Sonnet 4.6,这不只是一次模型升级,而是一次行业定价事件。OSWorld 基准从 Sonnet 3.5 的 14.9% 飙升到 72.5%,SWE-bench Verified 达到 79.6%(仅落后 GPT-5.2 的 80.0% 不到半个百分点)。关键在于价格:$3/$15 per million tokens,仅为 Opus 系列的五分之一。

本质上,Anthropic 正在用 Sonnet 系列系统性地侵蚀自己旗舰产品的定价空间。当企业每天跑百万次 API 调用时,这个数学题的答案已经写好了。

"Claude Sonnet 4.6 matches Opus 4.6 performance at one-fifth the cost." — VentureBeat

🔗 VentureBeat 报道 | TechCrunch


🔴 2. 五角大楼威胁将 Anthropic 列为"供应链风险"——AI 伦理的政治代价

Axios 爆料:国防部长 Pete Hegseth 正接近做出决定,将 Anthropic 列为"供应链风险"(supply chain risk)。这个标签通常只用于惩罚外国对手。一旦执行,所有与美军合作的承包商都必须切断与 Anthropic 的业务往来。

核心矛盾:Anthropic 坚持 Claude 不能被用于"无人类监督的自主武器系统",而五角大楼认为这些条件"不可操作"。OpenAI、Google、xAI 已经同意移除类似限制。

这是一个教科书级别的博弈论困境:坚持安全原则,可能失去最大的政府客户;妥协原则,可能失去品牌根基。

"The designation would force any contractor seeking to work with the U.S. military to cut ties with Anthropic." — Gizmodo

🔗 Fortune | CNBC


⚡ 3. Palantir 成为 Anthropic-五角大楼冲突的"人质"

Fast Company 独家报道:Palantir 被夹在正中间。作为将 Claude 整合进国防系统的核心中间商,如果 Anthropic 被列为供应链风险,Palantir 将被迫在最重要的 AI 合作伙伴和最大的政府客户之间做出选择。

Semafor 进一步披露:冲突的导火索是 Palantir 合作框架中的用途限制条款。Hegseth 在一月就已在公开讲话中点名批评 Anthropic,genai.mil 平台刻意排除了 Claude。

"Palantir to cut ties with one of its most important AI partners." — Fast Company

🔗 Fast Company | Semafor


⚡ 4. Hassabis 在印度 AI 峰会"泼冷水":AGI 在 5-8 年后,但当前系统是"参差不齐的智能"

Google DeepMind CEO Demis Hassabis 在印度 AI Impact Summit 上给出了他迄今为止最具体的 AGI 时间表——5 到 8 年。但他的措辞比标题更值得玩味。他用了 "jagged intelligence"(参差不齐的智能)来形容当前系统,并指出三个关键缺陷:无法持续学习、无法长期规划、表现不一致

能拿数学奥林匹克金牌,却在简单的日常推理上翻车——这不是 AGI,这是一个极度偏科的天才。

"They can get gold medals in the Math Olympiad, really hard problems, but stumble on simpler reasoning tasks." — Demis Hassabis

🔗 Business Insider | Business Today


⚡ 5. Google I/O 2026 定档 5 月 19-20 日:AI + Android 17 + Gemini 全面更新

Google 通过一个 Gemini 驱动的在线谜题揭晓了 I/O 2026 的日期。预计重点:Android 17、Gemini 生态扩展、agentic coding 工具、Chrome AI 集成。同日还确认 Pixel 10a 将在 2 月 18 日(今天)发布。

这次 I/O 的潜台词是:Google 需要回应 Anthropic 在 coding agent 领域的凶猛进攻。Gemini 3 Pro 在多个基准上已被 Sonnet 4.6 超越,Google 需要一个答案。

🔗 The Verge | Google Blog


🟡 6. Anthropic 超级碗广告效果炸裂:Claude 从 App Store 第 41 飙升至第 7

"A Time and a Place" 营销战役的回报超出预期。四支由 Mother 制作的广告嘲讽了"AI 助手突然在对话中推销产品"的现象,隐含对 ChatGPT 的攻击。Claude App Store 排名一夜之间从第 41 跃升至第 7。

这说明 Anthropic 的品牌策略在消费者端正在奏效——"不打广告的 AI"本身就是最好的广告。

🔗 Blockonomi


🟡 7. Check Point:AI 助手可被滥用为隐蔽的 C2 代理通道

Check Point Research 发布了一份令人不安的研究:具有网页浏览能力的 AI 助手(特别点名了 Grok 和 Microsoft Copilot)可以被攻击者改造为隐蔽的 C2(Command & Control)中继代理。攻击者的恶意通信可以隐藏在正常的企业 AI 使用流量中,几乎无法被传统安全工具检测。

这意味着:你公司部署的 AI 助手,可能正在成为黑客的通信管道,而你的防火墙对此一无所知。

🔗 Check Point Research


🟡 8. 智谱 GLM-5 论文:从 Vibe Coding 到 Agentic Engineering,MIT 开源

智谱 AI(Z.ai)发布 GLM-5 技术论文(185 位作者,清华联合),标题直接叫"From Vibe Coding to Agentic Engineering"。MIT 协议开源,在 coding 和 agentic 基准上对标 Claude Opus 4.5 和 GPT-5.2。

中国开源模型在 agent 方向的追赶速度值得关注。当 Anthropic 和 OpenAI 在军事用途上争吵时,中国团队在安静地开源。

🔗 arXiv 论文 | Open Source For You


🟢 9. AI 生成的密码极度不安全:Claude/Gemini/ChatGPT 都有可预测模式

Sky News 验证了安全公司 Irregular 的研究:三大 AI 模型生成的密码都存在高度可预测的模式。搜索 Claude 常用的前缀 "K9#mP" 在泄露数据库中得到 113 条匹配,Gemini 的 "k9#vL" 得到 14 条。

这个发现的反直觉之处在于:大多数人以为让 AI 生成密码比自己想更安全。事实恰恰相反——LLM 的"随机"不是真正的随机,而是训练数据分布的投影。

🔗 Sky News


🟢 10. Amazon 强制 80% 开发者每周使用 AI 编程 + 一线 Tech Lead 的"边界感"

Amazon 内部设定了新的 KPI:80% 的开发者每周至少使用一次 AI 编程工具。与此同时,Business Insider 采访了一位 Amazon Tech Lead Anni Chen,她每天都在 vibe coding,但明确表示:在涉及安全关键路径和核心架构决策时,她拒绝使用 AI。

"了解 LLM 擅长什么、不擅长什么"——这才是 2026 年工程师的核心能力。执行层不缺工具,缺的是判断力。

🔗 Business Insider


🧶 Connecting the Dots

今天的 10 条信号有一条隐藏的主线:AI 的"能力"问题已经基本解决,"该不该用"和"怎么用"才是 2026 的真正战场。

  • Sonnet 4.6 证明旗舰性能可以以中端价格交付,技术差距在快速收窄
  • 但五角大楼事件表明,技术能力的边界正在被政治和伦理重新划定
  • Hassabis 的"参差不齐的智能"提醒我们,数学奥赛金牌不等于可靠
  • 而 AI 生成密码的漏洞、C2 代理攻击则揭示了一个尴尬的现实:我们在用不完全理解的工具处理不完全理解的风险

在这个时刻,最值得信任的不是跑分最高的模型,而是对自身局限性最诚实的人。