LLM 项目级代码审计能力现状评估

目的：澄清 2026 年 4 月 LLM + AI 编码工具在项目级代码（50 万行 / 中度游戏规模）审计场景下的真实能力边界，为团队技术决策提供依据。

核心结论：LLM 在局部辅助开发上已经非常好用，但在全局代码审计上目前没有成熟方案。两者是本质不同的任务，不应混淆。

一、概念对齐：辅助开发与代码审计的本质差异

在评估 LLM 的代码能力之前，我们必须先澄清一个常见的认知误区：辅助开发和代码审计是两个完全不同的任务，对模型的要求有着本质区别。

辅助开发场景中，开发者已经明确知道要做什么——修复一个已知的 bug、实现一个新功能、重构某个模块。模型的任务是理解当前任务涉及的 5-10 个文件，在开发者的引导下完成具体的代码变更。这是一个人在环路中、容错率高、范围可控的协作过程。
An image to describe post

代码审计则完全不同。审计员面对的是一个完整的代码库，需要在没有明确问题描述的情况下，系统性地发现潜在缺陷——可能是架构设计层面的问题，可能是跨模块的隐含依赖，也可能是边界条件的遗漏。这要求对整个代码库建立全局理解，进行跨模块推理，并且不能有遗漏。容错率极低：漏审一个关键问题就意味着审计失败。

维度	辅助开发（已成熟）	代码审计（未成熟）
模型需要理解的范围	当前任务涉及的 5-10 个文件	整个代码库的全局架构和隐含关系
问题是否已知	是（开发者知道要做什么）	否（需要模型自己发现问题）
跨模块推理	偶尔需要，可人工引导	核心要求，必须自主完成
容错率	高（人在环，可随时纠正）	低（漏审 = 审计失败）
当前工具胜任度	高	低

市面上宣称“支持百万行代码库”的工具——Cursor、Augment、Sourcegraph Cody 等——解决的都是辅助开发问题。它们能索引百万行代码，让开发者在需要时检索到相关片段，但“索引”和“理解”是两回事。Sourcegraph 能索引 Google 的整个代码库，但没人会说它“理解”了 Google 的代码。这个区别至关重要。

二、结构性瓶颈：为什么 50 万行全局审计现在做不到

An image to describe post

2.1 上下文窗口的悖论：装得下不等于理解得了

2026 年 4 月，主流模型的上下文窗口已经全面达到 1M tokens 级别。这是一个重要的技术突破：

模型	上下文窗口	发布/GA 时间	备注
Claude Opus 4.7	1M tokens	2026-04-16 GA	标准定价 $5/$25 per MTok，无长上下文溢价
Claude Opus 4.6 / Sonnet 4.6	1M tokens	2026-03-13 GA（标准定价）	此前 200K 以上有 2x 溢价，已取消
Gemini 2.5 Pro	1M tokens	2025-06 GA	200K 以上有 2x 溢价；2M 版本仍未 GA
Gemini 3 Pro	1M tokens	2026	默认 1M
GPT-5.4	1M tokens	2026	超过 272K 有 2x 溢价

#LLM能力边界 #代码审计 #上下文窗口悖论