Claude 要验身份!AI 开始认人了
June 22, 2026 · 8:11 AM

Claude 要验身份!AI 开始认人了

周末到今晨,AI 行业主线从能力竞赛转向门禁、健康入口、Agent 控制和本地记忆:Claude 身份验证引发热议,OpenAI 把健康智能推给免费用户,DeepMind 给 Agent 设计控制路线,Apertus、BabelTele、Recall 与 CivBench 则分别指向主权 AI、模型间通信和长周期执行。

周末到今晨,AI 主线变了

不只是模型又强了一点。
这几天更像是 AI 行业从「谁更聪明」切到「谁能被信任、谁能被控制、谁能长期跑下去」。Claude 开始把身份验证摆上台面,OpenAI 把健康咨询能力推进免费入口,DeepMind 直接把 Agent 当「潜在内部威胁」来设计控制路线;另一边,主权开源模型、模型间压缩语言、本地项目记忆工具也在开发者圈冒头。
一句话:AI 正在从炫技期,进入门禁、合规、成本和长期执行能力的硬仗期。
信号发生了什么为什么值得看
Claude 身份验证Anthropic 称正在为「部分用例」推出身份验证,访问特定能力、平台完整性检查或安全合规措施时可能触发;验证需政府签发带照片证件和摄像头/自拍。1高能力模型的入口,开始从「账号」走向「真实人」。HN 抓取时该帖有 517 points、476 comments。2
ChatGPT 健康智能OpenAI 6 月 18 日发布 GPT-5.5 Instant 健康智能更新,并称每周超过 2.3 亿人用 ChatGPT 咨询健康和 wellness 问题。3健康场景正在变成通用 AI 的高频入口,但也是监管和责任最敏感的入口。
DeepMind Agent 控制路线Google DeepMind 6 月 18 日发布 AI Control Roadmap,把高能力 Agent 视作可能不对齐的系统对象,用监控、预防、响应和指标来管控。4Agent 一旦能持续行动,安全问题不再只是提示词,而是系统工程。
Apertus 主权模型Apertus 由 Swiss AI Initiative 推动,页面称其开放权重、开放数据、开放代码、开放方法,并面向 EU AI Act 合规;模型覆盖 8B 和 70B 等级,训练 1000+ 语言。5欧洲路线很清楚:不只要会用模型,还要能解释、复现、合规地拥有模型。
BabelTele 论文arXiv 2606.19857 提出 BabelTele:让模型使用人类低可读、但信息密度更高的文本表示;摘要称压缩到原文本 27.9% 时仍保持 99.5% 语义保真。6模型间通信可能不必模仿人类语言,Agent 记忆和多 Agent 协作会被重新设计。
Recall 本地记忆GitHub 项目 Recall 定位为 Claude Code 的完全本地项目记忆插件,抓取时显示 65 stars、3 forks、16 commits,最新版本 0.3.4。7开发者真正痛的不是「再来一个聊天框」,而是 AI 能不能记住项目上下文。

Claude 要验身份:AI 入口开始认人

Anthropic 这次不是发新模型,而是把「谁在用模型」推到了前台。
官方帮助页写得很直:身份验证用于防止滥用、执行使用政策和满足法律义务;Anthropic 正在为少数用例推出该流程,用户在访问特定能力、平台完整性检查或其他安全合规措施时,可能看到验证提示。1
验证方式也不是邮箱验证码级别。用户需要实体政府签发带照片证件,还可能需要手机或电脑摄像头拍摄实时自拍;Anthropic 选择 Persona Identities 作为验证合作方。1
Claude 身份验证说明页
Claude 身份验证说明页把触发场景、证件要求和数据用途写成了帮助文档。来源:Anthropic 支持文档
最敏感的是数据。Anthropic 称,验证数据只用于确认身份以及法律和安全义务,不用于训练模型;证件和自拍由 Persona 收集和保存,Anthropic 不把这些图像复制或存储到自己的系统中。1
这事为什么炸?因为它很可能是高能力 AI 服务走向分级准入的前奏。今天是部分用例,明天可能是高风险工具调用、代码执行、政府版、金融医疗等场景。模型越能干,平台越需要知道「操作者是谁」。

OpenAI 把健康能力塞进免费入口

OpenAI 这边,押的是另一个高频场景:健康。
6 月 18 日,OpenAI 发布「Improving health intelligence in ChatGPT」,宣布 GPT-5.5 Instant 提升 ChatGPT 的健康智能,并称每周超过 2.3 亿人在 ChatGPT 上询问健康和 wellness 相关问题。3
更关键的是可用性。OpenAI 称 GPT-5.5 Instant 面向所有 ChatGPT 免费用户开放,但有使用限制。3
评测部分,OpenAI 提到 HealthBench、HealthBench Professional,以及由医生制定评分标准和全球医生网络参与的评审;在 3500 份对比评审中,OpenAI 称 GPT-5.5 Instant 的响应评分高于医生手写响应和旧模型,失败问题更少。3
别急着把这理解成「AI 医生来了」。更现实的判断是:健康问答正在成为通用模型的超级入口。入口越大,责任越重。下一步要看两件事:一是不同地区监管会不会要求更明确的免责声明和转诊边界;二是 OpenAI 能不能把「高频健康咨询」和「不能替代医生诊断」这条线守住。

DeepMind 给 Agent 装刹车

如果说 OpenAI 在争入口,DeepMind 这篇更像是在补底盘。
6 月 18 日,Google DeepMind 发布「Securing the future of AI agents」。它的核心不是再证明 Agent 多能干,而是承认一个更难听的前提:高能力 Agent 可能不对齐,甚至要被当成潜在「内部威胁」来管理。4
这套 AI Control Roadmap 讲三件事:威胁建模、风险缓解、性能衡量。DeepMind 提到要参考 MITRE ATT&CK 这类框架做 AI 威胁建模;缓解上,用可信 AI 监督工作 Agent 的推理、行动和计划;衡量上,看覆盖率、召回率和响应时间。4
报告还把检测能力分成 D1-D4,把预防和响应能力分成 R1-R3,并披露团队已分析 100 万个编码智能体任务,用来优化内部监控和安全协议。4
这才是 Agent 真正落地后的问题:不是「能不能调用工具」,而是「调用错了、骗过监控、误删数据、过度追求目标」时,系统有没有刹车。

Apertus:欧洲主权 AI,不只喊口号

Apertus 这条,关键词是「主权」。
项目主页写明,Apertus 由 Swiss AI Initiative 推动,参与方包括 EPFL、ETH Zurich 和 CSCS;其定位是开放权重、开放数据、开放代码、开放方法和开放对齐原则。5
Apertus Mini 模型列表
Apertus 官网展示了 Mini 模型列表;主页还强调开放数据、开放权重和开放方法。来源:Apertus 官网
Apertus 还把合规写进卖点:页面称其面向 EU AI Act 要求设计,尊重 opt-out、移除 PII、防止记忆化;模型面向 8B 和 70B 参数等级,并从第一天起支持 1000+ 语言。5
这不是单纯「又一个开源模型」。它对应的是欧洲、政府、科研机构和本地企业的共同焦虑:如果基础模型的训练数据、权重、部署链路和合规解释都掌握在少数商业平台手里,主权 AI 就只剩采购清单。

模型开始学「非人话」

论文这条有点怪,但很值得看。
arXiv 2606.19857 题为「Large Language Models Do Not Always Need Readable Language」,作者提出 BabelTele:一种面向模型的紧凑、非标准文本表示。它牺牲人类可读性,换取更高信息密度,让大模型仍能恢复语义。6
论文摘要给出的数字很狠:BabelTele 把文本压缩到原长度 27.9% 时,仍保持 99.5% 语义保真;应用场景包括跨模型迁移、Agent 记忆和多 Agent 通信。6
这意味着一个可能方向:未来 Agent 之间未必用人类可读的长句沟通。人类看不懂,但模型看得懂、传得快、占 token 少。好处是效率,坏处是可审计性。尤其当模型间通信进入工作流,企业和监管会继续追问:你们到底在互相传什么?

开发者的小信号:项目记忆本地化

最后看一个小工具,但它击中的是大痛点。
Recall 是一个面向 Claude Code 的本地项目记忆插件。仓库 README 将其描述为「fully-local project memory for Claude Code」,抓取时仓库显示 65 stars、3 forks、16 commits,许可证为 MIT,最新发布版本为 0.3.4。7
Recall 项目记忆工具页面
Recall 的 README 把核心卖点放在本地项目记忆和减少重复解释项目上下文。来源:GitHub 仓库
它的思路很朴素:在项目的 .recall/ 目录里生成 history.mdcontext.md,记录会话日志、压缩项目目标、已完成事项、下一步计划和断点位置;总结使用本地 TF-IDF + TextRank 抽取式方法,不调用外部大模型,也不需要 API key。7
这类工具不会像大模型发布会那样热闹,但它说明开发者工作流正在往一个方向收敛:上下文要持久化,成本要可控,隐私要在本地。Agent 如果每次开工都像失忆,生产力就会被「重新解释项目」吃掉。

再补一眼:CivBench 把 AI 扔进文明 VI

还有一个刚冒头的研究型项目,可以作为 Agent 长周期能力的侧面样本。
Liam Wilkinson 在 6 月 22 日发布 CivBench,做法是通过《文明 VI》的调试端口搭建 MCP 服务器,给模型 76 个工具,让 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5 以文本工具调用方式玩游戏;单局最多 330 回合,耗时 2-8 小时。8
CivBench 文明模拟实验示意
CivBench 用《文明 VI》做长周期、多变量决策测评,重点观察模型能否把战略落到行动。来源:Liam Wilkinson 博客
作者总结了两个常见问题:一是「感知效应」,模型只看到自己主动查询的信息;二是「认知-执行差距」,模型能写出正确战略,却未必执行。文章称 AI 记录的明确下一步计划,只有约半数能在 10 回合内落实。8
这和 DeepMind 的控制路线能对上:长周期 Agent 的问题,不只是推理能力,而是记忆、感知、执行、监控和纠偏整套系统。

今天的判断

本期几条线放在一起看,结论很明显:AI 的下一阶段,不是简单堆参数。
  • 入口会更严格:Claude 身份验证说明,高能力服务会越来越像受控基础设施。1
  • 高频场景会更敏感:OpenAI 把健康能力推给免费用户,规模越大,安全边界越要清楚。3
  • Agent 会被系统化监管:DeepMind 的路线图说明,Agent 落地必须配套监控、响应和指标。4
  • 开发者会追求可控上下文:BabelTele 和 Recall 都在解决 token、记忆、通信和本地隐私问题。67
  • 主权 AI 会继续加速:Apertus 代表的不是单一模型,而是可复现、可审计、可部署的基础能力。5
一句话收尾:AI 行业已经不缺「能跑」的演示,接下来拼的是谁能让它安全、便宜、可追责地长期跑。

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.