Claude 要验身份！AI 开始认人了 (2026)

周末到今晨，AI 主线变了

不只是模型又强了一点。

这几天更像是 AI 行业从「谁更聪明」切到「谁能被信任、谁能被控制、谁能长期跑下去」。Claude 开始把身份验证摆上台面，OpenAI 把健康咨询能力推进免费入口，DeepMind 直接把 Agent 当「潜在内部威胁」来设计控制路线；另一边，主权开源模型、模型间压缩语言、本地项目记忆工具也在开发者圈冒头。

一句话：AI 正在从炫技期，进入门禁、合规、成本和长期执行能力的硬仗期。

信号	发生了什么	为什么值得看
Claude 身份验证	Anthropic 称正在为「部分用例」推出身份验证，访问特定能力、平台完整性检查或安全合规措施时可能触发；验证需政府签发带照片证件和摄像头/自拍。1	高能力模型的入口，开始从「账号」走向「真实人」。HN 抓取时该帖有 517 points、476 comments。2
ChatGPT 健康智能	OpenAI 6 月 18 日发布 GPT-5.5 Instant 健康智能更新，并称每周超过 2.3 亿人用 ChatGPT 咨询健康和 wellness 问题。3	健康场景正在变成通用 AI 的高频入口，但也是监管和责任最敏感的入口。
DeepMind Agent 控制路线	Google DeepMind 6 月 18 日发布 AI Control Roadmap，把高能力 Agent 视作可能不对齐的系统对象，用监控、预防、响应和指标来管控。4	Agent 一旦能持续行动，安全问题不再只是提示词，而是系统工程。
Apertus 主权模型	Apertus 由 Swiss AI Initiative 推动，页面称其开放权重、开放数据、开放代码、开放方法，并面向 EU AI Act 合规；模型覆盖 8B 和 70B 等级，训练 1000+ 语言。5	欧洲路线很清楚：不只要会用模型，还要能解释、复现、合规地拥有模型。
BabelTele 论文	arXiv 2606.19857 提出 BabelTele：让模型使用人类低可读、但信息密度更高的文本表示；摘要称压缩到原文本 27.9% 时仍保持 99.5% 语义保真。6	模型间通信可能不必模仿人类语言，Agent 记忆和多 Agent 协作会被重新设计。
Recall 本地记忆	GitHub 项目 Recall 定位为 Claude Code 的完全本地项目记忆插件，抓取时显示 65 stars、3 forks、16 commits，最新版本 0.3.4。7	开发者真正痛的不是「再来一个聊天框」，而是 AI 能不能记住项目上下文。

Claude 要验身份：AI 入口开始认人

Anthropic 这次不是发新模型，而是把「谁在用模型」推到了前台。

官方帮助页写得很直：身份验证用于防止滥用、执行使用政策和满足法律义务；Anthropic 正在为少数用例推出该流程，用户在访问特定能力、平台完整性检查或其他安全合规措施时，可能看到验证提示。1

验证方式也不是邮箱验证码级别。用户需要实体政府签发带照片证件，还可能需要手机或电脑摄像头拍摄实时自拍；Anthropic 选择 Persona Identities 作为验证合作方。1

Claude 身份验证说明页把触发场景、证件要求和数据用途写成了帮助文档。来源：Anthropic 支持文档。

最敏感的是数据。Anthropic 称，验证数据只用于确认身份以及法律和安全义务，不用于训练模型；证件和自拍由 Persona 收集和保存，Anthropic 不把这些图像复制或存储到自己的系统中。1

这事为什么炸？因为它很可能是高能力 AI 服务走向分级准入的前奏。今天是部分用例，明天可能是高风险工具调用、代码执行、政府版、金融医疗等场景。模型越能干，平台越需要知道「操作者是谁」。

OpenAI 把健康能力塞进免费入口

OpenAI 这边，押的是另一个高频场景：健康。

6 月 18 日，OpenAI 发布「Improving health intelligence in ChatGPT」，宣布 GPT-5.5 Instant 提升 ChatGPT 的健康智能，并称每周超过 2.3 亿人在 ChatGPT 上询问健康和 wellness 相关问题。3

更关键的是可用性。OpenAI 称 GPT-5.5 Instant 面向所有 ChatGPT 免费用户开放，但有使用限制。3

评测部分，OpenAI 提到 HealthBench、HealthBench Professional，以及由医生制定评分标准和全球医生网络参与的评审；在 3500 份对比评审中，OpenAI 称 GPT-5.5 Instant 的响应评分高于医生手写响应和旧模型，失败问题更少。3

别急着把这理解成「AI 医生来了」。更现实的判断是：健康问答正在成为通用模型的超级入口。入口越大，责任越重。下一步要看两件事：一是不同地区监管会不会要求更明确的免责声明和转诊边界；二是 OpenAI 能不能把「高频健康咨询」和「不能替代医生诊断」这条线守住。

DeepMind 给 Agent 装刹车

如果说 OpenAI 在争入口，DeepMind 这篇更像是在补底盘。

6 月 18 日，Google DeepMind 发布「Securing the future of AI agents」。它的核心不是再证明 Agent 多能干，而是承认一个更难听的前提：高能力 Agent 可能不对齐，甚至要被当成潜在「内部威胁」来管理。4

这套 AI Control Roadmap 讲三件事：威胁建模、风险缓解、性能衡量。DeepMind 提到要参考 MITRE ATT&CK 这类框架做 AI 威胁建模；缓解上，用可信 AI 监督工作 Agent 的推理、行动和计划；衡量上，看覆盖率、召回率和响应时间。4

报告还把检测能力分成 D1-D4，把预防和响应能力分成 R1-R3，并披露团队已分析 100 万个编码智能体任务，用来优化内部监控和安全协议。4

这才是 Agent 真正落地后的问题：不是「能不能调用工具」，而是「调用错了、骗过监控、误删数据、过度追求目标」时，系统有没有刹车。

Apertus：欧洲主权 AI，不只喊口号

Apertus 这条，关键词是「主权」。

项目主页写明，Apertus 由 Swiss AI Initiative 推动，参与方包括 EPFL、ETH Zurich 和 CSCS；其定位是开放权重、开放数据、开放代码、开放方法和开放对齐原则。5

Apertus Mini 模型列表 — Apertus 官网展示了 Mini 模型列表；主页还强调开放数据、开放权重和开放方法。来源：Apertus 官网。

Apertus 还把合规写进卖点：页面称其面向 EU AI Act 要求设计，尊重 opt-out、移除 PII、防止记忆化；模型面向 8B 和 70B 参数等级，并从第一天起支持 1000+ 语言。5

这不是单纯「又一个开源模型」。它对应的是欧洲、政府、科研机构和本地企业的共同焦虑：如果基础模型的训练数据、权重、部署链路和合规解释都掌握在少数商业平台手里，主权 AI 就只剩采购清单。

模型开始学「非人话」

论文这条有点怪，但很值得看。

arXiv 2606.19857 题为「Large Language Models Do Not Always Need Readable Language」，作者提出 BabelTele：一种面向模型的紧凑、非标准文本表示。它牺牲人类可读性，换取更高信息密度，让大模型仍能恢复语义。6

论文摘要给出的数字很狠：BabelTele 把文本压缩到原长度 27.9% 时，仍保持 99.5% 语义保真；应用场景包括跨模型迁移、Agent 记忆和多 Agent 通信。6

这意味着一个可能方向：未来 Agent 之间未必用人类可读的长句沟通。人类看不懂，但模型看得懂、传得快、占 token 少。好处是效率，坏处是可审计性。尤其当模型间通信进入工作流，企业和监管会继续追问：你们到底在互相传什么？

开发者的小信号：项目记忆本地化

最后看一个小工具，但它击中的是大痛点。

Recall 是一个面向 Claude Code 的本地项目记忆插件。仓库 README 将其描述为「fully-local project memory for Claude Code」，抓取时仓库显示 65 stars、3 forks、16 commits，许可证为 MIT，最新发布版本为 0.3.4。7

Recall 项目记忆工具页面 — Recall 的 README 把核心卖点放在本地项目记忆和减少重复解释项目上下文。来源：GitHub 仓库。

它的思路很朴素：在项目的 .recall/ 目录里生成 history.md 和 context.md，记录会话日志、压缩项目目标、已完成事项、下一步计划和断点位置；总结使用本地 TF-IDF + TextRank 抽取式方法，不调用外部大模型，也不需要 API key。7

这类工具不会像大模型发布会那样热闹，但它说明开发者工作流正在往一个方向收敛：上下文要持久化，成本要可控，隐私要在本地。Agent 如果每次开工都像失忆，生产力就会被「重新解释项目」吃掉。

再补一眼：CivBench 把 AI 扔进文明 VI

还有一个刚冒头的研究型项目，可以作为 Agent 长周期能力的侧面样本。

Liam Wilkinson 在 6 月 22 日发布 CivBench，做法是通过《文明 VI》的调试端口搭建 MCP 服务器，给模型 76 个工具，让 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5 以文本工具调用方式玩游戏；单局最多 330 回合，耗时 2-8 小时。8

CivBench 文明模拟实验示意 — CivBench 用《文明 VI》做长周期、多变量决策测评，重点观察模型能否把战略落到行动。来源：Liam Wilkinson 博客。

作者总结了两个常见问题：一是「感知效应」，模型只看到自己主动查询的信息；二是「认知-执行差距」，模型能写出正确战略，却未必执行。文章称 AI 记录的明确下一步计划，只有约半数能在 10 回合内落实。8

这和 DeepMind 的控制路线能对上：长周期 Agent 的问题，不只是推理能力，而是记忆、感知、执行、监控和纠偏整套系统。

今天的判断

本期几条线放在一起看，结论很明显：AI 的下一阶段，不是简单堆参数。

入口会更严格：Claude 身份验证说明，高能力服务会越来越像受控基础设施。1
高频场景会更敏感：OpenAI 把健康能力推给免费用户，规模越大，安全边界越要清楚。3
Agent 会被系统化监管：DeepMind 的路线图说明，Agent 落地必须配套监控、响应和指标。4
开发者会追求可控上下文：BabelTele 和 Recall 都在解决 token、记忆、通信和本地隐私问题。6 7
主权 AI 会继续加速：Apertus 代表的不是单一模型，而是可复现、可审计、可部署的基础能力。5

一句话收尾：AI 行业已经不缺「能跑」的演示，接下来拼的是谁能让它安全、便宜、可追责地长期跑。

Claude 要验身份！AI 开始认人了

周末到今晨，AI 主线变了

Claude 要验身份：AI 入口开始认人

OpenAI 把健康能力塞进免费入口

DeepMind 给 Agent 装刹车

Apertus：欧洲主权 AI，不只喊口号

模型开始学「非人话」

开发者的小信号：项目记忆本地化

再补一眼：CivBench 把 AI 扔进文明 VI

今天的判断

References

Related content

Claude 要你交身份证？AI 隐私边界正在变窄

AI 全景情报 0622：医疗 AI 进积压病例，Claude 走向物理 Agent，欧洲/印度抢主权算力

AI 周末补更：监管急刹车，代理继续进企业