
June 26, 2026 · 1:22 PM
张焱出席 ACM ICMR 2026:以高效多模态检索夯实密态 RAG 能力
张焱在 ACM ICMR 2026 分享面向异构边缘节点的多模态检索高效推理框架,并结合荆华密算高性能密态计算路线,说明密态 RAG 在安全、效率与工程部署上的加强方向。
近日,荆华密算张焱出席 2026 年 ACM 国际多媒体检索大会 ICMR,并围绕论文报告《An Energy-Efficient Multimodal Retrieval Framework for Inference on Heterogeneous Edge Nodes》作口头分享。报告面向多模态检索在异构边缘节点上的推理部署问题,提出通过结构重构、CPU-NPU-DSP 协同调度与能耗自适应控制,在检索准确率、端到端时延和单次查询能耗之间取得更稳健的工程平衡。
亮相 ICMR:面向多媒体检索的国际学术与产业交流平台
ACM International Conference on Multimedia Retrieval,简称 ICMR,是多媒体检索领域的重要国际会议。ICMR 2026 于 2026 年 6 月 16 日至 19 日在荷兰阿姆斯特丹举行,会议官网将其定位为全球多媒体检索领域的 premier scientific conference,并强调其面向图像、视频、音频和多模态内容分析、搜索与推荐等研究方向。1
从会议使命看,ICMR 不只关注论文发表,也强调研究者与产业实践者之间的交流。ACM ICMR 主页将会议目标写为:展示和讨论高质量原创研究,为多媒体检索领域的研究者与实践者提供思想交流场域,并鼓励保留独立的 industry track。2 本届公开页面列出的支持与组织机构包括 ACM SIGMM、阿姆斯特丹大学、昆士兰大学、意大利国家研究委员会、中国人民大学、新加坡管理大学等。1
本届 ICMR 的论文征集范围覆盖多媒体和多模态数据的搜索与检索,具体方向包括多媒体内容理解、跨模态数据融合、基于深度学习的检索方法、移动多媒体搜索、GPU/FPGA 等检索加速方法,以及 privacy-aware multimedia retrieval methods and systems。3 这些方向与当下多模态大模型、边缘智能和可信 AI 的工程问题高度相关。
张焱发言:让多模态检索更适合在边缘侧运行
张焱本次分享的核心问题很直接:现代多模态检索高度依赖大型预训练模型,而面向云端的模型设计很难直接部署在边缘设备上。边缘节点受能耗、算力和实时响应约束,检索推理必须更轻、更快,也必须能适配不同硬件单元。
PPT 将挑战概括为三点:不同检索阶段的计算特征不同;CPU、NPU、DSP 的执行能力存在差异;边缘设备的能量预算会动态变化,需要推理策略随之调整。围绕这些约束,张焱介绍了一套面向异构边缘节点的检索框架,包含三项关键设计:
- 对检索流程做 retrieval-aware structural reconfiguration,即面向检索任务的结构重构,把流程拆解为语义功能模块;
- 在 CPU、NPU、DSP 之间做协同调度,让不同检索阶段匹配更合适的硬件单元;
- 引入能耗感知控制参数 λ,根据能量状态动态调整精度与执行路径。
在报告给出的实验结果中,该框架取得 68.2% mAP 与 90.0% Recall@5;端到端时延降至 118.5 ms,平均能耗降至 145.6 mJ/query。张焱在总结中指出,这一面向异构边缘的检索框架能够联合优化准确率、时延和能耗,实验结果显示其具备边缘多模态检索部署潜力。
这组结论的价值,不只在于多模态检索本身。对企业级 AI 应用而言,检索链路正在成为 RAG 系统的核心部件。检索速度、召回质量、部署位置和能耗控制,都会直接影响 RAG 在真实业务里的可用性。
从检索效率到密态 RAG:安全、检索与部署必须一起看
RAG 的关键不只是把资料接入大模型,而是把正确资料、以可控成本、在安全边界内交给模型。多模态 RAG 又进一步增加了复杂度:图像、视频、音频、文本需要被统一索引和召回,检索链路的计算压力明显高于纯文本场景。
因此,张焱在 ICMR 分享的边缘多模态检索框架,为密态 RAG 的工程落地提供了一个重要视角:RAG 系统要变强,不能只提高模型本身;检索模块、端侧执行、异构调度和能耗控制也要同步优化。尤其在政企、金融、医疗、法律等高敏感场景中,RAG 既要回答得准,也要保证数据在传输、存储和计算过程中不被明文暴露。
这正是荆华密算长期投入高性能密态计算的原因。公开报道显示,荆华密算专注于高性能 AI 密态计算,核心技术围绕 AI 计算算子重构,在不依赖特定 GPU-TEE 的情况下,将 AI 场景下传统方案的时间损耗从 1000 倍以上降低到约 3 倍,并兼顾安全性、兼容性和性能。4 钛媒体对公司天使轮融资的报道也提到,团队通过重构 AI 计算算子,实现不依赖 GPU-TEE、兼容国产异构 GPU,并将 AI 场景下的时间损耗降低 3-4 个数量级。5
高性能密态计算:让敏感数据「可用不可见」
高性能密态计算解决的是一个朴素但很难的问题:数据能不能在不暴露明文的情况下被计算?在企业使用云端大模型、构建知识库、调用 Agent 或训练模型时,敏感合同、客户信息、医疗数据、交易记录和内部文档往往需要进入推理或检索流程。若这些数据以明文形式离开本地环境,风险就不只来自一次传输,还来自存储、日志、缓存、模型记忆和后续数据流转。
荆华密算的高性能密态计算路线强调「可用不可见」:用户的问题和文件先在本地加密为密态,再发送到云端执行计算;计算结果以密文返回本地,最终由本地解密为明文。公开报道将这一过程概括为覆盖传输、存储与计算全过程的安全保护。4
围绕产品化方向,荆华密算正在推进两类核心引擎:高性能密态推理引擎面向个人与企业的高敏感 AI 使用场景;高性能密态训练引擎面向数据交易与数据资产流通,重点保护数据供给方的权益。投资界报道显示,种子轮资金将主要用于高性能密态推理引擎与高性能密态训练引擎的研发以及产品化人才招募。6 新浪科技报道还提到,荆华密算本轮天使轮资金将用于高性能 AI 密算平台持续研发、密态专用计算芯片的高可靠性与典型场景验证,以及政企、金融、医疗、法律和消费端等高敏感数据场景的规模化商业落地。7
从底层技术到业务场景,高性能密态计算要回答两个问题:第一,敏感数据能不能在密文状态下进入 AI 流程;第二,这样做能不能达到真实业务可接受的成本、时延与精度。前者决定安全边界,后者决定能否落地。只有两者同时成立,企业才可能把高敏感知识库、私域数据和多模态资料放心接入 RAG。
面向下一阶段:把密态 RAG 加强到可落地
张焱在 ICMR 报告结尾写道:我们提出了一种面向异构边缘的检索框架,该框架联合优化准确率、时延和能耗,结果显示其具备边缘多模态检索的实际部署潜力。放在密态 RAG 的语境中,这句话有更明确的工程含义:检索链路需要更高效,执行路径需要更可控,系统部署需要更贴近真实设备和真实能耗约束。
荆华密算将继续围绕高性能密态计算推进安全 AI 基础设施建设。对密态 RAG 来说,安全不是额外附加层,而应当进入检索、推理、训练和部署的每一个环节;效率也不是体验优化项,而是决定企业能否规模化使用的前提。
我们所说的「密态 RAG 加强了」,正是指向这一目标:在数据不明文暴露的前提下,让 RAG 具备更强的多模态检索能力、更低的时延与能耗、更清晰的端云协同路径。张焱此次在 ICMR 的分享,展示了检索效率与边缘部署的技术进展;荆华密算的高性能密态计算,将继续把这类进展带入高敏感数据场景,让企业在使用 AI 时同时获得安全、效率和可验证的工程边界。



Add more perspectives or context around this Post.