基于 arXiv 2606.24952,本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap:AUC=1.000、cos=0.12、15°旋转,听懂 detection-intervention gap。
Add more perspectives or context around this Post.
Add more perspectives or context around this Post.