Transcoder 为什么比稀疏自编码器更好解释模型?

用 SAE 分析模型内部已经成为 interpretability 的标配,但有没有更好的工具?EleutherAI 的这篇论文给出了一个直接的答案:换一个训练目标就够了。Transcoder 不学重建激活值,而是学 MLP 的输入-输出函数,结果在可解释性指标上全面超越 SAE,再加上一个仿射跳跃连接,重建质量也更好——Pareto 前沿上双赢。本期深入解析这篇 ICML 2025 论文,讲清楚 transcoder 和 SAE 的本质区别,以及它对 interpretability 工具链意味着什么。

Transcoder 为什么比稀疏自编码器更好解释模型?
0:0021:56

节目导览

本期以「中文科技对谈」的方式围绕「Transcoder 为什么比稀疏自编码器更好解释模型?」展开。节目采用双人对谈形式,来源清单可用于回看原始材料。

来源

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。