张恺睿

音频-视觉-语言学习 · 交互式人工智能 · 机制可解释性

我目前正在英国布里斯托大学智能系统实验室(ISL)攻读工程数学专业的博士,由 Zahraa S. AbdallahMartha Lewis 共同指导。我的研究关注多模态大语言模型在与环境交互时如何使用音频、视觉和语言信息,以及模型内部各种回路是如何工作的。
张恺睿

代表性项目

VASAE: Vocabulary-Aligned Sparse Autoencoders

2026 · ICML workshop poster

VASAE: Vocabulary-Aligned Sparse Autoencoders

这个方法在 sparse autoencoder 训练中把 dictionary directions 对齐到 vocabulary anchors,再用 token 示例和重构行为检查命名后的特征。

sparse autoencodersfeature namingvocabulary anchors
Recent Advances in Audio-Visual-Language Modeling

2025 · preprint

Recent Advances in Audio-Visual-Language Modeling

这个 survey 和资源地图按任务设置、模态对齐方式、benchmark 覆盖、评估指标和现有数据集缺口来组织 AVL 工作。

任务分类benchmark map评估指标

联系

欢迎通过邮件联系我,也可以通过下面的链接查看我的工作。