報告承辦單位:計算機學院
報告內容: Not All Tokens are Important: Exploiting Sparsity for Efficient LLM Systems
報告人姓名:張駿雪
報告人所在單位:中國科學技術大學
報告人職稱/職務及學術頭銜:特任教授
報告時間: 2025年7月18日周五上午9點
報告地點: 金盆嶺9教211
報告簡介:隨著大模型系統(包括訓練和推理)的持續發展,對 Token 數量的需求日益增長。一方面,訓練任務日趨復雜,為提升模型性能,需要引入更多的 Token;另一方面,推理應用場景也在不斷擴展,逐步支持更復雜的任務,如 RAG、多輪對話和推理問答等。這一趨勢對大模型系統提出了新的挑戰:如何在處理海量 Token 的同時,依然保持系統的高效性。
在本次演講中,我們將介紹我們如何利用 Token 的稀疏性——即并非所有 Token 都同等重要的特性——來優化和設計更高效的大模型系統。具體內容包括兩個方面:1. 訓練優化方面,我們將介紹 Collider 系統。該系統結合 Activation Filter 和對 Sparse GEMM 的深度優化,成功地將算法層面的稀疏性轉化為訓練性能的顯著提升。2. 推理優化方面,針對推理階段的重調度(Re-scheduling)問題,我們提出了一種基于 KV Cache 稀疏性的漸進式傳輸機制,有效縮短了重調度響應時間,同時顯著提升了資源利用率和調度穩定性。
報告人簡介:張駿雪,中國科學技術大學特任教授、博導,國家海外高層次青年人才。本科及碩士均畢業于東南大學,博士學位獲得于香港科技大學,師從陳凱教授。曾擔任香港科技大學研究助理教授(Research Assistant Professor)。主要研究方向包括數據中心網絡、RDMA網絡以及機器學習系統。近年來,他在網絡和系統領域的頂級學術會議和期刊上發表二十余篇論文,作為第一作者或通訊作者(包括共同通訊作者)在SIGCOMM、NSDI、ATC、EuroSys以及IEEE/ACM Transactions on Networking等會議、期刊上發表多篇重要論文。