최우수국제학술대회 ASPLOS 2026 정규 발표 논문 채택
송근수 석사과정생(제1저자)과 이영민 교수(교신저자)의 논문이 시스템 소프트웨어 및 아키텍처 분야 최고 권위의 국제 학술대회인 ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS) 2026에 채택되었다. ASPLOS는 한국정보과학회 인정 최우수학술대회(BK 인정 IF=4)로, 2026년 3월 22일부터 3월 26일까지 미국 피츠버그에서 개최될 예정이다.
“oFFN: Outlier and Neuron-aware Structured FFN for Fast yet Accurate LLM Inference”라는 제목의 논문으로 발표될 본 연구에서는, 이상치(outlier)가 활성 벡터의 특정 위치에 집중되어 나타난다는 특성을 발견하고, 이에 기반한 LLM 추론 가속 기법인 oFFN을 제안한다. oFFN은 FFN(Feed-Forward Network) 계층에서 출력 뉴런 활성화 빈도와 이상치 출현 빈도를 동시에 고려하여 가중치를 정적으로 재배열한다. 이를 통해 활성 희소도(activation sparsity)를 효율적으로 활용함으로써 정확도 손실 없이 높은 추론 가속을 달성한다.
활성 희소도를 활용한 추론 가속은 계산 병목 뿐만 아니라 메모리 병목도 해결할 수 있어 매우 효과적인 접근법이지만, 어떤 출력이 희소한지를 정확히 예측하는 것은 어려운 문제이다. 또한 배치 크기가 커질수록 구조적 희소도가 낮아져 가속 효과가 감소하는 한계가 있다. 본 연구는 FFN 가중치 재배열을 통해 이상치 차원을 군집화하고, 유사한 희소도를 가지는 뉴런들도 효율적으로 군집화 함으로써 이 두 문제를 동시에 완화하였다. 그 결과, 정확도 하락이 거의 없이 FFN 기준 최대 5.46배, 전체 추론시간 기준 최대 2.01배(이론적 상한 2.18배)의 가속을 달성했으며, 기존 SOTA 대비 13% 추론 속도 향상을 보였다.

이영민 교수는 “LLM 추론 가속에서 활성 희소도 활용은 매우 유망하지만, 출력 활성 희소도는 정확하고 효율적인 활용이 어렵다는 한계가 존재했다. oFFN은 LLM 추론 특성에 대한 흥미로운 고찰을 바탕으로 FFN 가중치를 재배열하고, 이상치 차원과 뉴런을 구조적으로 군집화 함으로써 기존 한계를 극복했다. 또한, GPU의 텐서 코어와 CUDA 코어를 상호보완적으로 활용하여 단일 배치 뿐만 아니라 멀티 배치 추론에서도 활성 희소도를 실질적인 추론 가속으로 실현한 연구라는 점에서 의미가 크다. 앞으로도 관련 후속 연구를 지속적으로 발전시켜 나갈 계획이다”라고 밝혔다.
[참고자료]
ASPLOS 학회: https://www.asplos-conference.org/
고성능 인공지능 시스템 연구실: https://aisys.sogang.ac.kr