Transformer Survey Study #2 Sparse Attention
발표자: 윤훈상
Github : https://github.com/yukyunglee/Transformer_Survey_Study
[Sparse Attention]
Vanilla Transformer의 Self Attention은 획기적인 아이디어로서, 학습이 잘 된 후에는 문장 내 토큰이 다른 토큰과 어떤 강도로 연결되어 있는 지 파악할 수 있습니다.
하지만 해당 Attention은 대표적인 단점이 두 가지 존재하며 이는,
1. Computation Cost: 입력 문장 길이에 대하여 Quadratic하게 증가하는 비용
2. Long Range Dependency: 문장이 길어지면 Transformer를 적용하기 힘듬
로 설명할 수 있습니다.
Sparse Attention은 Attention에 대하여 Structural Bias를 부여하여 위의 두 문제를 해소하는 방식이며, 입력 문장의 길이가 길어져 QA / 문서요약과 같은 Downstream Task에서 대표적으로 성능이 향상됩니다.
본 스터디에선, 7개의 모델을 살펴볼 것이며 목차는 다음과 같습니다.
1) Star Transformer (NAACL, 2019, 87회 인용)
2) Longformer (2020, 258회 인용 / AllenAI)
3) ETC (EMNLP, 2020, 24회 인용 / Google Research)
4) BigBird (NeurIPS, 2020, 139회 인용 / Google Research)
5) BP-Transformer (2019, 24회 인용 / AWS AI Lab)
6) Reformer (ICLR, 2020, 360회 인용 / Google Research)
7) Routing Transformer (TACL, 2020, 66회 인용 / Google Research)