Back to Browse

[Transformer Survey] #2 Sparse Attention

4.2K views
Aug 4, 2021
36:05

Transformer Survey Study #2 Sparse Attention 발표자: 윤훈상 Github : https://github.com/yukyunglee/Transformer_Survey_Study [Sparse Attention] Vanilla Transformer의 Self Attention은 획기적인 아이디어로서, 학습이 잘 된 후에는 문장 내 토큰이 다른 토큰과 어떤 강도로 연결되어 있는 지 파악할 수 있습니다. 하지만 해당 Attention은 대표적인 단점이 두 가지 존재하며 이는, 1. Computation Cost: 입력 문장 길이에 대하여 Quadratic하게 증가하는 비용 2. Long Range Dependency: 문장이 길어지면 Transformer를 적용하기 힘듬 로 설명할 수 있습니다. Sparse Attention은 Attention에 대하여 Structural Bias를 부여하여 위의 두 문제를 해소하는 방식이며, 입력 문장의 길이가 길어져 QA / 문서요약과 같은 Downstream Task에서 대표적으로 성능이 향상됩니다. 본 스터디에선, 7개의 모델을 살펴볼 것이며 목차는 다음과 같습니다. 1) Star Transformer (NAACL, 2019, 87회 인용) 2) Longformer (2020, 258회 인용 / AllenAI) 3) ETC (EMNLP, 2020, 24회 인용 / Google Research) 4) BigBird (NeurIPS, 2020, 139회 인용 / Google Research) 5) BP-Transformer (2019, 24회 인용 / AWS AI Lab) 6) Reformer (ICLR, 2020, 360회 인용 / Google Research) 7) Routing Transformer (TACL, 2020, 66회 인용 / Google Research)

Download

0 formats

No download links available.

[Transformer Survey] #2 Sparse Attention | NatokHD