Transformer Survey Study Appendix: Complexity, Parameters, and Scaling
발표자: 김명섭
Github: https://github.com/yukyunglee/Transformer_Survey_Study
본 영상은 Transformer의 Complexity, Parameter, 그리고 Scaling에 대해 다루고 있습니다.
본 영상은 Transformer의 Block을 구성하는 Self-Attention과 Position-wise FFN의 Computation Complexity가 어떠한 방식으로 계산되는지, 각 연산에서 Learnable Parameter는 어떻게 결정되는지를 심도 있게 다루고자 하는 목적으로 제작되었습니다.
추가적으로 본 영상에서는 Self-Attention에서 사용되는 Scaled Dot Product Attention에서 Scaling Factor가 어떻게 결정되는지에 관한 설명이 포함되어 있습니다.