딥러닝 모델을 이용하여 이미지, 언어 등 다양한 비정형 데이터들을 학습할 수 있다. 이러한 딥러닝 모델은 대부분 한가지 태스크에 대해 학습하지만, 보다 범용적인 AI 시스템을 위해서는 여러 태스크들을 학습할 필요성이 있다. 관련 있는 태스크들의 representation을 공유할 때 더 좋은 학습이 가능하며, 이를 위한 multitask learning 방법론들이 있다. 여러 태스크들을 학습하기 위해 하나보다 많은 손실함수를 최적화하는 multitask learning의 기본 개념과 방법론들을 소개하고자 한다.
참고 문헌:
[1] Caruana, R. (1997). Multitask learning. Machine learning, 28(1), 41-75.
[2] Ruder, S. (2017). An overview of multi-task learning in deep neural networks. arXiv preprint arXiv:1706.05098.
[3] Zhang, Y., & Yang, Q. (2021). A survey on multi-task learning. IEEE Transactions on Knowledge and Data Engineering.
[4] Yu, T., Kumar, S., Gupta, A., Levine, S., Hausman, K., & Finn, C. (2020). Gradient surgery for multi-task learning. arXiv preprint arXiv:2001.06782.