Как масштабируются LLM на практике
Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory — вы не одиноки. В этом видео разбираем, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета. Вы поймёте, как устроено распределённое обучение и почему от архитектуры зависит не только скорость, но и стоимость всего процесса. В этом видео Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) разбирает ключевые методы: data parallelism, tensor parallelism, pipeline и expert parallelism, а также реальные кейсы и ошибки, которые могут стоить десятки тысяч долларов. Это не теория из учебников, а практический разбор того, как работают с большими моделями в бигтехе и как применять эти подходы в своих проектах. Кому будет полезно это видео:• ML-инженерам, которые работают с нейросетями и хотят масштабировать обучение• разработчикам, сталкивающимся с ограничениями GPU и памятью• специалистам, изучающим LLM и большие модели• тем, кто хочет перейти в ML и понимать реальные задачи индустрии• всем, кто интересуется инфраструктурой и архитектурой ML-систем Курс Специализация AI и анализ данных: https://mlinside.ru/specializaciya/?utm_source=youtube&utm_medium=social&utm_campaign=video_20_03_26 Подписывайтесь в Telegram на MLinside: https://t.me/+xPCRRLylQh5lMmI6 Таймкоды: 0:00 – Введение 0:42 – Про задачу распределенного обучения 2:02 – про Data Parallelism 4:13 – про Tensor Parallelism 5:10 – про Pipeline Parallelism 6:01 – про Model Parallelism 6:21 – про Expert Parallelism 7:02 – про кейс Stanford Alpaca 8:00 – про историю из 2022 года 9:35 – Слово от Виктора Кантора 10:58 – Заключение #машинноеобучение #ML #LLM #нейросети #искусственныйинтеллект #AI #DeepLearning #GPU #CUDA #распределенноеобучение #DataScience #MLинженер #AIразработка #BigData #обучениемоделей
Download
0 formatsNo download links available.