Глубокое обучение 2024
Это курс о глубоком обучении, представленный на Факультете математики и компьютерных наук Санкт-Петербургского государственного университета осенью 2024 года.

Введение: биология, история, функции активации, backprop
5 сентября 2024 г.
Введение: биология, история, функции активации, backprop
5 сентября 2024 г.
Введение в нейронные сети: мотивация, история, определения. Устройство искусственного нейрона, функции активации. Обратное распространение ошибки.

Стохастический градиентный спуск, несколько DL-сюжетов
14 сентября 2024 г.
Стохастический градиентный спуск, несколько DL-сюжетов
14 сентября 2024 г.
[2 лекции] Градиентный спуск, стохастический градиентный спуск, адаптивные варианты SGD. Дропаут, инициализация весов, нормализация по мини-батчам.

Свёрточные сети I: основы
19 сентября 2024 г.
Свёрточные сети I: основы
19 сентября 2024 г.
Свёрточные сети: идея, LeNet и экономия весов, AlexNet и аугментация данных, VGG, Inception.

Свёрточные сети II: архитектуры, распознавание объектов I
26 сентября 2024 г.
Свёрточные сети II: архитектуры, распознавание объектов I
26 сентября 2024 г.
Свёрточные сети: ResNet, bottleneck и split-transform-merge, EfficientNet. Распознавание объектов: постановка задачи, от R-CNN до Faster R-CNN.

Распознавание объектов II, сегментация
3 октября 2024 г.
Распознавание объектов II, сегментация
3 октября 2024 г.
Распознавание объектов: R-FCN, YOLO, YOLOv2 и иерархический softmax, пирамиды признаков, EfficientDet и YOLOv4. Сегментация изображений: постановка задачи, FCN, U-Net, instance segmentation и Mask R-CNN.

Состязательные примеры, RNN от идеи до LSTM и GRU
10 октября 2024 г.
Состязательные примеры, RNN от идеи до LSTM и GRU
10 октября 2024 г.
Состязательные примеры. Рекуррентные нейронные сети: идея, взрывающиеся и затухающие градиенты, LSTM, варианты LSTM и GRU, долгосрочная память в линейных RNN.

Механизмы внимания в RNN, трансформер
24 октября 2024 г.
Механизмы внимания в RNN, трансформер
24 октября 2024 г.
Механизмы внимания в глубоком обучении: рекуррентные модели зрительного внимания, encoder-decoder with attention. Self-attention и архитектура трансформера.

Трансформеры II
31 октября 2024 г.
Трансформеры II
31 октября 2024 г.
Ещё о трансформерах: словари токенов, позиционное кодирование, BERT и GPT, ERNIE. Трансформеры для изображений: VisualBERT, ViT, Swin Transformer. Мультимодальные трансформеры для поиска: CLIP и BLIP.

Глубокие порождающие модели, GAN
7 ноября 2024 г.
Глубокие порождающие модели, GAN
7 ноября 2024 г.
Порождающие модели в глубоком обучении: таксономия, авторегрессионные модели (каузальные маски, PixelCNN, WaveNet). Порождающие состязательные сети: идея, проблемы, ProGAN. Функции ошибки в GAN: LSGAN и Wasserstein GAN.

VAE: идея, трюки, VQ-VAE и VQ-GAN
14 ноября 2024 г.
VAE: идея, трюки, VQ-VAE и VQ-GAN
14 ноября 2024 г.
Вариационные автокодировщики: идея, вывод, reparametrization trick. Дискретные латентные пространства: VQ-VAE и VQ-GAN.

DALL-E, CLIP и BLIP, поиск по видео
21 ноября 2024 г.
DALL-E, CLIP и BLIP, поиск по видео
21 ноября 2024 г.
DALL-E: Gumbel-Softmax и dVAE, структура DALL-E. Контрастивное обучение, CLIP и BLIP. Поиск по видео: датасеты, методы до трансформеров, HERO, ClipBERT, CLIP4Clip, Tencent TVR.

Диффузионные модели
28 ноября 2024 г.
Диффузионные модели
28 ноября 2024 г.
Диффузионные модели: основная идея, вычисления, вариационные приближения, вывод функции ошибки. DDPM и DDIM.

Латентные диффузионные модели, потоковые модели
12 декабря 2024 г.
Латентные диффузионные модели, потоковые модели
12 декабря 2024 г.
Латентные диффузионные модели: Stable Diffusion, DiT. Модели, основанные на потоках: MAF и IAF, дистилляция в Parallel WaveNet. Идея flow matching.

Большие языковые модели
14 декабря 2024 г.
Большие языковые модели
14 декабря 2024 г.
[2 лекции] Большие языковые модели: scaling laws, компоненты прогресса LLM. Дообучение через RL: actor-critic алгоритмы, DPG, TRPO и PPO, как с их помощью делать RLHF. Адаптеры и LoRA. Instruction tuning: датасеты, синтетика, bootstrapping. Как расширить контекст трансформера. Линейные трансформеры: возвращение RNN, SSM и идея Mamba. Как добавить поиск: RAG.