Глубокое обучение 2024

Это курс о глубоком обучении, представленный на Факультете математики и компьютерных наук Санкт-Петербургского государственного университета осенью 2024 года.

Введение: биология, история, функции активации, backprop thumbnail
1

Введение: биология, история, функции активации, backprop

5 сентября 2024 г.

Введение в нейронные сети: мотивация, история, определения. Устройство искусственного нейрона, функции активации. Обратное распространение ошибки.

Стохастический градиентный спуск, несколько DL-сюжетов thumbnail
2

Стохастический градиентный спуск, несколько DL-сюжетов

14 сентября 2024 г.

[2 лекции] Градиентный спуск, стохастический градиентный спуск, адаптивные варианты SGD. Дропаут, инициализация весов, нормализация по мини-батчам.

Свёрточные сети I: основы thumbnail
3

Свёрточные сети I: основы

19 сентября 2024 г.

Свёрточные сети: идея, LeNet и экономия весов, AlexNet и аугментация данных, VGG, Inception.

Свёрточные сети II: архитектуры, распознавание объектов I thumbnail
4

Свёрточные сети II: архитектуры, распознавание объектов I

26 сентября 2024 г.

Свёрточные сети: ResNet, bottleneck и split-transform-merge, EfficientNet. Распознавание объектов: постановка задачи, от R-CNN до Faster R-CNN.

Распознавание объектов II, сегментация thumbnail
5

Распознавание объектов II, сегментация

3 октября 2024 г.

Распознавание объектов: R-FCN, YOLO, YOLOv2 и иерархический softmax, пирамиды признаков, EfficientDet и YOLOv4. Сегментация изображений: постановка задачи, FCN, U-Net, instance segmentation и Mask R-CNN.

Состязательные примеры, RNN от идеи до LSTM и GRU thumbnail
6

Состязательные примеры, RNN от идеи до LSTM и GRU

10 октября 2024 г.

Состязательные примеры. Рекуррентные нейронные сети: идея, взрывающиеся и затухающие градиенты, LSTM, варианты LSTM и GRU, долгосрочная память в линейных RNN.

Механизмы внимания в RNN, трансформер thumbnail
7

Механизмы внимания в RNN, трансформер

24 октября 2024 г.

Механизмы внимания в глубоком обучении: рекуррентные модели зрительного внимания, encoder-decoder with attention. Self-attention и архитектура трансформера.

Трансформеры II thumbnail
8

Трансформеры II

31 октября 2024 г.

Ещё о трансформерах: словари токенов, позиционное кодирование, BERT и GPT, ERNIE. Трансформеры для изображений: VisualBERT, ViT, Swin Transformer. Мультимодальные трансформеры для поиска: CLIP и BLIP.

Глубокие порождающие модели, GAN thumbnail
9

Глубокие порождающие модели, GAN

7 ноября 2024 г.

Порождающие модели в глубоком обучении: таксономия, авторегрессионные модели (каузальные маски, PixelCNN, WaveNet). Порождающие состязательные сети: идея, проблемы, ProGAN. Функции ошибки в GAN: LSGAN и Wasserstein GAN.

VAE: идея, трюки, VQ-VAE и VQ-GAN thumbnail
10

VAE: идея, трюки, VQ-VAE и VQ-GAN

14 ноября 2024 г.

Вариационные автокодировщики: идея, вывод, reparametrization trick. Дискретные латентные пространства: VQ-VAE и VQ-GAN.

DALL-E, CLIP и BLIP, поиск по видео thumbnail
11

DALL-E, CLIP и BLIP, поиск по видео

21 ноября 2024 г.

DALL-E: Gumbel-Softmax и dVAE, структура DALL-E. Контрастивное обучение, CLIP и BLIP. Поиск по видео: датасеты, методы до трансформеров, HERO, ClipBERT, CLIP4Clip, Tencent TVR.

Диффузионные модели thumbnail
12

Диффузионные модели

28 ноября 2024 г.

Диффузионные модели: основная идея, вычисления, вариационные приближения, вывод функции ошибки. DDPM и DDIM.

Латентные диффузионные модели, потоковые модели thumbnail
13

Латентные диффузионные модели, потоковые модели

12 декабря 2024 г.

Латентные диффузионные модели: Stable Diffusion, DiT. Модели, основанные на потоках: MAF и IAF, дистилляция в Parallel WaveNet. Идея flow matching.

Большие языковые модели thumbnail
14

Большие языковые модели

14 декабря 2024 г.

[2 лекции] Большие языковые модели: scaling laws, компоненты прогресса LLM. Дообучение через RL: actor-critic алгоритмы, DPG, TRPO и PPO, как с их помощью делать RLHF. Адаптеры и LoRA. Instruction tuning: датасеты, синтетика, bootstrapping. Как расширить контекст трансформера. Линейные трансформеры: возвращение RNN, SSM и идея Mamba. Как добавить поиск: RAG.