Глубокое обучение 2025

Это курс о глубоком обучении, представленный на Факультете математики и компьютерных наук Санкт-Петербургского государственного университета осенью 2025 года.

Свёрточные сети I: мотивация, идеи, основные архитектуры thumbnail
1

Свёрточные сети I: мотивация, идеи, основные архитектуры

4 сентября 2025 г.

Свёрточные сети: биологическая мотивация, основные идеи, LeNet и экономия весов, AlexNet и аугментация данных, интерпретация признаков.

Свёрточные архитектуры, состязательные примеры thumbnail
2

Свёрточные архитектуры, состязательные примеры

11 сентября 2025 г.

Архитектурные идеи свёрточных сетей: VGG, Inception, остаточные связи, bottlenecks и split-transform-merge, EfficientNet. Состязательные примеры и состязательная аугментация.

Распознавание объектов thumbnail
3

Распознавание объектов

18 сентября 2025 г.

Постановка задачи и сложности с её формализацией, семейство R-CNN, R-FCN, YOLO, YOLOv2

Распознавание признаков и сегментация thumbnail
4

Распознавание признаков и сегментация

25 сентября 2025 г.

Проблема с масштабом в распознавании объектов. Пирамиды признаков: FPN, RetinaNet, EfficientDet. Введение в сегментацию. Semantic segmentation: от FCN до U-Net и его вариантов. Instance segmentation: DeepMask, Mask R-CNN

Состязательные примеры, механизмы внимания thumbnail
5

Состязательные примеры, механизмы внимания

2 октября 2025 г.

Состязательные примеры. Напоминание о рекуррентных сетях. Что такое внимание. Ранние механизмы внимания, рекуррентное внимание. Encoder-decoder with attention.

Самовнимание и архитектура трансформера thumbnail
6

Самовнимание и архитектура трансформера

9 октября 2025 г.

Трансформер как encoder-decoder архитектура. Слой самовнимания (self-attention) по идее информационного поиска; masked self-attention и encoder-decoder attention в декодере. Токенизация и byte-pair encoding. Позиционные вложения. Преимущества и недостатки трансформеров.

Трансформеры в компьютерном зрении thumbnail
7

Трансформеры в компьютерном зрении

16 октября 2025 г.

Базовые архитектуры: VisualBERT, ViT, Swin Transformer. Распознавание объектов: DETR, DINO и другие; идея архитектур Perceiver. Сегментация медицинских снимков: U-Net с трансформерами. Мультимодальные латентные пространства: CLIP и BLIP.

Порождающие модели и идея состязательных сетей thumbnail
8

Порождающие модели и идея состязательных сетей

23 октября 2025 г.

Порождающие и дискриминирующие модели: сходства и различия. Таксономия глубоких порождающих моделей. Ранние авторегрессивные модели: MADE, PixelRNN, PixelCNN, WaveNet. Идея GAN и постановка их задачи.

Порождающие состязательные сети thumbnail
9

Порождающие состязательные сети

30 октября 2025 г.

Ранние GAN'ы, DCGAN. ProGAN. Функции ошибки: LSGAN, Wasserstein GAN. AAE, условные GAN'ы. Case study: перенос стиля

Вариационные автокодировщики thumbnail
10

Вариационные автокодировщики

6 ноября 2025 г.

Автокодировщики и порождающие модели. Идея вариационного автокодировщика, вариационное приближение в VAE. Вывод функций ошибки, reparametrization trick.

VQ-VAE и что из него получилось thumbnail
11

VQ-VAE и что из него получилось

12 ноября 2025 г.

Доклад Захара Варфоломеева на научном семинаре лаборатории Маркова.

DALL-E и нейросетевой информационный поиск thumbnail
12

DALL-E и нейросетевой информационный поиск

13 ноября 2025 г.

От VAE к VQ-VAE. dVAE: Gumbel-Max и Gumbel-Softmax. DALL-E: структура и обучение. Нейросетевой информационный поиск: контрастивные ошибки и triplet loss, ошибки на основе softmax и NCE. Пример: STIR и переранжирование выдачи.

Введение в диффузионные модели thumbnail
13

Введение в диффузионные модели

17 ноября 2025 г.

Гостевая лекция на "Студкемпе по математике AI", проводившемся силами ФМКН СПбГУ в ноябре 2025: введение о порождающих моделях, идея диффузионных моделей, вариационные приближения вообще и в диффузионных моделях в частности, DDPM и DDIM, диффузия в латентном пространстве.

Как работают диффузионные модели thumbnail
14

Как работают диффузионные модели

20 ноября 2025 г.

Вариационное приближение и функция ошибки, DDPM. DDIM: другой процесс зашумления, вариационная оценка в DDIM, почему DDIM - это хорошо. Stable Diffusion и так далее, последние новости

Модели, основанные на потоках thumbnail
15

Модели, основанные на потоках

27 ноября 2025 г.

Идея flow-based models. Варианты: RealNVP, MAF, IAF, их двойственность. Параллельная дистилляция. Дальнейшее развитие потоковых моделей.