Бустинги›Gradient Boosting

Gradient Boosting

Ансамблевый метод, где каждое следующее дерево исправляет ошибки предыдущего. Один из самых эффективных алгоритмов на табличных данных.

Интерактивная визуализация

Играйте с параметрами — наблюдайте как меняется модель в реальном времени

Задача

РегрессияКлассиф.

Датасет

Деревьев20

Learning rate η0.10

Глубина дерева3

Subsample1.0

Вычисляю...

Шаг 0 / 0

Точки данных

Предсказание F(x)

Остаток (residual)

Числовой пример

Строки подсвечиваются при изменении — переключайте шаги в элементах управления выше.

Вычисляю...

Идея метода

Как работает Gradient Boosting — без формул

Аналогия

Представьте команду экспертов, где каждый следующий специально изучает ошибки предыдущего. Первый эксперт даёт грубую оценку. Второй смотрит, где первый ошибся, и корректирует. Третий исправляет то, что не доделал второй — и так далее. Итоговый ответ команды гораздо точнее любого одиночки.

В Gradient Boosting роль каждого «эксперта» играет простое решающее дерево. Каждое новое дерево обучается не на исходных данных, а на остатках — разнице между тем, что модель предсказала, и тем, что было на самом деле.

Ключевая идея

Gradient Boosting строит модель итеративно: на каждом шаге добавляется новое слабое дерево, которое аппроксимирует отрицательный градиент функции потерь. Это универсальный принцип — меняя функцию потерь, можно решать регрессию, классификацию и ранжирование одним и тем же алгоритмом.

Bagging vs Boosting

Bagging (Random Forest)

—Деревья обучаются независимо
—Параллельное обучение
—Усредняет предсказания
—Снижает дисперсию (variance)

Boosting (GBM)

→Каждое дерево учится на ошибках предыдущего
→Последовательное обучение
→Взвешенно суммирует предсказания
→Снижает смещение (bias)

Bias и Variance

Gradient Boosting — это прежде всего инструмент снижения bias (смещения): каждое новое дерево исправляет ошибки предыдущих, и модель всё точнее описывает обучающие данные. Но чем дольше мы бустим — тем сильнее растёт variance (дисперсия): модель начинает запоминать шум, и её предсказания на новых данных ухудшаются.

Ключевой приём: learning_rate ↓ + n_estimators ↑ пропорционально. Медленный бустинг снижает bias так же хорошо, но variance растёт значительно медленнее — модель обобщает лучше.

По мере роста числа итераций bias монотонно падает, variance растёт. Минимум суммарной ошибки — оптимальная точка остановки.

Параметр	Bias	Variance	Рекомендация
n_estimators ↑	↓ снижает	↑ повышает	Контролируй через learning_rate
learning_rate ↑	↓ быстрее	↑↑ резко	Уменьши η, увеличь M — итог лучше
max_depth ↑	↓ снижает	↑↑ сильно	Оптимум 3–5 уровней
subsample < 1	~ нейтрально	↓ снижает	0.7–0.9 добавляет стохастику

Золотое правило GBM: learning_rate = 0.01–0.1 + много деревьев (100–1000) даёт лучший результат, чем большой η + мало деревьев. Медленный бустинг — более стабильная и обобщающая модель.

Плюсы и минусы

Плюсы

+Высокая точность на табличных данных
+Хорошо работает «из коробки»
+Устойчив к выбросам (при правильном loss)
+Гибкость: любая дифференцируемая функция потерь

Минусы

−Последовательное обучение — не параллелится
−Склонен к переобучению при большом числе деревьев
−Много гиперпараметров для тюнинга
−Медленнее Random Forest на больших данных

Математика

Как это работает под капотом — с формулами и разбором на конкретных числах

Формула обновления модели

F_m(x) = F_{m-1}(x) + \eta \cdot h_m(x)

F_m(x)

— Итоговая модель после m раундов — сумма всех деревьев, которые мы обучили

F_{m-1}(x)

— То, что модель предсказывала на прошлом шаге — от этого считаем ошибки

\eta

— Learning rate — как сильно доверять новому дереву. Обычно 0.05–0.3: чем меньше, тем осторожнее

h_m(x)

— Новое дерево, обученное специально на ошибках предыдущей модели

На каждом шаге мы добавляем новое дерево h_m, умноженное на learning rate. Дерево обучено предсказывать псевдо-остатки — направление, в котором нужно скорректировать текущую модель.

Разбор вручную: как GBM работает шаг за шагом

Возьмём 5 домов и запустим бустинг от нуля. Видно каждое число.

Датасет — 5 домов

i	Площадь (×10 м²)	Цена (×$100k)
1	10	3.0
2	15	4.5
3	20	5.0
4	25	7.0
5	30	8.5

Learning rate η = 0.5, пни глубины 1

F₀ — начальное предсказание (до первого дерева)

Мы начинаем с нуля — никакой модели ещё нет. Прежде чем строить деревья, нам нужно с чего-то стартовать. Самый простой и математически обоснованный вариант — предсказывать для всех домов одно и то же значение: среднее всех цен.

Почему именно среднее? Потому что среди всех возможных константных предсказаний среднее даёт наименьшую среднеквадратичную ошибку. Это можно доказать математически, но интуитивно тоже понятно: если не знаешь ничего конкретного — лучшая ставка это среднее.

F₀ = (3.0 + 4.5 + 5.0 + 7.0 + 8.5) / 5 = 28.0 / 5 = 5.6

Теперь посмотрим в таблицу ниже. Столбец «Остаток y − F₀» — это насколько мы ошиблись для каждого дома. Остаток считается как: реальная цена минус наше предсказание.

Отрицательный остаток означает: мы завысили цену (предсказали 5.6, а реальная цена меньше). Положительный остаток означает: мы занизили цену (предсказали 5.6, а дом стоит дороже). Именно эти остатки станут «учебным материалом» для первого дерева в следующем раунде.

Стартовая ошибка MSE:

MSE = (2.6² + 1.1² + 0.6² + 1.4² + 2.9²) / 5

= (6.76 + 1.21 + 0.36 + 1.96 + 8.41) / 5

= 18.70 / 5 = 3.74

i	Площадь	Цена y	F₀	Остаток y−F₀
1	10	3.0	5.6	-2.60
2	15	4.5	5.6	-1.10
3	20	5.0	5.6	-0.60
4	25	7.0	5.6	+1.40
5	30	8.5	5.6	+2.90

Стартовый MSE:3.74

Как MSE падает с каждым раундом

Активный раунд подсвечен. Три дерева — минус 92% ошибки.

Псевдокод

gradient_boosting.pseudo

1Вход: данные (x, y), n_estimators, learning_rate, max_depth
3F₀(x) = mean(y)                         # инициализация константой
5for m = 1 to n_estimators:
6rᵢ = yᵢ − F_{m-1}(xᵢ)   для всех i    # псевдо-остатки
7hₘ = fit_tree(X, r, max_depth)          # дерево на остатках
8F_m(x) = F_{m-1}(x) + η · hₘ(x)        # обновление модели
10return F_n                              # итоговая модель

Итог

Что важно запомнить

Ключевые выводы

1Каждое дерево исправляет ошибки предыдущего, обучаясь на остатках
2Learning rate контролирует размер шага — меньше η → больше деревьев нужно, но модель устойчивее
3Псевдо-остатки — это отрицательный градиент функции потерь, что делает метод универсальным
4Subsample < 1.0 вносит случайность и помогает бороться с переобучением
5Глубина дерева регулирует сложность каждого шага: глубже = мощнее, но риск переобучения выше

Когда использовать

Задача	Рекомендация
Регрессия (дома, цены)	Отличный выбор
Бинарная классификация	Отличный выбор
Многоклассовая классификация	Хороший выбор
Ранжирование (поиск, рекомендации)	XGBoost / LightGBM лучше
Данные с высокой кардинальностью	CatBoost лучше

← На главную Следующая тема: AdaBoost

Gradient Boosting

Интерактивная визуализация

Числовой пример

Идея метода

Аналогия

Ключевая идея

Bagging vs Boosting

Bagging (Random Forest)

Boosting (GBM)

Bias и Variance

Bias и Variance

Плюсы и минусы

Плюсы

Минусы

Математика

Формула обновления модели

Полный математический вывод

Разбор вручную: как GBM работает шаг за шагом

Псевдокод

Итог

Ключевые выводы

Когда использовать