Принципы выбора лучшей линейной модели

“Essentially, all models are wrong,
but some are useful”
Georg E. P. Box

“Entia non sunt multiplicanda praeter necessitatem”
Gulielmus Occamus

Важно не только тестирование гипотез, но и построение моделей

  • Проверка соответствия наблюдаемых данных предполагаемой связи между зависимой переменной и предикторами:
    • оценки параметров,
    • тестирование гипотез,
    • оценка объясненной изменчивости (\(R^2\)),
    • анализ остатков
  • Построение моделей для предсказания значений в новых условиях:
    • Выбор оптимальной модели
    • Оценка предсказательной способности модели на новых данных

Зачем может понадобится упрощать модель?

Since all models are wrong the scientist cannot obtain a “correct” one by excessive elaboration. On the contrary following William of Occam he should seek an economical description of natural phenomena. […] overelaboration and overparameterization is often the mark of mediocrity (Box, 1976).

Поскольку все модели ошибочны, ученый не может получить «правильную» модель даже если очень постарается. Напротив, вслед за Уильямом Оккамом он должен искать экономичное описание природы. […] чрезмерное усложнение модели часто является признаком посредственности. (Box, 1976).

While a model can never be “truth,” a model might be ranked from very useful, to useful, to somewhat useful to, finally, essentially useless (Burnham & Anderson, 2002).

Хотя модель никогда не может быть «правдой», модели можно ранжировать от очень полезных к полезным, до некоторой степени полезным и , наконец, к абсолютно бесполезным (Burnham & Anderson, 2002).

Какую модель можно подобрать для описания этой закономерности?

  • Эти данные можно смоделировать очень разными способами. Мы попробуем посмотреть, как это будет выглядеть на примере loess— локальной полиномиальной регрессии. (Если интересно, подробнее о loess-регрессии)

Какая из этих моделей лучше описывает данные?

На этих графиках показаны предсказания loess-регрессии для одних и тех же исходных данных.

Cложность модели — в общем случае, это число параметров. Для loess-регрессии сложность модели отражает степень сглаживания: у более сложных моделей маленькая степень сглаживания.

  • Простые модели недообучены (underfitted) — слишком мало параметров, предсказания неточны.
  • Сложные модели переобучены (overfitted) — слишком много параметров, предсказывают еще и случайный шум.

Что будет, если получить предсказания моделей на новых данных?

На новых данных предсказания моделей не будут идеальными.

Как при усложнении модели меняется качество предсказаний?

Ошибка предсказаний на новых данных практически всегда больше, чем на исходных данных. Более сложные модели лучше описывают существующие данные, но на новых данных их предсказания хуже.

Обычно при усложнении модели:

  • ошибки предсказаний на исходных данных убывают (иногда, до какого-то уровня) (L-образная кривая)
  • ошибки предсказаний на новых данных убывают, затем возрастают из-за переобучения (U-образная кривая)

Погрешность и точность

  • Погрешность (accuracy, точность)— отсутствие погрешности (bias).
  • Точность (precision, тоже точность — другой аспект) — разброс значений

Предсказания, сделанные на новых данных, будут отличаться от истинных значений не только из-за погрешности или неточности. Еще один источник отличий — это так называемая неснижаемая ошибка.

Компромисс между погрешностью и разбросом значений предсказаний (Bias-Variance Tradeoff)

\[Полная~ошибка = Дисперсия + (Погрешность)^2 + Неснижаемая~ошибка\] При увеличении сложности модели снижается погрешность предсказаний, но возрастает их разброс. Поэтому общая ошибка предсказаний велика у недообученных или переобученных моделей, а у моделей средней сложности она будет минимальной.

Критерии и методы выбора моделей зависят от задачи

Объяснение закономерностей, описание функциональной зависимости

  • Нужна точность оценки параметров
  • Нужны точные тесты влияния предикторов: F-тесты или тесты отношения правдоподобий (likelihood-ratio tests)

Предсказание значений зависимой переменной

  • Нужна простая модель: “информационные” критерии (АIC, BIC, и т.д.)
  • Нужна оценка качества модели на данных, которые не использовались для ее первоначальной подгонки: методы ресамплинга (кросс-валидация, бутстреп)

Не позволяйте компьютеру думать за вас!

  • Хорошая модель должна соответствовать условиям применимости, иначе вы не сможете доверять результатам тестов.

  • Другие соображения: разумность, целесообразность модели, простота, ценность выводов, важность предикторов.