“Essentially, all models are wrong,
but some are useful”
Georg E. P. Box
“Entia non sunt multiplicanda praeter necessitatem”
Gulielmus Occamus
“Essentially, all models are wrong,
but some are useful”
Georg E. P. Box
“Entia non sunt multiplicanda praeter necessitatem”
Gulielmus Occamus
Since all models are wrong the scientist cannot obtain a “correct” one by excessive elaboration. On the contrary following William of Occam he should seek an economical description of natural phenomena. […] overelaboration and overparameterization is often the mark of mediocrity (Box, 1976).
Поскольку все модели ошибочны, ученый не может получить «правильную» модель даже если очень постарается. Напротив, вслед за Уильямом Оккамом он должен искать экономичное описание природы. […] чрезмерное усложнение модели часто является признаком посредственности. (Box, 1976).
While a model can never be “truth,” a model might be ranked from very useful, to useful, to somewhat useful to, finally, essentially useless (Burnham & Anderson, 2002).
Хотя модель никогда не может быть «правдой», модели можно ранжировать от очень полезных к полезным, до некоторой степени полезным и , наконец, к абсолютно бесполезным (Burnham & Anderson, 2002).
На этих графиках показаны предсказания loess-регрессии для одних и тех же исходных данных.
Cложность модели — в общем случае, это число параметров. Для loess-регрессии сложность модели отражает степень сглаживания: у более сложных моделей маленькая степень сглаживания.
На новых данных предсказания моделей не будут идеальными.
Ошибка предсказаний на новых данных практически всегда больше, чем на исходных данных. Более сложные модели лучше описывают существующие данные, но на новых данных их предсказания хуже.
Обычно при усложнении модели:
Предсказания, сделанные на новых данных, будут отличаться от истинных значений не только из-за погрешности или неточности. Еще один источник отличий — это так называемая неснижаемая ошибка.
\[Полная~ошибка = Дисперсия + (Погрешность)^2 + Неснижаемая~ошибка\] При увеличении сложности модели снижается погрешность предсказаний, но возрастает их разброс. Поэтому общая ошибка предсказаний велика у недообученных или переобученных моделей, а у моделей средней сложности она будет минимальной.
Объяснение закономерностей, описание функциональной зависимости
Предсказание значений зависимой переменной
Хорошая модель должна соответствовать условиям применимости, иначе вы не сможете доверять результатам тестов.
Другие соображения: разумность, целесообразность модели, простота, ценность выводов, важность предикторов.