Форум » Полезное » Про статистику » Ответить

Про статистику

Дмитрий: Мы все понемножку используем стат.методы. Каждый в силу своему ума и знаний. Вот я нашел интересные ссылки ГОСТ Р 50779.10-2000 (ИСО 3534.1-93)СТАТИСТИЧЕСКИЕ МЕТОДЫ. ВЕРОЯТНОСТЬ И ОСНОВЫ СТАТИСТИКИ. Термины и определения. ГОСТ Р ИСО 5479-2002Статистические методы. ПРОВЕРКА ОТКЛОНЕНИЯ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ОТ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ. Сравнительный анализ критериев проверки нормальности одномерных величин еще есть гост ГОСТ 08.011-72, но его не нашел А тут меня ткунули носом в критерий Шапиро-Уилка, что мол он не показывает нормальность, а я написал что нормальная выборка. А теперь я могу сослаться на ГОСТ, и сказать что критерий Шапиро-Уилка в даном случае не применим. так как выбора n=5, а гост говорит о применени это критерия при 8<n<50. Так что эксперт, как и ожидалось, просто умом (котрый у него отсутсвует) блистать захотел,

Ответов - 52, стр: 1 2 3 All

Смоляк Сергей: Мисовец пишет: А раз цены тут зависят от площади, то они вовсе не обязаны быть распределены нормально и симметрично, потому тут много средних, т.к. для каждой площади будет своё среднее, может быть распределенное нормально, а может нет, но своё. Уважаемый Василий Григорьевич немного ошибается. Действительно, в данной ситуации распределение цен не нормальное. Но для оценки точности регрессионной зависимости используется ПРЕДПОЛОЖЕНИЕ, что отклонения наблюдаемых цен от рассчитанных по ИСТИННОМУ уравнению регрессии распределены по нормальному закону. При этом отклонения тех же цен от РАССЧИТАННОГО уравнения регрессии совершенно точно не будут распределены нормально - точное распределение приведено в справочнике Большева и др. "Таблицы математической статистики". Но иногда регрессионные зависимости рассчитываются в предположении, что пары или вектора (х,у), в данном случае (цена, площадь), имеют двумерное нормальное распределение. Вот это уже можно как-то проверять.

Мисовец: Так это другой, следующий этап, конечно стоит изучить остатки модели. Я пытался сказать, что не надо изучать тип распределения если известно, как это обычно в оценке и бывает, что цены не распределены вокруг мат.ожидания, а зависят от факторов ценообразования. А то ведь как делают? Сначала пишут про нормальное распределение удельных цен аналогов, а потом вдруг начинают поправки обоснованно вносить. А тут уж что-то одно, либо нормальное распределение, либо поправки.

AMar: Коллеги! А кто-нибудь может просветить, почему когда обнуляешь константу в регрессии, R^2 вырастает до неприличных размеров? С чем это связано?


Мисовец: AMar пишет: А кто-нибудь может просветить, почему когда обнуляешь константу в регрессии, R^2 вырастает до неприличных размеров? С чем это связано? Важно помнить, что различные модели не являются сравнимыми по критерию R2, а модели при обнулении свободного члена являются разными, т.к. различаются в т.ч. на число степеней свободы. При использовании R2-норм разница уже не такая большая. Но по сути, я думаю, если мы фиксируем нулевую точку, то добавляется как бы точка с абсолютным попаданием в неё регрессии и когда точек немного, это влияет на среднюю тесноту связи.

AMar: То, что R2 не сравним - это понятно. Но ... R2-норм тоже сильно меняется. Например, с константой: 0,12, без константы: 0,89. Кроме того, значимость F тоже сильно меняется...

Мисовец: Ну я там дописал позже к ответу и насчет этого.... Могу также добавить, что много зависит от того, насколько далеко Ваши точки от нуля, если точки от нуля далеки, то растет объясняемая дисперсия а остаточная дисперсия не растет, это приводит к росту r2 и Фишера

AMar: Общая рекомендация всех преподавателей и/или учебников - константу убирать из модели не надо. Но с точки зрения оформления отчетов (как говорится, ФСО рулит... ), получается лучше выкинуть константу: F-критерий лучше, R^2 "красивше"... Еще вопрос: Иногда получается такая ситуация: коэффициенты значимы при всех параметрах, за исключением константы. Что в этом случае делать? Выкидывать константу?

Мисовец: AMar пишет: Общая рекомендация всех преподавателей и/или учебников - константу убирать из модели не надо. Не такая общая рекомендация. Рекомендация другая: обнулять константу можно только, если у Вас для этого есть экономическое обоснование. Когда такого обоснования нет, то, конечно, обнулять константу нельзя. При нормальной проверке модели такое основание всегда должно проверяться. Что касается низкой значимости свободного члена, то тут такое дело, на мой взгляд, мы строим модель, чтобы описать объект оценки в том диапазоне его факторов ценообразования, который реально встречается на рынке. Это диапазон, например, площадь склада, может быть весьма далек от нуля и даже если свободный член не значимый, модель можно принимать, если неточность свободного члена в нашем реальном диапазоне изменений фактора несущественна. Другое дело, когда сама регрессия строится ради расчета величины свободного члена, как, например, в модифицированном методе выделения для ЗУ от Лейфера. Тогда значимость свободного члена важна. В обще, делать регрессию "красивше" не стоит по-моему. Сегодня надо честно делать регрессионные модели, т.к. от этого зависит то, будет ли регрессия часто встречаться в практике или нет.

Дмитрий: Я склоняюсь к мысле что свободный член нужно задавать как один из параметров. Пример. Строю я регрессию стоимость ЗУ как функцию от расстояния от МКАД. Свободный член тогда должен равняться стоимости ЗУ у самого МКАДа.

Мисовец: Дмитрий пишет: Пример. Строю я регрессию стоимость ЗУ как функцию от расстояния от МКАД. Свободный член тогда должен равняться стоимости ЗУ у самого МКАДа. Хорошо, если так, но совсем не обязательно и вот по какой причине: 1. Зависимость цены ЗУ от расстояния от МКАД на самом деле не является линейной функцией расстояния, это легко понять, если рассмотреть эту зависимость на больших расстояниях, там, где она выходит на насыщение. 2. Это значит, что беря аналоги достаточно далеко от МКАД, мы имеем, грубо говоря, касательную к исходной функции. Из-за нелинейности функции свободный член этой касательной может и не совпадать со стоимостью ЗУ на самой МКАД.

Дмитрий: Да замечание верно. Так как решается задача аппроксимации, то аппроксимирующая функция верна только на отрезке на котором она задана. ТО есть только между крайними точками. Достоверность для решения задачи экстраполяции низка (нужно следить за гладкостью и монотонностью аппроксимирующей функции). По большому счету и для решении задачи интерполяции тоже надо смотреть на осцилляцию функции между узлами. До ст-ти ЗУ методом подбора вида аппроксимирующей функции (миллиметровка в этом случае практически не заменима) лучший результат дала f(R)=A*exp(-bR). Но свободный член близок (качественно похож на правду) к ст-ти на границе. Неплохой результат по R2 и статистике давал многочлен степени от 4 до 6, но от него отказался из-за осцилляции между узлами. Но можно рассматривать свободный член как еще одну точку

AMar: Коллеги! Кто знает, прошу подсказать: Построил модель, рассчитал прогнозное значение. Нужен доверительный интервал для данного прогнозного значения. Считаю таким образом: =N20 +/- СТЬЮДРАСПОБР(0,2;B13)*B7 где: N20 - прогнозное значение; 0,2 - задается доверительная вероятность (в данном случае 80%); B13 - число степеней свободы (выдается пакетом анализа); B7 - стандартная ошибка регрессии (выдается пакетом анализа). Все правильно сделал?

Мисовец: Ну да, типа того, но есть ещё более точное выражение, матричное, попробую его тут записать: +/- СТЬЮДРАСПОБР(Вероятность;ЧСС)*S*КОРЕНЬ(МУМНОЖ(ТРАНСП(Хо);МУМНОЖ(МОБР(МУМНОЖ(ТРАНСП(Х);Х));Хо)) Под корнем матричные функции МУМНОЖ - произведение матриц МОБР - обратная матрица ТРАНСП - транспонирование матрицы X - матрица характеристик аналогов, дополненная слева столбцом единиц Xо - строка характеристик объекта, дополненная слева единицей Т.е. это доверительный интервал именно для объекта оценки, а не в целом для модели.

Дмитрий: а у меня такая формула =±Станд.Откл/КОРЕНЬ(Кол-во)*СТЬЮДРАСПОБР(0,05;Кол-во-1) ±t(α,n-1)×(√σ2/√n) относительная ошибка соответственно t(α,n-1)×(√σ2/√n)/Сср×100%

AMar: Мисовец пишет: +/- СТЬЮДРАСПОБР(Вероятность;ЧСС)*S*КОРЕНЬ(МУМНОЖ(ТРАНСП(Хо);МУМНОЖ(МОБР(МУМНОЖ(ТРАНСП(Х);Х));Хо)) Под корнем матричные функции МУМНОЖ - произведение матриц МОБР - обратная матрица ТРАНСП - транспонирование матрицы X - матрица характеристик аналогов, дополненная слева столбцом единиц Xо - строка характеристик объекта, дополненная слева единицей Т.е. это доверительный интервал именно для объекта оценки, а не в целом для модели. А S - стандартная ошибка?

Мисовец: AMar пишет: А S - стандартная ошибка? Да, конечно.

AMar: Мисовец пишет: +/- СТЬЮДРАСПОБР(Вероятность;ЧСС)*S*КОРЕНЬ(МУМНОЖ(ТРАНСП(Хо);МУМНОЖ(МОБР(МУМНОЖ(ТРАНСП(Х);Х));Хо)) Чего-то не выходит "каменный цветок"... Василий Григорьевич, в формуле нет ошибки? Дмитрий пишет: =±Станд.Откл/КОРЕНЬ(Кол-во)*СТЬЮДРАСПОБР(0,05;Кол-во-1) Дык это ... я тож самое и написал...

Дмитрий: AMar пишет: Дык это ... я тож самое и написал... ну я не знал что "стандартная ошибка регрессии (выдается пакетом анализа)" равно "Станд.Откл/КОРЕНЬ(Кол-во)"

Дмитрий: Немног про другое. Но то же про статистику Вот часто пишут: "проведено соц.исследование опрошено У,У тыс.чел в ХХ города. погрешность составила 3%" Как они эту погрешность считают?

Мисовец: AMar пишет: Чего-то не выходит "каменный цветок"... Василий Григорьевич, в формуле нет ошибки? Конечно есть ошибка, там же скобки не сходятся ... Ну пишу в радикалах: Корень(Xot*(Xt*X)^-1*Xo) кругом матрицы, как их исчислять я написал выше.



полная версия страницы