Регрессионные модели

Форум » Обсудим » Регрессионные модели » Ответить

Регрессионные модели

Дмитрий: На другой ветке, где обсуждался износ возник вопрос по регрессионные модели. Так это не в тему ветки, Я решил начать новую ветку. NPB пишет: [quote]А почему бы не попробовать? Вот нам пришлось как-то выкручиваться при оценке плавучих кранов, на семи (не помню точно) аналогах учли дедвейт, грузоподъемность крана, время после кап. ремонта (могу соврать, давненько дело было, а проверить сейчас себя не могу). Получили неожиданно хорошие показатели точности модели. Оценочную задачку решили. Не буду утверждать, что это идеал, но м.б., если сравнить с другими доступными методами, - не хуже других. Здесь ведь важно то, что работая с малой выборкой аналогов, мы устанавливаем связи ТОЛЬКО ВНУТРИ ЭТОЙ ВЫБОРКИ, не претендуя на описание всех возможных влияний тех или иных характеристик/параметров на стоимость. А это здорово облегчает задачу в ряде случаев. Правда, перенося всю тяжесть доказательства обоснованности на подбор аналогов. [/quote] Смущает (долго не мог подобрать слово) меня стремление многих использовать регрессию, особенно многомерную, для построения моделей. При этом не проводя исследование по значимости, корреляции и др. (вон последний пример - отчет по дому отдыха с Р2=0,24, да и статьи Оксаны туда же). Даже перичную проверку по 2 или 3 сигмам и вариации не проводят. Только мне кажется что в модели дейдвейт и грузоподъемность оказались коллиниарными (если правильно слово использовал - взаимосвязанными), то есть можно было одну переменную упустить. Фактически формируя малую выборку на интуитивном уровне и проводят проверку. Отбрасывая те точки(аналоги), которые не ложаться в модель. Но потом другие чиатют, и говорят как класно, можно не думать, набрать аналогов (какие попались) сунуть в эксель, он что-то посчитал, в отчет тиснул. И заказчик млеет от удовольствия.

Ответов - 110, стр: 1 2 3 4 5 6 All

Дмитрий: Тема плавно ушла к обсуждению, что такое износ в оценке. Физическое устаревание или обесценивание. Конечно наболело это Но позволю вернуться к первоначальной теме. На другой ветки я написал, что если R2=0,24, то применять модель нельзя. мне ответили, что AMar пишет: Если коэффициенты уравнения значимы, и само уравнение значимо, то маленький "R2" говорит лишь о том, что надо учесть что-то еще. Но он не говорит о том, что модель применять нельзя. Поэтому, например, для расчета поправок такую модель вполне можно использовать (надо только грамотно в отчете написать, а то проверяющие знают только R2). Мне кажется что если в модели "надо учесть что-то еще", чтобы объяснить 76% отклонение модельной цены от наблюдаемой, то модель не верна.

AMar: Дмитрий пишет: Мне кажется что если в модели "надо учесть что-то еще", чтобы объяснить 76% отклонение модельной цены от наблюдаемой, то модель не верна. 1. Смотря для чего строится модель. Если, например, для расчета поправки, то применять можно (при условии, что коэффициент при данной переменной значим и сама функция значима - это очень важно). Что это значит: Мы знаем, что цена некой штуковины зависит от параметра А и мы нашли как зависит. Но оказалось, что параметр А описывает только 20% изменения цены. А вот про остальные 80% - мы ничего не знаем. Если есть возможность улучшить модель - я только за. А если нет? (например, по аналогам необходимую информацию собрать не удается) Можно все усреднить, но лучше использовать модель. Т.к. она лучше, чем среднее (повторяюсь, при условии, что модель значима. Если правильно помню, нуль-гипотеза в этом случае звучит так: "модель лучше, чем среднее" или наоборот "среднее лучше, чем модель" - точно не помню, надо учебник глянуть). 2. Приведу один абстрактный пример. В две колонки Excel Вы забили такие функции: В колонку А: =СЛЧИС() В колонку B: =СЛЧИС()+0,5 Пусть это будут цены аналогов. Вам надо ответить на вопрос, отличаются ли аналоги из колонки А от аналогов из колонки В? Ваш ответ: нет, не отличаются, потому что R2 - маленький. Мой ответ: да отличаются, но это отличие описывает только ХХ% вариативности цен.

NPB: Дмитрий пишет: Я это к тому написал, что не надо так стремиться считать регресию. Вон Арнольд Дмитриевич рисует от руки кривые на милиметровке. Я считаю что это правильно Может лучьше вместо регрессии парные сравнения сделать. И проще. Меньше математики - меньше ошибок Сразу вспомнилось "Хорошо начал, да плохо кончил". Из того, что многие не хотят думать, а хотят "быстренько" использовать не простые, в общем, методы совсем не следует, что эти методы не нужно осваивать. Мои скромные усилия "в оценочном русле" как раз и направлены на внедрение в практику оценки и сознание коллег НЕОБХОДИМОСТИ корректного использования этого мощного аппарата. Регрессия далеко не так проста, как кажется с виду, если есть интерес, можно обсудить нюансы. Но, думаю, процесс пошел бы быстрее, если бы участники предварительно хотя бы в минимальной степени освежили в памяти основы рег. анализа. Но вот задачка Арнольда Дмитриевича об оценке влияния различных факторов (при наличии достаточной информации) - это как раз то поле, где конкуренты многомерной регрессии отдыхают. Насчет парных сравнений. Мы уже обсуждали разброс рыночных цен на ИДЕНТИЧНЫЕ с т.зр. покупателя товары. Он весьма не маленький. Вы можете оценить погрешность (точность, дов. интервал - что угодно) процедуры, согласно которой различие в ДВУХ ценах двух НЕ ИДЕНТИЧНЫХ объектов ОТНОСИТСЯ на разницу СТОИМОСТЕЙ этих объектов? Полагаю меньше математики здесь - совсем НЕ "меньше ошибок".

NPB: AMar пишет: Семь аналогов? Три независимых переменных? Можно, конечно, подобрать функцию, которая точно пройдет по всем семи точкам. Вопрос в том, насколько можно доверять такой функции. И можно ли ее использовать Если у нас есть три опоры, то на них можно без проблем поставить столешницу. Вот только не будут ли с нее падать тарелки? Я всегда был убежден, что три опоры устойчивей четырех. А что, действительно невозможно удержать тарелки на столике с тремя ногами? Может быть не количество ног определяет эту угрозу, а нечто другое? Я не утверждаю, что именно семь анаологов, некогда сейчас искать, да и не это главное. В одной из публикаций (доступной, кстати на Аппрайзере), мы показали, что минимально необходимое число аналогов зависит от степени их близости, тесноты выборки, если угодно. В частности, если они очень близки, достаточно и 2k+1 штук, где k - число влияющих факторов. Заметьте, AMar, вывод Ваш также тривиален, как и вывод Дмитрия - кто-то не умеет грамотно пользоваться этим инструментом, поэтому - инструмент негож. Здесь уместно вспомнить, что качество, например, спортивного оружия оценивается не по результатам стрельбы новичка (неумехи), а совсем по-другому.

Дмитрий: AMar пишет: 2. Приведу один абстрактный пример. не-е-е. Пример не в тему. Под рукой нет учебника, чтобы умные слова написать. Строиться модель, потом по моделе вычисляются известные значения. И смотрят разницу - остаточную сумму. Чем больше остаточная сумма, то есть расхождение расчетных данных от наблюдаемых, тем меньше будет R2. Вообще в эконометрике считается что при R2<0.7, модель отвергается. Например, построим модель - Цена =f( возраст) для автомашин. И туда поместим все машины и мерсы и жугили. Да модель имеет месть жить, так как покажет какую-то взаимосвязь между возрастом и ценой, но пользоваться моделью нельзя

NPB: Здесь поддержу Дмитрия вот в чем. Несмотря на то, что R2 - примитивный и плохо интерпретируемый показатель (для нашей цели есть, например, гораздо более понятная ошибка аппроксимации), модель с его значением 0,24 вряд ли может служить опорой для расчета каких либо количественных соотношений, котрым можно доверять. Чтобы утверждать однозначно, нужно увидеть пример (чудеса ведь разные бывают).

Дмитрий: NPB пишет: вывод Дмитрия - кто-то не умеет грамотно пользоваться этим инструментом, поэтому - инструмент негож Нет я не говорил, что "инструмент не гож". Я акцентировал внимание, что нельзя все сгружать в эксель, который рисует кривую, и потом по ней считать. Не анализирую того что получили. А в первую очередь что загрузили. NPB пишет: минимально необходимое число аналогов зависит от степени их близости, тесноты выборки, если угодно Вот-вот. То есть Вы сначала формируется первоначальную выборку из N>>k(где k-количество параметров) аналогов. Потом на основании опыта (или с помошью статистических процедур), выкидываете выбросы получаете выборку из N>=2k+1 аналогов и строите регрессию. При таком подходе наверно можно и меньше аналогов. NPB пишет: направлены на внедрение в практику оценки и сознание коллег НЕОБХОДИМОСТИ корректного использования этого мощного аппарата. Вот и я про это же. Поэтому и ветку создал. Потому что когда считаю регресию, то пишу умные слова, но ловлю себя на мысле, что смысл их утерен. Это как средневековый монах читает молитву на латыне, а что именно не понимает, но зато знает, когда и что надо прочитать. Вот про доверительный интервал все пишут, но все считают его как-то по разному. Кто среднее выборочное +-сигма*1 (2 или 3), кто среднее выборочное (расчетное) +- сигма*t-Стьюдента, кто еще как то. Да и сигму считают по разному: кто на N делит, кто (N-1)

Мисовец: Дмитрий пишет: Да и сигму считают по разному: кто на N делит, кто (N-1) Вот и напишите, как надо, я считаю, что для наших малых выборок надо на (n-1)...

Дмитрий: Я то же думаю что нужно n-1, но читаю отчеты разных умных людей из крупных компаний, и начал сомневаться в своей правоте.

NPB: Василий Григорьевич, у Вас есть пример КОРРЕКТНОГО расчета дов.интервала для среднего, полученного регрессией. Варианты, описанные Дмитрием, некорректны. Я думал "тиснуть" отдельную статью с практическим примером, но как все успеть? Дмитрий пишет: Вот-вот. То есть Вы сначала формируется первоначальную выборку из N>>k(где k-количество параметров) аналогов. Потом на основании опыта (или с помошью статистических процедур), выкидываете выбросы получаете выборку из N>=2k+1 аналогов и строите регрессию. При таком подходе наверно можно и меньше аналогов. Ну, во-первых, это Вы ТАК ДУМАЕТЕ, что я сначала.... и.т.д. Во-вторых, Вы посмотрели статью, о которой я говорю? Если нет, я готов предложить сменить почетный титул "главный критик" на менее почетный - "гл. критикан", ибо не чувствую конструктива в Ваших возражениях/замечаниях, не обижайтесь, пожалуйста.

Дмитрий: NPB пишет: Ну, во-первых, это Вы ТАК ДУМАЕТЕ, что я сначала.... и.т.д Вот так и убивается вера в лучшее и светлое в неокрепших душах. А как же статья где описываются методы отбора? NPB пишет: Вы посмотрели статью, о которой я говорю? Смотрел, там один раз используется выражение "доверительный интервал" и считают через СКО и стьюдента, но так как СКО2=сигма, то я там (выше) ошибся не поставил корень NPB пишет: сменить почетный титул "главный критик" ну тогда лучше на главный вопрошатель. Вот я читаю книжки по статистике, и там регулярно встречаются фразы "легко видеть" и т.д. А вот мне "тяжело" увидеть. Я поэтому и спрашиваю. Просто не всегда ставлю знак вопроса в конце предложения. Вот в Ваше статье про ассиметри и эксцесс написано - не смещенная оценка. Но ведь СКО считают смещенной (то есть n-1) - непонятно

NPB: Ух, как все запущено-то... Дмитрий пишет: А как же статья где описываются методы отбора? Ссылочку, плииз, пока не въезжаю. Про отбор, Вы, Дмитрий, совершенно правы - это вопрос вопросов (в смысле теории). А вот в практическом смысле - не так все страшно, помогает знание рынка. Не ответ, конечно, с т.з. жаждущего простых рецептов, но не обессудьте, так оно и есть. В недвижимости - помогает знакомство с результатами моделирования рынка методами массовой оценки, аналитическими материалами и обмен мнениями с риэлтерами, девелоперами, инвесторами, строителями (операторами рынка) и коллегами.. В МиО - думаю, аналогичные источники - продавцы, разработчики, "эксплуататоры", коллеги. Главное - уметь это "знание" объяснить, обосновать в отчете. Дмитрий пишет: Смотрел, там один раз используется выражение "доверительный интервал" и считают через СКО и стьюдента, но так как СКО2=сигма, то я там (выше) ошибся не поставил корень Вы ошиблись относительно не только этого корня, но и того, который отражает поправку на "сдвиг" характеристик объекта оценки относительно некоторого "центра группирования" таких же характеристик по выборке аналогов. В матричном виде запись для дов. интервала в регрессии дана в статье И.Н. Анисимовой про регрессию в Экселе. Дмитрий пишет: Вот в Ваше статье про ассиметри и эксцесс написано - не смещенная оценка. Но ведь СКО считают смещенной (то есть n-1) - непонятно Какую оценку называют несмещенной? Ту, что не изменяет своего значения с увеличением объема выборки при сохранении ее (выборки) распределения, не правда ли? Если не ошибаюсь, в книжке К. Доугерти "Введение в эконометрику" показано почему несмещенная оценка для СКО получается делением на n-1. А в Экселе сравните справки по функциям СТАНДОТКЛОН и САНДОТКЛОНП. Но это все "проценты" Важно понимать, что и оценка, данная регрессией, тоже может быть как смещенной, так и несмещенной. И на малых выборках простой формулы типа "если этот показатель меньше порогового - смещена, если больше - несмещена" - нет. Т.е. я хочу сказать, что при достаточном (скажем, больше 10) числе аналогов, какя Вам разница, смещена или нет оценка СКО (делить на 15 или 14 - не все ли равно). А вот насколько Вы и Ваши оппоненты могут быть уверены в самой оценке РС (оценке среднего значения, полученного регрессией) - вот это действительно вопрос, заслуживающий внимания.

Игорь г. Львов: Для коректного использования аппарата мат.статистики надо помнить, что формулы для малых выборок отличаются от формул для выборок нормального размера (не менее 20 наблюдений). Именно для малых выборок n-1. Дмитрий. Читайте литературу по малым выборкам.

Андрей Т: Я вот все думаю, ломается столько копий, но если у нас аналогов не больше 10-15 бывает, и то редко, обычно до 7-8, то можно и тоак увидеть (имеется ввиду без особых статкрутостей, или я не прав?

NPB: Андрей Т пишет: вот все думаю, ломается столько копий, но если у нас аналогов не больше 10-15 бывает, и то редко, обычно до 7-8, то можно и тоак увидеть (имеется ввиду без особых статкрутостей, или я не прав? Переведи

Kikinda: Андрей Т Можно. А как разглядеть "итого" когда у тебя на оценке 500 однотипных объектов?

Андрей Т: NPB Перевожу, если у меня выборка из 5-6 аналогов, то можно без особых наворотов, проверок (Фишера, Грабса и т.д). МНе кажется хватит одного R2. А то я на золотом диске видел отчет, помоему скачал себе. Где взято 5 аналогов, объект оценки лежит между двух, но статистики и проверок наворочено на 2 страницы. Кикинда НЕ понял, теперь ты переведи

Дмитрий: Эти навороты нужны чтобы взять среднее, а не считать регрессии или другие маниипуляци проводить (ну там поправки разные)

NPB: Дмитрий прав, без наворотов не обойтись, но совсем не только "чтобы взять среднее". Именно тогда, когда аналогов мало (5-6-7-8-10) нужно быть уверенным самому (и "передать" уверенность оппонентам) в том, что ты получил "верное" значение. В качестве примера: в процессе "критического разбора" рег. модели оценки ст-ти комбайна по 8 аналогам, предложенной одним из наших коллег, оценка РС "сместилась" на 44% ( с примерно 660 тыс. до примерно 950 тыс.) При этом в "исходной" модели R2=0.921, ср. ош. аппроксимации - 15,4%. В окончательной модели - R2=0.955, ср. ош. аппроксимации - 6,1%. Проверялся и ряд других показателей, в т.ч. контролировалось распределение остатков модели. Андрей, Вам по-прежнему "кажется, хватит одного R2"?

Андрей Т: NPB Я стараюсь подбирать аналоги сразу близкие без особых отклонений. Например стараюсь не мешать в одну кучу станки в состоянии, рабочем, практически новые, с консервации. Стараюсь на первоначальном этапе избегать крайних значений или беру с отличающимися параметрами которые можно доказательно скорректировать. Поэтому после корректировок получаются нормальные результаты. Но если валить все в одну кучу, тогда конечно. Всегда когда проверяю отчеты (просфт иногда) в сравнительном обязательно в первую очередь анализирую подобранные аналоги. Сколько раз натыкался на подбор аналогов "все в кучу", особенно по судам, а потом и получают разброс например стоимости 1 тонны дедвейта например от 280 долларов до 650 долларов и еще усредняют люди. Неужели когда подбираешь аналоги нельзя проанализировать их? В МИО не так много случаев, когда больше 10 аналогов находят.

полная версия страницы