Лабораторная работа: Статистические методы обработки данных
Используется для проверки
предложения о том, что среднее значения двух показателей, представленных
выборками, значимо различаются. Существует три разновидности критерия: один –
для связанных выборок, и два для несвязных выборок (с одинаковыми и разными
дисперсиями). Если выборки не связны, то предварительно нужно проверить
гипотезу о равенстве дисперсий, чтобы определить, какой из критериев
использовать. Так же как и в случае сравнения дисперсий имеются 2 способа
решения задачи, которые рассмотрим на примере.
ПРИМЕР 3. имеются данные о количестве продаж
товара в двух городах. Проверить на уровне значимости 0,01 статистическую
гипотезу о том, что среднее число продаж товара в городах различно.
23
25
23
22
23
24
28
16
18
23
29
26
31
19
22
28
26
26
35
20
27
28
28
26
22
29
Используем пакет «Анализ
данных». В зависимости от типа критерия выбирается один из трех: «Парный
двухвыборочный t-тест для средних» - для связных выборок, и «Двухвыборочных
t-тест с одинаковыми дисперсиями» или «Двухвыборочных t-тест с разными
дисперсиями» - для несвязных выборок. Вызовите тест с одинаковыми дисперсиями,
в открывшемся окне в полях «Интервал переменной 1» и «Интервал переменной 2»
вводят ссылки на данные (А1-N1 и
А2-L2, соответственно), если имеются
подписи данных, то ставят флажок у надписи «Метки» (у нас их нет, поэтому
флажок не ставится). Далее вводят уровень значимости в поле «Альфа» - 0,01.
Поле «Гипотетическая средняя разность» оставляют пустыми. В разделе «Параметры
вывода» ставят метку около «Выходной интервал» и поместив курсор в появившемся
поле напротив надписи, щелкают левой кнопкой в ячейке В7. вывод результата
будет осуществляться начиная с этой ячейки. Нажав на «ОК» появляется таблица
результата. Сдвиньте границу между столбцами В и С, С и D, D и Е увеличив ширину столбцов В, С и D так, чтобы умещались все надписи. Процедура выводит основные
характеристики выборки, t-статистику,
критические значения этих статистик и критические уровни значимости «Р(Т<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то
средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│
< 2,492159469, следовательно, среднее число продаж значимо не отличается.
Следует отметить, что если взять уровень значимости α=0,05, то результаты
исследования будут совсем иными.
Двухвыборочный t-тест с одинаковыми дисперсиями
город 1
город 2
Среднее
23,57142857
26,41666667
Дисперсия
17,34065934
15,35606061
Наблюдения
14
12
Объединенная дисперсия
16,43105159
Гипотетическая разность средних
0
df
24
t-статистика
-1,784242592
P(T<=t) одностороннее
0,043516846
t критическое одностороннее
2,492159469
P(T<=t) двухстороннее
0,087033692
t критическое двухстороннее
2,796939498
Лабораторная
работа №3
ПАРНАЯ
ЛИНЕЙНАЯ РЕГРЕССИЯ
Цель: Освоить методы построения линейного
уравнения парной регрессии с помощью ЭВМ, научиться получать и анализировать
основные характеристики регрессионного уравнения.
Рассмотрим методику
построения регрессионного уравнения на примере.
ПРИМЕР. Даны выборки факторов хi и уi. По этим выборкам найти уравнение
линейной регрессии ỹ = ах + b. Найти коэффициент парной корреляции. Проверить на
уровне значимости а = 0,05 регрессионную модель на адекватность.
Х
0
1
2
3
4
5
6
7
8
9
Y
6,7
6,3
4,4
9,5
5,2
4,3
7,7
7,1
7,1
7,9
Для нахождения
коэффициентов a и b уравнения регрессии служат функции НАКЛОН и ОТРЕЗОК,
категории «Статистические». Вводим в А5 подпись «а=» а в соседнюю ячейку В5
вводим функцию НАКЛОН, ставим курсор в поле «Изв_знач_у» задаем ссылку на
ячейки В2-K2, обводя их мышью. Результат 0,14303.
Найдем теперь коэффициент b.
Вводим в А6 подпись «b=», а
в В6 функцию ОТРЕЗОК с теми же параметрами, что и функции НАКЛОН. Результат 5,976364.
следовательно, уравнение линейной регрессии есть у=0,14303х+5,976364.
Построим график уравнения
регрессии. Для этого в третью строчку таблицы введем значения функции в
заданных точках Х (первая строка) – у(х1). Для получения этих
значений используются функция ТЕНДЕНЦИЯ категории «Статистические». Вводим в А3
подпись «Y(X) и, поместив курсор в В3, вызываем функцию ТЕНДЕНЦИЯ. В полях
«Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-K2 и В1-K1. в
поле «Нов_знач_х» вводим также ссылку на В1-K1. в поле «Константа» вводят 1, если уравнение регрессии
имеет вид y=ax+b, и 0, если у=ах. В нашем случае вводим
единицу. Функция ТЕНДЕНЦИЯ является массивом, поэтому для вывода всех ее
значений выделяем область В3-K3 и
нажимаем F2 и Ctrl+Shift+Enter. Результат – значения уравнения
регрессии в заданных точках. Строим график. Ставим курсор в любую свободную
клетку, вызываем мастер диаграмм, выбираем категорию «Точеная», вид графика –
линия без точек (в нижнем правом углу), нажимаем «Далее», в поле «Диагноз»
вводим ссылку на В3-K3. переходим на
закладку «Ряд» и в поле «Значения Х» вводим ссылку на В1-K1, нажимаем «Готово». Результат –
прямая линия регрессии. Посмотрим, как различаются графики опытных данных и
уравнения регрессии. Для этого ставим курсор в любую свободную ячейку, вызываем
мастер диаграмм, категория «График», вид графика – ломанная линия с точками
(вторая сверху левая), нажимаем «Далее», в поле «Диапазон» вводим ссылку на
вторую и третью строки В2-K3.
переходим на закладку «Ряд» и в поле «Подписи оси Х» вводим ссылку на В1-K1, нажимаем «Готово». Результат – две
линии (Синяя – исходные, красная – уравнение регрессии). Видно, что линии мало
различаются между собой.
а=
0,14303
b=
5,976364
Для вычисления
коэффициента корреляции rxy служит функция ПИРСОН. Размещаем
график так, чтобы они располагались выше 25 строки, и в А25 делаем подпись «Корреляция»,
в В25 вызываем функцию ПИРСОН, в полях которой «Массив 2» вводим ссылку на
исходные данные В1-K1 и В2-K2. результат 0,993821. коэффициент
детерминации Rxy – это квадрат коэффициента корреляции
rxy. В А26 делаем подпись
«Детерминация», а в В26 – формулу «=В25*В25». Результат 0,265207.
Однако, в Excel существует одна функция, которая
рассчитывает все основные характеристики линейной регрессии. Это функция
ЛИНЕЙН. Ставим курсор в В28 и вызываем функцию ЛИНЕЙН, категории
«Статистические». В полях «Изв_знач_у» и «Изв_знач_х» даем ссылку на В2-K2 и В1-K1. поле «Константа» имеет тот же смысл, что и функции
ТЕНДЕНЦИЯ, у нас она равна 1. поле «Стат» должно содержать 1, если нужно
вывести полную статистику о регрессии. В нашем случае ставим туда единицу.
Функция возвращает массив размеров 2 столбца и 5 строк. После ввода выделяем
мышью ячейку В28-С32 и нажимаем F2 и Ctrl+Shift+Enter.
Результат – таблица значений, числа в которой имеют следующий смысл:
Коэффициент а
Коэффициент b
Стандартная ошибка mo
Стандартная ошибка mh
Коэффициент детерминации Rxy
Среднеквадратическое отклонение у
F – статистика
Степени свободы n-2
Регрессионная сумма квадратов Sn2
Остаточная сумма квадратов Sn2
0,14303
5,976364
0,183849
0,981484
0,070335
1,669889
0,60525
8
1,687758
22,30824
Анализ результата: в
первой строчке – коэффициенты уравнения регрессии, сравните их с рассчитанными
функциями НАКЛОН и ОТРЕЗОК. Вторая строчка – стандартные ошибки коэффициентов.
Если одна из них по модулю больше, чем сам коэффициент, то коэффициент
считается нулевым. Коэффициент детерминации характеризует качество связи между
факторами. Полученное значение 0,070335 говорит об очень хорошей связи
факторов, F – статистика проверяет гипотезу о
адекватности регрессионной модели. Данное число нужно сравнить с критическим
значением, для его получения вводим в Е33 подпись «F-критическое», а в F33 функцию FРАСПОБР,
аргументами которой вводим соответственно «0,05» (уровень значимости), «1»
(число факторов Х) и «8» (степени свободы).
F-критическое
5,317655
Видно, что F-статистика меньше, чем F-критическое, значит, регрессионная
модель не адекватна. В последней строке приведены регрессионная сумма квадратов
и остаточные суммы
квадратов . Важно, чтобы
регрессионная сумма (объясненная регрессией) была намного больше остаточной (не
объясненная регрессией, вызванная случайными факторами). В нашем случае это
условие не выполняется, что говорит о плохой регрессии.
Вывод:В ходе работы я освоил методы построения линейного
уравнения парной регрессии с помощью ЭВМ, научился получать и анализировать
основные характеристики регрессионного уравнения.
Лабораторная
работа № 4
НЕЛИНЕЙНАЯ
РЕГРЕССИЯ
Цель: освоить методы построения основных
видов нелинейных уравнений парной регрессии с помощью с помощью ЭВМ (внутренне
линейные модели), научиться получать и анализировать показатели качества
регрессионных уравнений.
Рассмотрим случай, когда
нелинейные модели с помощью преобразования данных можно свести к линейным
(внутренне линейные модели).
ПРИМЕР. Построить уравнение регрессии у
= f(х) для выборки хп уп
(f = 1,2,…,10). В качестве f(х) рассмотреть четыре типа
функций – линейная, степенная, показательная и гиперболу:
у = Ах + В; у
= АхВ; у = АеВх; у = А/х + В.
Необходимо найти их
коэффициенты А и В, и сравнив показатели качества, выбрать
функцию, которая наилучшим образом описывает зависимость.
Прибыль Y
0,3
1,2
2,8
5,2
8,1
11,0
16,8
16,9
24,7
29,4
Прибыль X
0,25
0,50
0,75
1,00
1,25
1,50
1,75
2,00
2,25
2,50
Введем данные в таблицу
вместе с подписями (ячейки A1-K2). Оставим свободными три строчки
ниже таблицы для ввода преобразованных данных, выделим первые пять строк,
проведя по левой серой границе по числам от 1 до 5 и выбрать какой-либо цвет
(светлый – желтый или розовый) раскрасить фон ячеек. Далее, начиная с A6, выводим параметры линейной
регрессии. Для этого в ячейку A6
делаем подпись «Линейная» и в соседнюю ячейку B6 вводим функцию ЛИНЕЙН. В полях «Изв_знач_x» даем ссылку на B2-K2 и B1-K1, следующие два поля принимают
значения по единице. Далее обводим область ниже в 5 строчек и левее в 2 строки и
нажимаем F2 и Ctrl+Shift+Enter. Результат - таблица с параметрами
регрессии, из которых наибольший интерес представляет коэффициент детерминации
в первом столбце третий сверху. В нашем случае он равен R1 = 0,951262. Значение F-критерия, позволяющего проверить
адекватность модели F1 = 156,1439
(четвертая строка,
первый столбец). Уравнение регрессии равно
y = 12,96x +6,18 (коэффициенты a и b приведены в ячейках B6 и C6).
Линейная
12,96
-6,18
1,037152
1,60884
0,951262
2,355101
156,1439
8
866,052
44,372
Определим аналогичные
характеристики для других регрессий и в результате сравнения коэффициентов
детерминации найдем лучшую регрессионную модель. Рассмотрим гиперболическую
регрессию. Для ее получения преобразуем данные. В третьей строке в ячейку A3 введем подпись «1/x» а в ячейку B3 введем формулу «=1/B2». Растянем автозаполнением данную ячейку на область B3-K3. Получим характеристики регрессионной модели. В ячейку А12
введем подпись «Гипербола», а в соседнюю функцию ЛИНЕЙН. В полях «Изв_знач_y» и «Изв_знач_x2 даем ссылку на B1-K1 и преобразованные данные аргумента x – B3-K3, следующие два
поля принимают значения по единице. Далее обводим область ниже 5 строчек и
левее в 2 строки и нажимаем F2 и Ctrl+Shift+Enter.
Получаем таблицу параметров регрессии. Коэффициент детерминации в данном случае
равен R2 = 0,475661, что намного хуже, чем в случае линейной
регрессии. F-статистика равна F2 = 7,257293. Уравнение регрессии равно y = -6,25453x18,96772.
Гипербола
-6,25453
18,96772
2,321705
3,655951
0,475661
7,724727
7,257293
8
433,0528
477,3712
Рассмотрим
экспоненциальную регрессию. Для ее линеаризации получаем уравнение , где ỹ = ln y, ã = b, = ln a. Видно, что надо сделать преобразование данных – yзаменить на ln y. Ставим курсор в ячейку А4 и делаем заголовок «ln y». Ставим курсор в В4 и вводим формулу LN (категория «Математические»). В качестве
аргумента делаем ссылку на В1. Автозаполнением распространяем формулу на четвертую
строку на ячейки В4-K4. Далее в ячейке
F6 задаем подпись «Экспонента» и в
соседней G6 вводим функцию ЛИНЕЙН, аргументами
которой будут преобразованные данные В4-K4 (в поле «Изв_знач_y»), а остальные поля такие же как и для случая
линейной регрессии (B2-K2, 1, 1). Далее обводим ячейки G6-H10 и нажимаем F2 и Ctrl+Shift+Enter.
Результат R3 = 0,89079, F3 = 65,25304,
что говорит об очень хорошей регрессии. Для нахождения коэффициентов уравнения
регрессии b = ã; ставим курсор в J6 и делаем заголовок «а=», а в
соседней К6 формулу «=ЕХР(Н6)», в J7 даем заголовок «b=», а
в К7 формулу «=G6». Уравнение
регрессии есть y = 0,511707· e 6,197909x.
Экспонента
1,824212
-0,67
a=
0,511707
0,225827
0,350304
b=
6,197909
0,89079
0,512793
65,25304
8
17,15871
2,103652
Рассмотрим степенную
регрессию. Для ее линеаризации получаем уравнение ỹ = ã, где ỹ = ln y, = ln x, ã = b, = ln a. Видно, что надо сделать преобразование данных – y заменить на ln y и x
заменить на ln x. Строчка с ln y у нас уже есть. Преобразуем переменные х. В
ячейку А5 даем подпись «ln x», а в В5 и вводим формулу LN (категория «Математические»). В
качестве аргумента делаем ссылку на В2. Автозаполнением распространяем формулу
на пятую строку на ячейки B5-K5. Далее в ячейке F12 задаем подпись «Степенная» и в
соседней G12 вводим функцию ЛИНЕЙН, аргументами
которой будут преобразованные данные B4-K4 (в поле «Изв_знач_у»), и B5-K5 (в поле «Изв_знач_х»), остальные поля – единицы.
Далее освободим ячейки G12-H16 и нажимаем F2 и Ctrl+Shift+Enter. Результат R4 = 0,997716, F4 = 3494,117, что говорит об хорошей
регрессии. Для нахождения коэффициентов уравнения регрессии b = ã; ставим курсор в J12 и делаем заголовок «а=», а в
соседней К12 формулу «=ЕХР(Н12)», в J13 даем заголовок «b=», а
в К13 формулу «=G12». Уравнение
регрессии есть у = 4,90767/х+ 7,341268.
Степенная
1,993512
1,590799
a=
4,90767
0,033725
0,023823
b=
7,341268
0,997716
0,074163
3494,117
8
19,21836
0,044002
Проверим, все ли
уравнения адекватно описывают данные. Для этого нужно сравнить F-статистики каждого критерия с
критическим значением. Для его получения вводим в А21 подпись «F-критическое», а в В21 функцию FРАСПОБР, аргументами которой вводим
соответственно «0,05» (уровень значимости), «1» (число факторов Х в строке «Уровень
значимости 1») и «8» (степень свободы 2 = n – 2). Результат 5,317655. F – критическое больше F – статистики значит модель адекватна. Также адекватны и
остальные регрессии. Для того, чтобы определить, какая модель наилучшим образом
описывает данные, сравним индексы детерминации для каждой модели R1, R2, R3, R4. Наибольшим является R4 = 0,997716. Значит опытные данные лучше описывать у
= 4,90767/х+ 7,341268.