Нормальное распределение по критерию пирсона. Проверка простых гипотез критерием хи-квадрат Пирсона в MS EXCEL

Бытовая техника 15.04.2019

Бытовая техника

Лабораторная работа №6. Проверка гипотезы о нормальном распределении выборки по критерию Пирсона.

Лабораторная работа выполняется в Excel 2007.

Цель работы – дать навыки первичной обработки данных, построении гистограмм, подборе подходящего закона распределения и вычислении его параметров, проверка согласия между эмпирическим и гипотетическим законом распределения по критерию хи-квадрат Пирсона средствами Excel.

1. Формирование выборки нормально распределенных случайных чисел с заданными значениями математического ожидания и среднего квадратического отклонения.

Данные → Анализ данных → Генерация случайных чисел → ОК .

Рис. 1. Диалоговое окно Анализ данных

В появившемся окне Генерация случайных чисел ввести:

Число переменных: 1 ;

Число случайных чисел: 100 ;

Распределение: Нормальное .

Параметры:

Среднее = 15 (математическое ожидание);

Стандартное отклонение = 2 (среднее квадратическое отклонение);

Случайное рассеивание: не заполнять (или заполнить по указанию преподавателя );

Выходной интервал: адрес первой ячейки столбца массива случайных чисел - $ A $1 . ОК .

Рис. 2. Диалоговое окно Генерация случайных чисел с заполненными полями ввода

В результате выполнения операции Генерация случайных чисел появится столбец $ A $1: $A$100 , содержащий 100 случайных чисел.

Рис. 3. Фрагмент листа Excel первых нескольких случайных чисел $A$1: $A$100.

2. Определение параметров выборки, описательные статистики

В главном меню Excel выбрать: Данные → Анализ данных → Описательная статистика → ОК .

В появившемся окне Описательная статистика ввести:

Входной интервал – 100 случайных чисел в ячейках $ A $1: $ A $100 ;

Группирование - по столбцам;

Выходной интервал – адрес ячейки, с которой начинается таблица Описательная статистика - $ C $1 ;

Итоговая статистика – поставить галочку. ОК.

Рис. 4. Диалоговое окно Описательная статистика с заполненными полями ввода.

На листе Excel появится таблица – Столбец 1

Рис. 5. Таблица Столбец 1 с данными процедуры Описательная статистика .

Таблица содержит описательные статистики, в частности:

Среднее – оценка математического ожидания;

Стандартное отклонение – оценка среднего квадратического отклонения;

Эксцесс и Асимметричность – оценки эксцесса и асимметрии.

Приблизительное равенство нулю оценок эксцесса и асимметрии, и приблизительное равенство оценки среднего оценке медианы дает предварительное основание выбрать в качестве основной гипотезы H 0 распределения элементов генеральной совокупности - нормальный закон.

Интервал – размах выборки;

Минимум – минимальное значение случайной величины в выборке;

Максимум – максимальное значение случайной величины в выборке.

В ячейке F 15 - длина частичного интервала h , вычисленная следующим образом:

Число интервалов группировки k в Excel вычисляется автоматически по формуле

где, скобки означают – округление до целой части числа в меньшую сторону.

В рассматриваемом варианте n = 100 , следовательно, k = 11 . Действительно:

Эта формула занесена в ячейку F 15: =($D$13-$D$12)/10

Результаты процедуры Описательная статистика потребуются в дальнейшем при построении теоретического закона распределения.

Функция ПИРСОН (вводить следует PEARSON на английском) предназначена для вычисления коэффициента корреляции Пирсона r . Данную функцию используют в работе в том случае, когда необходимо отразить степень линейной зависимости между двумя массивами данных. В Excel имеется несколько функций с помощью которых можно получить такой же результат, однако универсальность и простота функции Пирсон делают выбор в ее пользу.

Как работает функция ПИРСОН в Excel?

Рассмотрим пример расчета корреляции Пирсона между двумя массивами данных при помощи функции PEARSON в MS EXCEL. Первый массив представляет собой значения температур, второй давление в определенный летний период. Пример заполненной таблицы изображен на рисунке:

Задача следующая: необходимо определить взаимосвязь между температурой и давлением за июнь месяц.

Пример решения с функцией ПИРСОН при анализе в Excel

Данный показатель -0,14 по Пирсону, который вернула функция, говорит об неблагоприятной зависимости температуры и давления в раннее время суток.

Функция ПИРСОН пошаговая инструкция

Коэффициент корреляции является самым удобным показателем сопряженности количественных признаков.

Задача: Определить линейный коэффициент корреляции Пирсона.

Пример решения:

Таким образом, по результату вычисления статистическим выводом эксперимента выявлена отрицательная зависимость между возрастом и количеством выкуренных сигарет в день.

Корреляционный анализ по Пирсону в Excel

Задача: школьникам были даны тесты на наглядное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач?

Пример решения: представим исходные данные в виде таблицы:

Интерпретация результата вычисления по Пирсону

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно, произошла ошибка в вычислениях.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости. Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости.

Ширина интервала составит:

Xmax - максимальное значение группировочного признака в совокупности.
Xmin - минимальное значение группировочного признака.
Определим границы группы.

Номер группы	Нижняя граница	Верхняя граница
1	43	45.83
2	45.83	48.66
3	48.66	51.49
4	51.49	54.32
5	54.32	57.15
6	57.15	60

Одно и тоже значение признака служит верхней и нижней границами двух смежных (предыдущей и последующей) групп.
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

43	43 - 45.83	1
48.5	45.83 - 48.66	1
49	48.66 - 51.49	1
49	48.66 - 51.49	2
49.5	48.66 - 51.49	3
50	48.66 - 51.49	4
50	48.66 - 51.49	5
50.5	48.66 - 51.49	6
51.5	51.49 - 54.32	1
51.5	51.49 - 54.32	2
52	51.49 - 54.32	3
52	51.49 - 54.32	4
52	51.49 - 54.32	5
52	51.49 - 54.32	6
52	51.49 - 54.32	7
52	51.49 - 54.32	8
52	51.49 - 54.32	9
52.5	51.49 - 54.32	10
52.5	51.49 - 54.32	11
53	51.49 - 54.32	12
53	51.49 - 54.32	13
53	51.49 - 54.32	14
53.5	51.49 - 54.32	15
54	51.49 - 54.32	16
54	51.49 - 54.32	17
54	51.49 - 54.32	18
54.5	54.32 - 57.15	1
54.5	54.32 - 57.15	2
55.5	54.32 - 57.15	3
57	54.32 - 57.15	4
57.5	57.15 - 59.98	1
57.5	57.15 - 59.98	2
58	57.15 - 59.98	3
58	57.15 - 59.98	4
58.5	57.15 - 59.98	5
60	57.15 - 59.98	6

Результаты группировки оформим в виде таблицы:

Группы	№ совокупности	Частота fi
43 - 45.83	1	1
45.83 - 48.66	2	1
48.66 - 51.49	3,4,5,6,7,8	6
51.49 - 54.32	9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26	18
54.32 - 57.15	27,28,29,30	4
57.15 - 59.98	31,32,33,34,35,36	6

Таблица для расчета показателей.

Группы	x i	Кол-во, f i	x i * f i	Накопленная частота, S	\|x - x ср \|*f	(x - x ср) 2 *f	Частота, f i /n
43 - 45.83	44.42	1	44.42	1	8.88	78.91	0.0278
45.83 - 48.66	47.25	1	47.25	2	6.05	36.64	0.0278
48.66 - 51.49	50.08	6	300.45	8	19.34	62.33	0.17
51.49 - 54.32	52.91	18	952.29	26	7.07	2.78	0.5
54.32 - 57.15	55.74	4	222.94	30	9.75	23.75	0.11
57.15 - 59.98	58.57	6	351.39	36	31.6	166.44	0.17
		36	1918.73		82.7	370.86	1

Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения .
Средняя взвешенная

Мода
Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.

где x 0 – начало модального интервала; h – величина интервала; f 2 –частота, соответствующая модальному интервалу; f 1 – предмодальная частота; f 3 – послемодальная частота.
Выбираем в качестве начала интервала 51.49, так как именно на этот интервал приходится наибольшее количество.

Наиболее часто встречающееся значение ряда – 52.8
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина - больше.
В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 51.49 - 54.32, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).

Таким образом, 50% единиц совокупности будут меньше по величине 53.06
Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 60 - 43 = 17
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.

Каждое значение ряда отличается от другого не более, чем на 2.3
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Несмещенная оценка дисперсии - состоятельная оценка дисперсии.

Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 53.3 не более, чем на 3.21
Оценка среднеквадратического отклонения .

Относительные показатели вариации .
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение.
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины.

Проверка гипотез о виде распределения .
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где p i - вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей p i применим формулу и таблицу функции Лапласа

где
s = 3.21, x ср = 53.3
Теоретическая (ожидаемая) частота равна n i = np i , где n = 36

Интервалы группировки	Наблюдаемая частота n i	x 1 = (x i - x ср)/s	x 2 = (x i+1 - x ср)/s	Ф(x 1)	Ф(x 2)	Вероятность попадания в i-й интервал, p i = Ф(x 2) - Ф(x 1)	Ожидаемая частота, 36p i	Слагаемые статистики Пирсона, K i
43 - 45.83	1	-3.16	-2.29	-0.5	-0.49	0.01	0.36	1.14
45.83 - 48.66	1	-2.29	-1.42	-0.49	-0.42	0.0657	2.37	0.79
48.66 - 51.49	6	-1.42	-0.56	-0.42	-0.21	0.21	7.61	0.34
51.49 - 54.32	18	-0.56	0.31	-0.21	0.13	0.34	12.16	2.8
54.32 - 57.15	4	0.31	1.18	0.13	0.38	0.26	9.27	3
57.15 - 59.98	6	1.18	2.06	0.38	0.48	0.0973	3.5	1.78
	36							9.84

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }