NetNado
  Найти на сайте:

Учащимся

Учителям



Учебное пособие по курсу «Математика»

ТЕМА 2.4. Однофакторный дисперсионный анализ
2.4.1. Понятие о дисперсионном анализе
Пусть генеральные совокупности распределены нормально и имеют одинаковую, хотя и неизвестную дисперсию; математические ожидания также неизвестны, но могут быть различными. Требуется при заданном уровне значимости α по выборочным средним проверить нулевую гипотезу о равенстве всех математических ожиданий: .

Казалось бы, что для решения поставленной задачи, т.е. для сравнения нескольких средних (p > 2), достаточно сравнить их попарно по методике подраздела 2.3.2 настоящего пособия. Однако с возрастанием числа средних возрастает и разброс различий между ними. По этой причине для сравнения нескольких средних пользуются методом, основанным на сравнении дисперсий и поэтому называемым дисперсионным анализом.

На практике дисперсионный анализ применяют, чтобы установить, оказывает ли существенное влияние некоторый качественный фактор , который имеет уровней на изучаемую величину Х. Например, если требуется выяснить, какой именно вид удобрений наиболее эффективен для получения наибольшего урожая с участков одинаковой площади, то фактором будет удобрение, а его уровнями – виды удобрения.

Основная идея дисперсионного анализа состоит в сравнении «факторной» дисперсии, обусловленной воздействием только самого фактора, и «остаточной» дисперсии, обусловленной случайными причинами. Если различие между этими дисперсиями значимо, то фактор оказывает ощутимое влияние на величину Х, и в этом случае средние значений, наблюдаемых на каждом уровне фактора (групповые средние) различаются также значимо.

При этом, если установлено, что фактор оказывает существенное влияние на величину Х, и требуется выяснить, какой именно уровень фактора оказывает наибольшее воздействие, то проводят дополнительно попарное сравнение групповых средних по методике подраздела 2.3.2.
2.4.2. Факторная и остаточная дисперсии и их отыскание
Пусть на количественный нормально распределенный признак X воздействует фактор , который имеет p постоянных уровней. Будем полагать, что число наблюдений на каждом уровне равно q. Пусть наблюдалось всего значений признака X, где: номер испытания, номер уровня фактора. Пусть также известны значения групповых средних: , а также значение общей средней: .
Общей суммой квадратов отклонений измеренных значений от общей средней называется величина, определяемая формулой:
.
Факторной суммой квадратов отклонений групповых средних от общей средней называется величина, определяемая формулой:

.
Остаточной суммой квадратов отклонений наблюдаемых значений от групповых средних называется величина, определяемая формулой:

.
Замечание 1. На практике обычно остаточную сумму квадратов отклонений находят не по приведенной формуле, а как разность общей и факторной сумм квадратов отклонений, т.е. по формуле: .

Замечание 2. С помощью элементарных преобразований можно получить формулы, гораздо более удобные для практических расчетов и имеющие вид:

,

где: и рассчитываются для каждого уровня фактора , а .
Введенные нами величины имеют вполне определенный смысл. Так сумма является характеристикой воздействия фактора на признак X. Действительно, допустим, что фактор оказывает существенное влияние на признак X, тогда группа наблюдаемых значений признака на одном определенном уровне фактора, вообще говоря, будет отличаться от групп наблюдаемых значений признака на других уровнях фактора. Следовательно, будут различаться и групповые средние, причем они будут тем больше рассеяны вокруг общей средней, чем большим окажется воздействие фактора.

Сумма отражает влияние случайных воздействий на результаты наблюдений. Действительно, казалось бы, наблюдения одной группы не должны различаться между собой. Однако на признак X кроме фактора воздействуют и другие (в общем случае многочисленные и малозначащие) случайные факторы, поэтому наблюдения одной и той же группы оказываются различными, а, следовательно, рассеянными вокруг групповой средней.

Подсчитав общую и факторную суммы по приведенным выше формулам, а остаточную сумму – по любой из приведенных формул, можно найти факторную и остаточную дисперсии.

Учитывая, что факторная дисперсия зависит от р составляющих и является смещенной оценкой, формулу для исправленной факторной дисперсии запишем в виде:
.

Остаточная дисперсия зависит от составляющих и также является смещенной оценкой, поэтому формулу для исправленной остаточной дисперсии запишем в виде:
.
2.4.3. Сравнение нескольких средних методом дисперсионного анализа
Вернемся теперь к сформулированной в подразделе 2.4.1 задаче: при заданном уровне значимости проверить нулевую гипотезу о равенстве нескольких средних (назовем их групповыми средними) нормальных генеральных совокупностей с неизвестными, но одинаковыми, дисперсиями.

Пусть нулевая гипотеза о равенстве групповых средних верна. Тогда исправленные факторная и остаточная дисперсии, являющиеся несмещенными оценками одной и той же неизвестной генеральной дисперсии (одинаковой для всех групп), будут различаться незначимо. Если сравнить эти оценки с помощью критерия Фишера-Снедекора (см. подраздел 2.3.3), то критерий укажет, что нулевую гипотезу о равенстве факторной и остаточной дисперсий следует принять. Таким образом, если гипотеза о равенстве групповых средних верна, то верна и гипотеза о равенстве факторной и остаточной дисперсий.

Пусть нулевая гипотеза о равенстве групповых средних не верна. Тогда по мере возрастания расхождений между групповыми средними будет возрастать и факторная дисперсия, а вместе с ней будет возрастать и ее отношение к остаточной дисперсии, т.е. величина: . В итоге окажется, что и, следовательно, гипотеза о равенстве факторной и остаточной дисперсии будет отвергнута.

Таким образом, чтобы проверить нулевую гипотезу о равенстве групповых средних нескольких нормальных генеральных совокупностей с неизвестными, но одинаковыми, дисперсиями, достаточно проверить с помощью критерия Фишера-Снедекора нулевую гипотезу о равенстве факторной и остаточной дисперсий.

При этом, если нулевая гипотеза о равенстве факторной и остаточной дисперсии верна, то случайная величина , называемая дисперсионным отношением и определяемая формулой:
,

имеет распределение Фишера-Снедекора с и степенями свободы. Проверка этой гипотезы осуществляется по методике подраздела 2.3.3.
Пусть известно, что фактор оказывает влияние на результативный признак . Для измерения степени этого влияния используют выборочный коэффициент детерминации, равный:
.

Он показывает, какая доля общей дисперсии объясняется зависимостью результативного признака от фактора .
ПРИМЕР: В таблице приведены данные по объемам работ, выполненных за смену для четырех бригад. Для приведенных данных для уровня значимости 0,05 проверьте нулевую гипотезу о равенстве групповых средних: .

Номер бригады

Объем выполненной работы




1

140 144 142 145

142,75

3,69

2

150 149 152 152

150,25

1,19

3

148 149 146 147

147,50

1,25

4

150 155 154 152

152,75

3,69


Для проверки нулевой гипотезы вычислим суммы и , для чего вначале вычислим общую выборочную среднюю:
.

Затем:

Теперь найдем соответствующие исправленные дисперсии:


и наблюдаемое значение критерия Фишера-Снедекора:
.

По таблицам критических точек распределения Фишера-Снедекора для и степеней свободы найдем . Поскольку , нулевую гипотезу отвергаем, т.е. объем ежедневной сменной выработки зависит от работающей бригады. Оценим степень этой зависимости с помощью коэффициента детерминации. Для этого найдем: и вычислим:

.

Полученный результат означает, что 84,9% общей вариации ежедневного объема выработки связано с работающей бригадой.

Рекомендуемая литература по теме 2.4: [2, 4].

ВОПРОСЫ:


  1. На какие слагаемые разбивается общая сумма квадратов отклонений в модели дисперсионного анализа?


  1. Какой критерий используется для проверки гипотезы о равенстве групповых средних в дисперсионном анализе?


  1. Какой величиной измеряется степень влияния фактора на результативный признак?


ТЕМА 2.5. Корреляционно-регрессионный анализ
Как показано в подразделе 1.5.4 настоящего пособия, две случайные величины Х и Y могут быть связаны функциональной зависимостью, когда связь между ними может быть представлена в виде формулы , либо зависимостью другого рода, называемой стохастической, либо могут быть независимыми.

Строгая функциональная зависимость на практике реализуется сравнительно редко, поскольку либо обе рассматриваемые величины, или какая-то одна из них, подвержены воздействию многочисленных случайных факторов, среди которых могут быть и общие для обеих величин. В этом случае возникает стохастическая зависимость, которую в некоторых руководствах называют вероятностной, или статистической.

Стохастической называется зависимость двух случайных величин, при которой изменение одной из величин влечет изменение распределения другой величины.

Корреляционной называется стохастическая зависимость двух случайных величин, при которой изменение одной из величин влечет изменение среднего значения (математического ожидания) другой величины.
ПРИМЕР: Если величина Y – урожай сельскохозяйственной культуры, а величина Х – количество внесенных в почву удобрений, то с одинаковых по площади участков земли при равных количествах внесенных удобрений в общем случае снимают различный урожай, т.е. величина Y не является функцией аргумента Х. Это объясняется воздействием случайных факторов: осадки, качество почвы и т.д.. Однако, как показывают опыты, средний урожай (по всем участкам) зависит от количества внесенных удобрений, т.е. рассматриваемые величины связаны корреляционной зависимостью.
Поскольку условное математическое ожидание величины Y при постоянном значении величины Х, т.е. является функцией от , то его оценка – условное среднее также является функцией от . Если обозначить эту функцию через , то получим уравнение , которое называется выборочным уравнением регрессии Y на Х.
Заметим, что из аналогичных рассуждений можно определить и выборочное уравнение регрессии Х на Y.
Основной задачей корреляционно-регрессионного анализа является выявление наличия и характера связи между переменными Х и Y, определение параметров функции регрессии, а также количественная оценка тесноты этой связи.
2.5.1. Формы представления исходных для анализа данных
Простейшим случаем представления исходных данных являются не сгруппированные данные, т.е. набор пар чисел , где есть выборка значений величины Х, а есть выборка значений величины Y.
Однако при сравнительно большом числе наблюдений одна и та же пара значений может встречаться несколько раз. Поэтому в таких случаях данные наблюдений группируют и представляют в виде корреляционной таблицы. Поясним структуру такого представления исходных данных на конкретном примере.

Для исследования зависимости годового объема производства Y от основных фондов Х получены статистические данные по 20 предприятиям, представленные в корреляционной таблице 2.1.
Таблица 2.1.



12,5

17,5

22,5

27,5



20,5

1

-

-

-

1

21,5

-

2

-

-

2

22,5

-

1

2

-

3

23,5

-

-

3

3

6

24,5

-

-

-

8

8



1

3

5

11

n = 20


В первой строке таблицы записаны значения переменной Х, а в первом столбце – значения переменной Y. Центральную выделенную часть таблицы занимают частоты (числа предприятий), соответствующие значениям переменных и . В последней строке таблицы записаны частоты , а в последнем столбце – частоты . Здесь число значений величины Х: , а число значений величины Y: . При этом общее число всех значений .
2.5.2. Выборочный коэффициент корреляции
Основной оценкой для тесноты связи между переменными величинами Х и Y служит выборочный коэффициент корреляции, который определяется формулой:


.


Свойства выборочного коэффициента корреляции аналогичны свойствам коэффициента корреляции случайных величин Х и Y.
Свойства выборочного коэффициента корреляции


  1. Выборочный коэффициент корреляции может принимать значения на отрезке , т.е. . При этом в зависимости от значений различают слабую, умеренную и сильную связь, т.е. чем ближе к единице, тем теснее связь.

  2. Если , то корреляционная связь между Х и Y представляет собой функциональную линейную зависимость.


Запишем более подробные формулы для вычисления коэффициента корреляции для случая сгруппированных (представленных в виде корреляционной таблицы) данных.

,

Если данные не сгруппированы, то приведенные формулы значительно упрощаются:
,

Поскольку значение вычисляется по данным выборки, то, в отличие от генерального коэффициента корреляции ρ, является величиной случайной. Если получено , то возникает вопрос, объясняется ли это действительно существующей корреляционной связью между Х и Y или вызвано случайными факторами. Для выяснения значимости коэффициента корреляции проверяется нулевая гипотеза об отсутствии корреляционной связи между изучаемыми признаками, т.е. . При справедливости этой гипотезы статистика:

имеет распределение Стьюдента с степенями свободы. Поэтому нулевая гипотеза отвергается, если , где значение находится по таблицам критических точек распределения Стьюдента для уровня значимости α и числа степеней свободы .
ПРИМЕР: По данным таблицы 2.1 предыдущего подраздела найти выборочный коэффициент корреляции и проверить его значимость на уровне .

Для вычисления всех сумм, входящих в формулу выборочного коэффициента корреляции в случае сгруппированных данных, составим и заполним вспомогательную вычислительную таблицу.




















1

12,5

1

20,5

1

12,5

20,5

156,25

420,25

2

17,5

3

21,5

2

52,5

43,0

918,75

924,5

3

22,5

5

22,5

3

112,5

67,5

2531,25

1518,75

4

27,5

11

23,5

6

302,5

141,0

8318,75

3313,5

5

-

-

24,5

8

-

196,0

-

4802,0



-

-

-

-

480,0

468,0

11925,0

10979,0


Таким образом, найдены следующие суммы:

.

Найдем еще одну сумму:

Подставляя полученные значения сумм в соответствующую формулу, найдем значение выборочного коэффициента корреляции:

Проверим значимость на уровне , для чего вычислим наблюдаемое значение критерия Стьюдента:
,

а по таблицам критических точек распределения Стьюдента при и найдем . Поскольку , считаем полученное значение коэффициента корреляции значимым.

2.5.3. Выборочное корреляционное отношение
Рассмотренный ранее выборочный коэффициент корреляции является показателем тесноты корреляционной связи только в том случае, когда эта связь носит линейный характер. Однако, существует показатель тесноты корреляционной связи любого характера, в том числе и линейного.

Выборочным корреляционным отношением Y к Х называется отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению величины Y, т.е.:
,

где межгрупповое среднее квадратическое отклонение определяется формулой:

,

а общее среднее квадратическое отклонение – формулой:
,

где, в свою очередь, групповые средние определяются по формуле:
.
Межгрупповая дисперсия определяет ту часть общей дисперсии величины Y, которая обусловлена изменчивостью величины Х. Поэтому, чем теснее связь, тем большее влияние на вариацию Y оказывает изменчивость Х и, следовательно, тем большие значения принимает выборочное корреляционное отношение.
Перечислим основные свойства выборочного корреляционного отношения:

  1. Выборочное корреляционное отношение удовлетворяет двойному неравенству .

  2. Если , то корреляционная связь между Y и Х отсутствует.

  3. Если , то между Y и Х существует функциональная зависимость.

  4. Выборочное корреляционное отношение не меньше модуля выборочного коэффициента корреляции, т.е. .

  5. Если выборочное корреляционное отношение равно абсолютной величине выборочного коэффициента корреляции, то имеет место линейная корреляционная связь между Y и Х.


ПРИМЕР: По данным таблицы 2.1 подраздела 2.5.1 найти выборочное корреляционное отношение.

Вначале по соответствующим формулам найдем групповые средние и общую среднюю:


Затем найдем межгрупповую и общую дисперсии:

Наконец, найдем выборочное корреляционное отношение:
.
Поскольку найденное выборочное корреляционное отношение практически равно значению выборочного коэффициента корреляции, найденному в примере предыдущего подраздела , корреляционную связь следует считать линейной.
2.5.4. Линейная регрессия
Пусть в генеральной совокупности имеются две случайные величины X и Y, и пусть в результате формирования выборки получены n пар чисел . Поскольку есть некоторые основания полагать, что связь между этими величинами носит линейный характер, будем искать линейное выборочное уравнение регрессии Y на X в виде: .

Для определения параметров a и b используем систему нормальных уравнений по методу наименьших квадратов [12]:

Учитывая справедливость равенств:

решение этой системы можно записать в виде:

Коэффициент b в уравнении регрессии принято называть коэффициентом регрессии Y по Х и обозначать . Можно показать, что коэффициент регрессии связан с выборочным коэффициентом корреляции соотношением:
.
Линейное уравнение регрессии в математической статистике принято записывать в следующей форме:
.
2.5.5. Статистический анализ уравнения регрессии
Для того чтобы установить, соответствует ли выбранная регрессионная модель экспериментальным данным, используют основное уравнение дисперсионного анализа, записанное в виде:
,

где: общая сумма квадратов отклонений значений Y от общей средней, определяемая формулой:
,

сумма квадратов отклонений, обусловленная регрессией, определяемая формулой:

,

остаточная сумма квадратов, определяемая формулой:
.
В случае не сгруппированной выборки приведенные формулы для сумм несколько упрощаются и принимают вид:

Приведенные формулы позволяют найти соответствующие исправленные дисперсии:

,

где: число групп в корреляционной таблице или число оцениваемых параметров в не сгруппированной выборке, а n – число наблюдений.

Для заданного уровня значимости α и количеств степеней свободы по таблицам находим критическое значение критерия Фишера-Снедекора. Если для наблюдаемого значения критерия выполняется неравенство:
,

то уравнение регрессии считается значимым или соответствующим экспериментальным данным на уровне значимости α.

Воздействие неучтенных случайных факторов в линейной модели регрессии определяется остаточной дисперсией, оценкой которой является выборочная остаточная дисперсия .
ПРИМЕР: Для зависимости Y от Х, заданной корреляционной таблицей 2.1 подраздела 2.5.1, найти оценки параметров уравнения линейной регрессии, остаточную дисперсию, а также оценить значимость найденного уравнения регрессии при .

Воспользуемся результатами, полученными в примерах подразделов 2.5.1 ÷ 2.5.4:


С учетом формулы искомое уравнение регрессии можно записать в виде:

или: ,

но тогда: и .
Для выяснения значимости найденного уравнения регрессии вычислим суммы и , для чего составим и заполним расчетную таблицу:












12,5

20,62

1

7,73

0,0144

17,5

21,82

3

7,49

0,6672

22,5

23,04

5

0,65

1,2180

27,5

24,24

11

7,76

2,1836



-

20

23,63

4,0832


Таким образом, получены значения: и . В рассматриваемом случае и , поэтому найдем соответствующие исправленные дисперсии:
,
а также наблюдаемое значение критерия Фишера-Снедекора:
.

По таблицам критических точек распределения Фишера-Снедекора для уровня значимости и чисел степеней свободы: найдем критическую точку . Поскольку , полученное уравнение регрессии значимо, а остаточная (необъясненная) дисперсия равна: .
Рекомендуемая литература по теме 2.5: [2, 4, 8, 11].
ВОПРОСЫ:


  1. Какое различие между функциональной, стохастической и корреляционной зависимостями?



  1. Что записывается в последних строке и столбце корреляционной таблицы?



  1. Какой величиной характеризуется степень линейной зависимости между случайными величинами?


  1. Какой величиной характеризуется степень любой зависимости между случайными величинами?


  1. Какой коэффициент стоит при независимой переменной в уравнении линейной регрессии?



  1. С помощью какого критерия проверяется значимость линейного уравнения регрессии?


РАЗДЕЛ 3. ЭКОНОМИКО-МАТЕМАТИЧЕСКИЕ

МЕТОДЫ И МОДЕЛИ
Управление и планирование – наиболее сложные функции в работе предприятий, фирм, служб администраций всех уровней от села и поселка до экономического района, и от малого предприятия до министерства. Долгое время они являлись монополией человека с соответствующей подготовкой и опытом работы, а иногда и так называемого номенклатурного руководителя. Однако, процессы совершенствования науки, техники, разделения труда, а также, в последние десятилетия, процессы реформирования экономики в значительной степени усложнили принятие решений в управлении и планировании. Теперь, т.е. в современных условиях, от науки требуются обоснованные рекомендации по наилучшему (оптимальному) управлению и планированию.

Именно практические потребности и стали основой (фундаментом) для разработки специальных научных методов, которые принято объединять под названиями: математическое программирование, или исследование операций.

Замечание. Термин “программирование” возник задолго до его теперешнего значения – программирование на ЭВМ – в результате неудачного перевода на русский язык английского термина programmation”, что означает планирование, составление плана.

Человечество всегда стояло перед проблемой выбора. Испокон веку люди, приступая к реализации тех или иных своих идей, думали над их возможными последствиями, выбирая те из них, которые, по их мнению, дадут положительные результаты. Опирались они при таком анализе на свой опыт и здравый смысл.
ПРИМЕР: Человек выходит из дома для поездки на работу, или учебу. При этом, ему приходится принимать целый ряд решений: брать или не брать с собой зонтик, где переходить улицу, на каком виде транспорта ехать и т.д. и т.п.

Разумеется, все эти решения принимаются без всяких специальных расчетов, просто опираясь на опыт и здравый смысл. Да и в этом случае никакого научного обоснования не требуется. Однако существенно по иному обстоит дело в другом примере.
ПРИМЕР: Организуется работа городского транспорта при наличии ограниченного количества транспортных средств. Следует принять целый ряд решений: какое количество и каких транспортных средств направить по тому или иному маршруту; как составить расписание движения и в каких местах лучше разместить остановки транспортных средств и т.д. и т.п.

Очевидно, что такие решения гораздо более ответственны, чем решения предыдущего примера. Поскольку задача сложная и многогранная, последствия таких решений не так прозрачны и очевидны. Для их оценки одного здравого смысла явно недостаточно и требуется проведение некоторых расчетов. Но, самое главное, от этих решений гораздо больше зависит, поскольку неправильное решение в первом примере затрагивает интересы только одного человека, а во втором – может серьезно отразиться на деловой, да и не только деловой, жизни целого города.

При этом, чем сложнее мероприятие, чем больше в него предполагается вложить материальных средств, чем шире спектр его возможных последствий (как позитивных, так и негативных), тем менее допустимы волевые решения, не опирающиеся на научное обоснование. Тем большее значение получает совокупность научных методов, позволяющих заранее оценить последствия каждого решения, заранее отбросить недопустимые варианты и рекомендовать только те, которые наиболее удачны. Именно такими математическими расчетами и занимается наука «математическое программирование».

страница 1 ... страница 5страница 6страница 7страница 8страница 9 ... страница 12страница 13


скачать

Другие похожие работы: