4. Выборочное среднее квадратическое отклонение
12. Доверительный интервал для оценки математического ожидания М нормального распределения при неизвестном σ (по найденному S или Dв) при повторном и бесповторном отборе соответственно
(для n < 30), где tγ = t(γ, n) по Приложению 3, стр. 391, [1]
, где 2Ф(t) = γ.
_______________________________________________________________________________________________
8.2.1.
Выборочный метод и статистическое оценивание.
8.2.1-1.
Выборка задана в виде распределения частот:
xᵢ 4 7 8
12
nᵢ 5 2 3
10
Найти распределение относительных частот.
Решение:
Найдём объём выборки: n = ∑nᵢ = 5 + 2 + 3 + 10 = 20. Найдём относительные частоты:
w₁ = n₁/n =
5/20 = 0,25; w₂ = n₂/n =
2/20 = 0,10; w₃ = n₃/n =
3/20 = 0,15; w₄ = n₄/n =
10/20 = 0,50.
Запишем искомое распределение относительных частот:
xᵢ 4 7 8
12
wᵢ 0,25
0,10 0,15 0,50
Контроль: ∑wᵢ =
0,25 + 0,10 + 0,15 + 0,50 = 1. Верно!
Ответ: xᵢ 4 7 8
12
wᵢ 0,25
0,10 0,15 0,50.
8.2.1-2. Найти минимальный объём выборки, при котором с надёжностью 0,925 точность оценки математического ожидания нормально распределённой генеральной совокупности по выборочной средней равна 0,2, если известно среднее квадратическое отклонение генеральной совокупности σ = 1,5.
Решение:
γ = 0,925
δ = 0,2
σ = 1,5
n – ?
Воспользуемся
формулой необходимого объёма выборки n при повторном отборе (см. (14) ):
n = t²σ²/δ². (*)
Так как 2Ф(t) = γ, ( Ф(t) –
функция Лапласа ), то 2Ф(t) = 0,925 и Ф(t) =
0,925/2 = 0,4625. По таблице функции Лапласа ( [1], стр. 389, Приложение 2 ) находим t =
1,78. Тогда по (*) получим искомый объём выборки n:
n =
1,78²·1,5²/0,2² = 178,2. Значит минимальный объём выборки nmin = 179.
Ответ: n = 179.
8.2.1-3. По
данным 16 независимых равноточных измерений некоторой физической величины
найдены
среднее арифметическое результатов измерений
= 42,8 и “исправленное” среднее
квадратическое отклонение S = 8. Оценить истинное значение измеряемой величины с
помощью доверительного интервала с надёжностью γ =
0,999. Предполагается, что результаты измерений распределены нормально.
Решение:
n = 16
= 42,8S = 8
γ =
0,999
(a <
М < b) − ?
Истинное значение измеряемой величины равно её математическому ожиданию М.
Задача сводится к оценке математического ожидания (при неизвестном среднем
квадратическом отклонении σ генеральной совокупности и объёме выборки n <
30) при помощи доверительного интервала ( см. (12) )
(1)
По таблице приложения 3 ([1], стр. 391) по
γ =
0,999 и n = 16
находим tᵧ =
4,07.
Имеем
=
4,07·8/4 = 8,14. Тогда по (1) находим
42,8 — 8,14 <
M < 42,8 + 8,14 или 34,66 < M <
50,94.
Ответ: 34,66 < M < 50,94.
8.2.1-4. Из
генеральной совокупности извлечена выборка:
варианта
xᵢ — 0,5
— 0,4 — 0,2 0 0,2 0,6 0,8 1 1,2 1,5
частота nᵢ 1 2 1
1 1 1 1 1 2 1
Оценить с надёжностью 0,95 математическое ожидание М нормально распределённого
признака генеральной совокупности с помощью доверительного интервала.
Решение:
γ =
0,95
(a <
М < b) − ?
Найдём объём выборки: n = ∑nᵢ = 1+2+1+1+1+1+1+1+2+1 = 12.
По формуле (2) находим выборочное среднее:
=
(1/12)(-0,5·1-0,4·2-0,2·1+0·1+0,2·1+0,6·1+0,8·1+1·1+1,2·2+1,5·1) = 0,417 =
0,42.
По формуле (3) находим выборочную дисперсию:
=
(1/12)( (-0,5-0,42)²·1+(-0,4-0,42)²·2+(-0,2-0,42)²·1+(0-0,42)²·1+(0,2-0,42)²·1+(0,6-0,42)²·1+(0,8-0,42)²·1+(1-0,42)²·1+(1,2-0,42)²·2+(1,5-0,42)²·1 ) = 0,4747.
По формуле (9) находим “исправленное” среднее квадратическое отклонение S:
Искомый
доверительный интервал (при неизвестном среднем квадратическом отклонении σ
генеральной совокупности и объёме выборки n <
30) определим по формуле (12)
(1)
По таблице приложения 3 ( [1], стр. 391 ) по γ =
0,95 и n = 12
находим tᵧ =
2,2.
Имеем
=
2,2·0,7196/3,4641 = 0,457.
Тогда по (1) находим
0,42 — 0,457 <
M < 0,42 + 0,457 или — 0,037 < M <
0,877.
Округляя до сотых, получим: — 0,04 < M <
0,88.
Ответ:
— 0,04 < M < 0,88.
8.2.1-5. С
целью определения средней суммы вкладов в банке, имеющем 4300 вкладчиков, проведено
выборочное обследование (бесповторная выборка) 207 вкладов, результаты которого
даны в таблице:
Сумма вклада, тыс. у.е. |
3 − 8 |
8 |
13 |
18 |
23 |
28 |
Число вкладов |
53 |
75 |
17 |
19 |
2 |
41 |
Пользуясь данными выборки, найти доверительные границы для генерального
среднего, которые можно было бы гарантировать с вероятностью 0,98.
Решение:
N =
4300
n = 207
γ =
0,98
(a <
М < b) − ?
В качестве значения признака Х берём середины интервалов: Х₁ = 5,5; Х₂ = 10,5;
Х₃ = 15,5; Х₄ = 20,5; Х₅ = 25,5; Х₆ = 30,5.
По формуле (2) находим выборочное среднее:
= (1/207)(5,5·53+10,5·75+15,5·17+20,5·19+25,5·2+30,5·41) = 14,65.
По формуле (3) находим выборочную дисперсию:
=
(1/207)( (5,5-14,65)²·53+(10,5-14,65)²·75+(15,5-14,65)²·17+(20,5-14,65)²·19+(25,5-14,65)²·2+
(30,5-14,65)²·41 ) = 81,77.
Доверительные границы для генерального среднего М (при неизвестном среднем
квадратическом отклонении σ генеральной совокупности и бесповторном отборе)
найдём по формуле (12):
.
(1)
Для 2Ф(
t) = γ =
0,98, отсюда функция Лапласа Ф(t) = 0,98/2 = 0,49.
По таблице приложения 2 ( [1], стр. 389 ) по Ф(t) =
0,49 находим t =
2,33.
Имеем
Тогда по (1) находим
14,65 — 1,43 < M < 14,65 + 1,43 или 13,22 < M <
16,08.
Ответ: 13,22 < M < 16,08.
8.2.1-6. Найти
центральный момент 5-го порядка!
Решение:
Центральным моментом 5-го порядка признака X
называется величина
k
μ₅ = M(X — Ẋ)⁵ = ∑
(xᵢ — Ẋ)⁵mᵢ/n,
i=1
где M(X) = Ẋ – математическое ожидание признака X.
8.2.1-7.
Как
найти разность между генеральными и выборочными средними по исследуемым
показателям?
Решение:
Пусть
xₒ⁻
(черта над xₒ) –
генеральная средняя, X⁻
(черта над X) –
средняя выборки,
∆ – точность оценки, μ –
мера точности выборки.
Тогда справедлива формула доверительной вероятности:
P( |X⁻ — xₒ⁻|
≤ ∆) =
2Ф(∆/μ) или
P(X⁻ — ∆
≤ xₒ⁻
≤ xₒ⁻ +
∆) =
2Ф(∆/μ).
Здесь
Ф(t) – функция Лапласа.
_______________________________________________________________________________________________
8.2.3. Корреляционный и регрессионный анализ.
8.2.3-1. Что
означает значение коэффициента корреляции 0, 43 при уровне значимости 0, 001 ?
Решение:
Отвечаю
на Ваш вопрос прямо: это ничего не означает.
Уровень значимости — это вероятность.
Выборочный коэффициент корреляции r служит для оценки силы линейной корреляционной связи
между случайными величинами X и Y.
Как известно, |r| ≤ 1. Если r = 0, то
между случайными величинами X и Y нет линейной корреляционной связи. Если r = ±1,
то между случайными величинами X и Y существует линейная функциональная связь.
Для обоснования суждения о наличии связи между случайными величинами X и Y
следует проверить, значим ли вычисленный Вами выборочный коэффициент корреляции
r = 0,43.
Для этого Вам следует вычислить наблюдаемое значение критерия Tнабл = r√(n-2)/√(1-r²) (где n —
обьём выборки) и по таблице критических точек распределения Стьюдента, по заданному уровню
значимости α=0,001
и числу степеней свободы k = n-2 найти критическую точку tкр(α; k).
Если у Вас получится |Tнабл| > tкр(α; k), то коэффициент корреляции значимо отличается от
нуля; следовательно, X и Y коррелированы. Если |Tнабл|
< tкр(α; k), то X и Y
некоррелированы.
_______________________________________________________________________________________________
Литература:
1. В. Е. Гмурман. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. Москва. «Высшая школа», 1999.
Задания для закрепления:
1.
Случайная точка (X,Y)
на плоскости распределена по следующему
закону:
-
XY
-1
0
1
0
0,10
0,15
0,20
1
0,15
0,25
0,15
Найти
числовые характеристики (X,Y),
Ответ:
-
Двумерная
случайная величина (X,Y)
подчинена закону распределения с
плотностью
в области D
и равна нулю вне той области. Область
D
— треугольник, ограниченный прямыми
. Найти величину А, математические
ожидания MX,
MY,
дисперсии DX,
DY,
-
Ответ:
,
3.
Найти уравнение прямой и обратной
регрессии для дискретной двумерной
случайной величины из задания 1 настоящего
параграфа, т.е. закон распределения
случайной величины (X,Y)
:
-
XY
-1
0
1
0
0,10
0,15
0,20
1
0,15
0,25
0,15
Ответ:
уравнение прямой регрессии:,
остаточная
дисперсия;
уравнение
обратной дисперсии:
,
остаточная
дисперсия.
4.
Найти уравнение прямой и обратной
регрессии для дискретной двумерной
случайной величины из задания 2 настоящего
параграфа, т.е. двумерная случайная
величина (X,Y)
подчинена закону распределения с
плотностью
в области D
и равна нулю вне той области. Область
D
— треугольник, ограниченный прямыми
.
Ответ:
уравнение прямой регрессии:,
уравнение
обратной регрессии:
,
остаточные
дисперсии:
.
15-Занятие.
Метод
доверительных интервалов для оценки
неизвестных параметров
Решение типовых примеров:
Пример
1. Признак
Х распределен в генеральной совокупности
нормально с известным
.
Найти по данным выборки доверительный
интервал для а с надежностью
,
если
.
Решение:
Требуется
найти доверительный интервал
. Здесь все величины, кроме t,
известны. Найдем t.
Для
находим по таблице №4
.
Следовательно,
.
Концы доверительного интервала
определяем:
6,34-0,23=6,11 и 6,34+0,23=6,57. Итак, доверительный
интервал (6,11; 6.57) покрывает параметр а
с надежностью 0,99.
Ответ:
(6,11; 6,57) .
Пример
2. Найти
минимальный объем выборки, при котором
с надежностью 0,975 точность оценки
математического ожидания а генеральной
совокупности по выборочной средней
будет равна
,
если известно среднее квадратическое
отклонение
нормально
распределенной генеральной совокупности.
Решение:
Воспользуемся
выражением, определяющим точность
оценки математического ожидания
генеральной совокупности по выборочной
средней:
.
Отсюда
.
По условию
или
.
По таблице №4 найдем t=2,24.
Подставив полученное значение, получим
искомый объем выборки:
.
Ответ:
.
Пример
3. Аналитик
фондового рынка оценивает среднюю
доходность определенных акций. Случайная
выборка 15 дней показала, что средняя
(годовая) доходность
со средним квадратическим отклонением
.
Предполагая, что доходность акций
подчиняется нормальному закону
распределения, постройте 95% доверительный
интервал для средней доходности
вида
акций интересующего аналитика.
Решение:
Поскольку
среднее квадратическое отклонение
генеральной совокупности
неизвестно, то используем формулу
Найдем
из таблицы №5 Приложения значение
Используя это значение, построим
доверительный интервал
:
.
Следовательно,
аналитик на 95% может быть уверен, что
средняя годовая доходность по акциям
находится между 8,43% и 12,31%.
Ответ:
.
Пример
4. На
фабрике работает автоматическая линия
по фасовке растворимого кофе в жестяные
100 — граммовые
банки. Если средняя масса наполняемых
банок отличается от точной, то линия
налаживается для подгонки средней массы
в рабочем режиме. Если дисперсия массы
превышает заданное значение, то линия
должна быть остановлена на переналадку.
Время от времени производится отбор
банок с кофе для проверки средней массы
и ее колебаемости. Предположим, что с
линии в случайном порядке отобрано 30
банок с кофе и оценка несмещенной
дисперсии s
= 18,540. Постройте 95%-ый
доверительный интервал для генеральной
дисперсии. (генеральная совокупность
предполагается нормально распределенной)
Решение:
Находим
по таблице №6 значение q
соответствующее объему выборки n=30
и уровню надежности
:
.
Так как q<1,
то доверительный интервал для генеральной
дисперсии равен:
Ответ:
.
Пример
5. Необходимо
оценить долю потребителей, предпочитающий
определенный продукт. Пусть в случайной
выборке из 500 потребителей 370 купили
интересующий нас продукт. а)
найти
99%-ый
доверительный интервал, накрывающий
долю потребителей, купивших данный
продукт; б)
найти
вероятность того, что истинная доля их
отличается от найденной выборочной
доли не более, чем на 4 %.
Решение:
а)
точечной
оценкой доли потребителей является их
относительная частота: w=370/555=0,74.
Найдем доверительный
интервал
для оценки генеральной доли р с надежностью
=0,99.
Так как n
достаточно большое число (n>100),
то
.
Находим
из уравнения
по таблице №4 приложения:
.
Сначала найдем погрешность (точность)
оценивания:
.
Искомый
доверительный интервал:
0,7303<p<0,7497.
б)
Из условия следует, что погрешность
Отсюда
.
Искомая вероятность равна:
.
Ответ:
а) (0,7303;0,7497); б) 0,9586.
Пример
6. Фирма
решила открыть ювелирный магазин в
новом районе города и хотела бы оценить
долю людей, заинтересованных в изделиях
магазина. Компания хотела бы знать
оценку генеральной доли с точностью
и доверительной вероятностью 0,99. Для
этого предлагается провести опрос
жителей города. По опыту предыдущих
опросов компания может считать, что
генеральная доля колеблется около 0,25.
Чему равен необходимый объем выборки
для оценки генеральной доли?
Решение:
По
определению точности
.
Откуда
.
Находим
из уравнения
по таблице №4
.
Далее
.
Компания
должна произвести опрос 125 человек,
отобранных случайным образом.
Ответ:
125 человек.
ОПРЕДЕЛЕНИЕ МИНИМАЛЬНОГО ОБЪЕМА ВЫБОРКИ
О. А. Бакаева
В данной статье приведены способы нахождения оптимального объема выборки п для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.
В науке часто, чтобы определить какую-либо величину, приходится проделывать рад испытаний. Но бывает так, что и в этом случае истинное значение показателя абсолютно точно измерить не удается, оно получается с определенной долей погрешности. Исходя из формул доверительного интервала для нормального, биномиального распределения и распределения Стьюдента находится минимальное количество экспериментов, необходимое для получения достоверной информа-
ции.
В современных условиях цена эксперимента бывает достаточно высокой как в переносном, так и в прямом смысле. Это может быть связано и с использованием дорогостоящего оборудования, и с оплатой труда специалиста, и непосредственно с затратами на сам опытный процесс. Поэтому задача определения минимального количества экспериментов для получения всей необходимой информации в целях ее последующей обработки является очень актуальной. На языке статистики эта задача сводится к определению минимального объема выборки.
Основная часть классической статистической теории предполагает нормальность распределения изучаемой случайной величины. Но на практике в большинстве случаев приходится сталкиваться с распределением, закон которого близок к одному из известных распределений, но далек от нормального. К наиболее употребительным распределениям можно отнести: непосредственно нормальное распределение и распределение Стьюдента, которые являются непрерывными, а также дискретное — биномиальное распределение. В зависимости от закона распределения и вычисляют необходимый объем выборки — п.
Нормальное распределение. Обычно в статистике решается задача определения
доверительных интервалов, покрывающих параметр а, с надежностью 7 и точностью <5, где а — математическое ожидание нормального распределения.
Пусть параметры распределения таковы:
М(Х)
а, а(Х)
у/п
. Потребуем, чтобы
выполнялось соотношение Р(Х — а < б) = 7, где 7 — заданная надежность, получим
г»
= 2заменив X на X и
Р(х
а
б
а на а(Х) = —. Тогда
<7
р{х
а
<•4
2Фт
2 #(*), (1)
где
г
8 у/п
Найдя из последнего равенства б
имеем право написать
(2)
Ь<7 у/п’
Р(Х-а <
Ьа
у/п
2 Ф(Ь).
Приняв во внимание, что вероятность Р задана и равна 7, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю обозначим за х)
Р х
Ьо
у/п
< а < х +
Ьа
у/п
2Ф(1) = Г (3)
Смысл полученного отношения таков: с надежностью 7 можно утверждать, что до-
(- Ьа _ га
верительный интервал (х——, х Н—— ) по-
V у/п у/п/
крывает неизвестный параметр а; точность оценки б = Ьа/у/п Число Ь определяется
© О. А. Бакаева, 2010
из равенства 2= 7, или Ф(Ь) = 7/2; по таблице функции Лапласа находят аргумент которому соответствует значение функции Лапласа, равное 7/2 [1].
Если известно математическое ожидание с наперед заданной точностью 8 и надежностью 7, то минимальный объем выборки, который обеспечит эту точность, находят по формуле
п
,2 2 ta
как следствие равенства 6
ta
у/К
Учитывая, что характеристиками стандартного нормального распределения являются а = 0 и <т = 1, то формула (1) примет вид:
Р(Х <6) = 2Ф{8у/п) = 2Ф(Ь),
(4)
где
t = ôy/n.
(5)
Из последнего равенства следует, что минимальный объем выборки будет равен:
п
и
S2
Также можно использовать цию t « 4,91 [а0’14 — (1 — а)0’14], чается [2]
аппроксима-Тогда полу-
ri
24,1081[а0’14 — (1 — а)0’14] |
Как показывает полученная формула, минимальное число опытов прямо пропорционально квадрату значения которое находится по табличным значениям функции Лапласа, Ф(£) = 7/2, где 7 — это надежность. То есть с увеличением надежности минимальное число элементов увеличивается в параболической зависимости. С другой стороны, минимальное число опытов обратно пропорционально точности, с которой измеряется среднее значение признака. С увеличением 6, т. е. с уменьшением точности, число элементов уменьшается, а с уменьшением 6, т. е. с увеличением точности, число элементов, наоборот, увеличивается. <
О применимости формул (*) и (**) относительно общего количества экспериментов речь пойдет ниже.
Известно, что при неограниченном возрастании объема выборки п распределение Стьюдента стремится к нормальному. Поэтому практически при п > 30 можно вместо
распределения Стьюдента пользоваться нормальным распределением. Однако важно, что для малых объемов выборок (п < 30), в особенности для малых значений п, замена распределения нормальным приводит к грубым ошибкам, а именно к неоправданному сужению доверительного интервала, т. е. к повышению точности оценки. Например, если п = 5 И7 = 0,99, то пользуясь распределением Стьюдента, имеем Ц = 4,6, а используя функцию Лапласа, найдем t’у — 2,58, т. е. доверительный интервал в последнем случае окажется более узким, чем найденный по распределению Стьюдента. То обстоятельство, что распределение Стьюдента при малой выборке дает широкий доверительный интервал вовсе не свидетельствует о непригодности метода Стьюдента, а объясняется тем, что малая выборка содержит малую информацию об интересующем нас признаке.
Распределение Стьюдента определяется параметром п — объемом выборки (или числом степеней свободы к — п — 1)ине зависит от неизвестных параметров а и а; эта особенность является его большим достоинством.
При достаточно больших значениях п объема выборки выборочная и исправленная дисперсии различаются мало. На практике пользуются исправленной дисперсией, если примерно п < 30 (напомним, что именно при небольших размерах выборок и используется распределение Стьюдента, тогда как при п > 30 практически любая случайная величина аппроксимируется нормальным распределением) .
При неизвестной дисперсии необходимый объем выборки определяется из соотношения
S
tocS
fc*.
д/ггж’
(6)
где — а-квантиль распределения Стьюдента при / = п степенях свободы; 5 и х — выборочные оценки соответственно стандартного отклонения и среднего значения [2].
Необходимые значения рассчитаны
и могут быть найдены по таблицам [2, табл.
49].
Определение объема выборки происходит
I
в следующей последовательности. Сначала
г €
по заданным величинам о = — и а и предпо-
х
лагаемому значению коэффициента вариации
5 (п)
V = — находят по таблице значение —и
х у/П
по нему определяют искомое значение п. Ес-
112
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
ВЕСТНИК Мордовского университета | 2010 I Л* 4
ли для найденного объема выборки п выборочное значение окажется больше предполагавшегося, то эксперимент должен быть продолжен.
Замечание. Если а = 0,975, то, как частный случай, из выражения
¿0,975 (тг)
71
2
(7)
следует, что объем выборки
2з2
п
(8)
В этом случае по заданной абсолютной ошибке € и предполагаемому стандартному отклонению 5 может быть непосредственно определен объем необходимой выборки п.
Биномиальное распределение. Пусть производятся независимые испытания с неизвестной вероятностью р появления события А в каждом испытании. Ставится задача найти доверительный интервал для оценки вероятности, в случае биномиального распределения это можно будет сделать с помощью от-
носительной частоты р
т
п
. Учитывая, что
Р(х
а
<б)
о>
(9)
и заменив случайную величину X и ее математическое ожидание а соответственно случайной величиной ТУ и ее математическим ожиданием р, получим приближенное (так как относительная частота распределена приближенно нормально) равенство
Р(№-р <8)
о
7:
(10)
Как известно, для биномиального распределения дисперсия находится по формуле
ро
— —, а среднее квадратическое откло-п
нение как квадратный корень из дисперсии
а
где д = 1 — р — вероят-
ность не появления события А, тогда подстаг вив данные выражения в формулу (10), получают:
Р(\¥-р <6) = 2Ф
8у/п
у/РЯ
2Ф(£) = 7, (11)
где
8у/й
у/РЯ
Следовательно,
РШ-р <1
ё)
2Ф(Ь) = 7
(13)
Можно выразить точность 8 = Ьу/*^, откуда минимальный объем выборки, если вероятность р появления события известна, находится по формуле:
п
у/Щщ
82
(* * *)
где £ — значение функции Лапласа. Если вероятность появления события явно не зада-
ТТЬ
на, то находим ее из соотношения р——-, где т — число появления события, а п — число испытаний. Тогда минимальный объем выборки будет
п
I
тп ¿8*
тп
п282
(* * **)
Если п достаточно велико и вероятность р не очень близка к нулю и к единице, то можно считать, что относительная частота распределена приближенно нормально.
Также можно аппроксимировать практически любое распределение нормальным при достаточном объеме выборки. Об этом свидетельствует и Центральная предельная теорема А. М. Ляпунова. Отсюда следует, что практически все статистические распределения должны приближаться к нормальному распределению как к идеальной предельной форме, если только можно располагать достаточно большим числом наблюдений. То есть, если объем выборки > 30 и случайная величина близки к нормальному распределению, то минимальный размер выборки опре-
деляется соотношением п
¿V 82
. А если объ-
ем выборки < 30 и дисперсия неизвестна, то исходя из распределения Стыодеита и таб-
личных значений
Мп)
ура
, так как при новых
условиях формула (*) не гарантирует того, что полученное число экспериментов будет достаточным.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Гмурман В. Е. Теория вероятностей и математическая статистика : учеб. пособие для студентов вузов / В. Е. Гмурман. — 8-е изд., стер,т- М. : Высш. шк., 2002. — 479 с.
2. Кобзарь А. И. Прикладная, математическая статистика / А. И. Кобзарь. — М. Физматлит, 2006. — 816 с.
Поступила 03Л 1.10.
О СТРУКТУРЕ ПАКЕТА ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ПРОГРАММ, ИСПОЛЬЗУЕМЫХ ПРИ МАТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ ДИНАМИЧЕСКИХ СИСТЕМ ТРАНСПОРТА*
Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова
Рассмотрены вопросы математического моделирования транспортных динамических систем. Описаны структура и функциональные возможности соответствующего пакета проблемно-ориентированных программ.
Применение программного обеспечения ПЭВМ для исследования динамических характеристик железнодорожных транспортных средств рассматривалось в работах [1-2; 5] и др. В данной работе представлена структура пакета проблемно-ориентированных программ, предназначенного для математического моделирования транспортных динамических систем более широких классов.
Пусть транспортная динамическая система описывается многомерным матричным дифференциальным уравнением второго порядка
Ах + Вх + Сх = (х€Яп, (1)
где Л, В, С — квадратные матрицы (соответственно матрицы масс, демпфирования и жесткости); (¿(Ь,х,х) — заданная нелинейная вектор-функция времени, перемещения и скорости (обобщенная возмущающая сила);
х — вектор обобщенных координат; Rn — евклидово пространство. Такая динамическая система возникает при описании и изучении колебательных процессов летательных аппаратов в воздушном потоке, колебаний корпусов кораблей и подводных лодок при волнении в открытом море, колебаний элементов и узлов подвижного состава железнодорожного и автомобильного транспорта при движении по неровному пути.
Предложенный пакет содержит набор проблемно-ориентированных программ по математическому моделированию движения и оптимизации динамических параметров железнодорожных и автомобильных транспортных средств, а также программу графической иллюстрации полученных результатов, написанные в математической интегрированной среде Maple [3-4]. Здесь же приведены описания, тексты программ и даны указания по их активизации.
© Н. А. Базеева, Ю. И. Голечков, Е. В. Щенникова, 2010
* Работа частично поддержана РФФИ (проект № 10-08-00826-а). 114 ВЕСТНИК Мордовского университета | 2010 | .Уг 4
Прежде чем определяться с минимальным размером выборки рассмотрим три типа даных, которые и определяют этот размер.
Статистические модели
В данной таблице представлены основные статистические модели для различных типов данных
Описание | Количественные данные (непрерывные данные) | Количественные данные (дискретные) | Качественные данные |
Релевантная статистическая модель обычно (функция в R)… | Нормальное распределение (pnorm) |
Распределение Пуассона (ppois) |
Биноминальное распределение (pbinom) |
Когда можно применять эту статистическую модель? | Не всегда, валидность модели необходимо проверять | Пуассоновскую модель можно применять если процесс управляемый | Биноминальную модель можно применять если процесс управляемый |
Обычная статистика | Среднее (mean) Стандартное отклонение (sd) |
Число дефектов на единицу | Пропорция (процент) |
Полезные графики | Гистограмма (hist) График временного ряда |
Гистограмма (hist) График временного ряда |
Столбиковая(полосовая) диаграмма Диаграмма Парето График временного ряда |
Количественные данные (непрерывные данные)
Для того, чтобы определить размер выборки нужно
- Определить стандартное отклонение процесса (S)
- Определить требуемую точность (P)
- Рассчитать минимальный размер выборки (MSS) по формуле:
[text{MSS}=((2*S)/P)^2]
Если стандартное отклонение процесса неизвестно, то его можно оценить, если взять известный размах данных (разницу между возможным наибольшим и наименьшим значением) и поделить его на пять. Как известно, обычно размах содержит около шести стандартных отклонений, взяв пять мы просто страхуемся от непредвиденных ситуаций
Пример: собираем данные по времени оплаты наших счетов. Обычно, оплата происходит в диапазоне 10-30 дней, отсюда стандартное отклонение равно 4 дня. Желательная точность ±2 дня. Отсюда, чтобы определить среднее время достаточно ((2*4)/2)2.
Качественные данные
Для того, чтобы определить размер выборки нужно:
- Определить ожидаемую пропорцию для процесса (p)
- Определить требуемую точность (d)
- Рассчитать минимальный размер выборки (MSS) по формуле:
[text{MSS}=((2/d)^2p(1-p)]
Если пропорция неизвестна, то можно взять 0.5 — это даст наибольшее значение для произведения 0.5*(1-0.5) = 0.25
Пример: собираем данные по удовлетворенности клиентов (ответ да/нет). Данных о пропорции нет, берем максимум 0.5, желаемая точность 5% — 0.05. Получаем (2/0.05)2*0.5*(1-0.5)=400
Частота выборки данных для процесса
В случае выборки данных для циклических процессов частота выборки должна быть не менее четырех раз за предполагаемый цикл.
Необходимые пояснения
Минимальный размер выборки он действительно является минимальным, от этого надо отталкиваться как от базы в исследованиях. В обязательном порядке проверяйте полученный доверительный интервал, особенно для стратифицированных данных.
Откуда взялись эти формулы, спросит меня любопытный читатель. Рассмотрим нормальное распределение. Стандартная ошибка для генеральной совокупности равна:
[sigma_bar{x} = frac{sigma}{sqrt{n}}]
Стандартная ошибка выборочного среднего равна
[text{SE}_bar{x}=text{s}_bar{x} = frac{s}{sqrt{n}}]
где (sigma) — стандартное отклонение генеральной совокупности, s — выборочное стандартное отклонение, n — число измерений. О том, чем отличаются эти статистики рекомендую посмотреть вот тут. Для 95% доверительного интервала ( что достаточно в большинстве случаев), имеем
[text{CI} = bar{x} pm Phi ^{-1}(1- varepsilon /2)(text{SE}) = bar{x} pm 1.96text{SE} ]
Где (Phi(x)) — функция стандартного нормального распределения, (Phi^{-1}(x)) — обратная к функции стандартного нормального распределения (функция квантилей), а 1.96 — квантиль 0.975 стандартного нормального распределения (Phi ^{-1}(1- varepsilon /2)) при (varepsilon=0.05).
> qnorm(0.975)
[1] 1.959964
В данном случае, отталкиваясь от ожидаемой стандартной ошибки нетрудно рассчитать размер выборки. Получаем формулу приведенную выше. Вместо 1.96 вполне можно использовать 2.
Что же касается второго случая, то 95% доверительный интервал для биноминального распределения равен
[text{CI} = bar{x} pm Phi^{-1}(1-epsilon/2)sqrt{p(1-p)/n} =bar{x} pm 1.96sqrt{p(1-p)/n} ]
Строго говоря, использование в данном случае квантилей нормального распределения, основанное на центральной предельной теореме, работает при достаточно больших n, когда np>5 и n(p-1)>5. Для малых n существуют другие способы расчета, например, основанные на квантилях биномиального распределения. Подробнее можно посмотреть вот здесь.
Отсюда без труда выводится вторая формула.
Источник: Brook Q. Lean Six Sigma and Minitab (4th Edition): The Complete Toolbox Guide for Business Improvement 4th Edition (revised) Edition / OPEX Resources. 2014. 314 P.
При планировании научного исследования представляет интерес получение оценки минимального объёма выборки. Как правило, объем выборки вычисляют для распределений случайных величин, близких к гауссовскому в соответствии со следующим выражением [1]:
Для случая негауссовского закона распределения в формуле [2] предложено другое выражение для оценки объема выборки:
Приведенные выше выражения применяются, в основном, при небольших объемах выборки (условно до 40-50) в случае оценивания выборочных моментов первого и второго порядков – среднего и дисперсии. При большом объеме выборки законы распределения выборочных среднего и дисперсии близки к гауссовскому, и оценка объема выборки может быть получена сравнительно просто из выражения для построения доверительного интервала.
Более подробно изучить этот вопрос помогут [3][4] и, конечно, наш курс математики для Data Science.
Список источников:
1 Койчубеков Б.К. Определение размера выборки при планирования научного исследования / Койчубеков Б.К., Сорокина М.А., Мхитарян К.Э. – Международный журнал прикладных и фундаментальных исследований. 2014. №4.
2 Дианов В.Н. Перспективные направления повышения надежности вычислительной техники и систем управления // Надежность. 2004. №3 (10). С. 33–47
3 Вентцель Е.С. Теория вероятностей. — М., 1964. — 576 с.
4 https://applied-research.ru/ru/article/view?id=5074