НАХОЖДЕНИЕ ТОЧНЫХ ГРАНИЦ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ДЛЯ ГЕНЕРАЛЬНОЙ ДОЛИ НА ОСНОВЕ ОБРАТНОГО ГИПЕРГЕОМЕТРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ В R
НАХОЖДЕНИЕ ТОЧНЫХ ГРАНИЦ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ДЛЯ ГЕНЕРАЛЬНОЙ ДОЛИ НА ОСНОВЕ ОБРАТНОГО ГИПЕРГЕОМЕТРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ В R
Борбаць Николай Михайлович
канд. техн. наук, доц., Брянский государственный технический университет,
РФ, г. Брянск
Школина Татьяна Викторовна
канд. техн. наук, доц., Брянский государственный технический университет,
РФ, г. Брянск
FINDING THE EXACT LIMITS OF THE CONFIDENCE INTERVAL FOR THE POPULATION PROPORTION BASED ON THE INVERSE HYPERGEOMETRIC DISTRIBUTION IN R
Nikolay Borbats
candidate of technical sciences, associate Professor, Bryansk State Technical University,
Russia, Bryansk
Tatiana Shkolina
candidate of technical sciences, associate Professor, Bryansk State Technical University,
Russia, Bryansk
АННОТАЦИЯ
Рассматриваются варианты реализации функции на языке R для нахождения точных границ доверительного интервала для генеральной доли с использованием обратного гипергеометрического распределения, реализующей вычисления на основе алгоритма, позволяющего устранить необходимость вычисления факториалов. Функция может быть полезна специалистам в области качества для получения представления о диапазоне возможных значений доли несоответствующих единиц в контролируемой партии.
ABSTRACT
Variants of the implementation of the function in the R language for finding the exact limits of the confidence interval for the population proportion using the inverse hypergeometric distribution, implementing calculations based on an algorithm that eliminates the need to calculate factorials, are considered. The function can be useful for quality specialists to get an idea of the range of possible values of the proportion of nonconforming units in a controlled lot.
Ключевые слова: доверительный интервал, генеральная доля, обратное гипергеометрическое распределение, язык R.
Keywords: confidence interval, inverse hypergeometric distribution, population proportion, language R.
Выборочный контроль готовой продукции остаётся по-прежнему одним из самых распространённых статистических методов контроля качества, являясь в некоторых случаях незаменимым инструментом проверки соответствия совокупности поставляемой продукции установленным требованиям. Наиболее простыми, с организационной точки зрения, являются процедуры выборочного контроля по альтернативному признаку, когда у единиц продукции, отобранных в выборку, фиксируют наличие или отсутствие контролируемого признака (атрибута). При этом принято выделять два типа процедур [1]: 1) типа A – при контроле отдельных (изолированных) партий продукции; 2) типа B – при контроле последовательной серии партий, поступающих из непрерывного процесса производства с постоянным средним уровнем несоответствий.
Пусть на контроль поступает изолированная партия объёма , в которой содержится несоответствующих единиц продукции (значение неизвестно), таким образом, неизвестная доля несоответствующих единиц в партии составляет и характеризует качество этой партии. Для контроля из партии берётся случайная выборка без возвращения объёма и фиксируется число несоответствующих единиц в этой выборке. Тогда вероятность обнаружения ровно несоответствующих единиц в выборке будет определяться по функции вероятностей гипергеометрического распределения:
где , и являются параметрами распределения, должны быть целыми неотрицательными числами и удовлетворять условиям: , .
Предположим теперь, что при контроле случайной выборки объёма , взятой без возвращения из партии объёма , было обнаружено несоответствующих единиц. В этом случае интерес представляет оценка доли несоответствующих единиц в партии, то есть фактически оценка значения . Точечной оценкой максимального правдоподобия (MLE-оценкой) генеральной доли является величина [2]:
где – наибольшее целое значение, содержащееся в , при , и при .
Однако для целей управления качеством может потребоваться найти не только точечную оценку генеральной доли , но и границы -процентного доверительного интервала для неё. Для этого может использоваться обратное гипергеометрическое распределение, которое в некоторых источниках также иногда называется отрицательным гипергеометрическим распределением [3, 4]. В контексте контроля качества функция вероятностей обратного гипергеометрического распределения определяет вероятность несоответствующих единиц в партии объёма при заданной случайной выборке без возвращения объёма , содержащей несоответствующих единиц:
(1) |
для , где .
Тогда нижней границей -процентного доверительного интервала будет значение , где для значения выполняются условия:
|
(2) |
Аналогичным образом, верхней границей доверительного интервала будет значение , где для значения выполняются условия:
|
(3) |
Однако непосредственное нахождение значений и по соотношениям (2) и (3) является не эффективным с вычислительной точки зрения. Существенно более эффективным является следующий алгоритм [2], позволяющий устранить необходимость вычисления факториалов.
Пусть – рекурсивно определяемая положительная функция с начальным значением , равным произвольно выбранному малому значению, например , тогда последующие значения этой функции могут быть выражены как предыдущее значение, умноженное на некоторую постоянную, то есть:
(4) |
Если обозначить общую сумму всех значений функции :
то функция вероятностей (1) может быть представлена как
Тогда точная нижняя граница -процентного доверительного интервала для генеральной доли будет равна , где значение удовлетворяет условиям:
|
(5) |
Аналогичным образом, точная верхняя граница -процентного доверительного интервала будет равна , где значение удовлетворяет условиям:
|
(6) |
Очевидно, что все вычисления следует выполнять с использованием соответствующего программного обеспечения. Ниже на рис. 1 приводится листинг функции на языке R [5], реализующей вычисления по зависимостям (4 – 6) и позволяющей находить для заданных параметров , и значения точных границ -процентного доверительного интервала для генеральной доли . В данной функции используется непосредственно рекурсивное соотношение (4), однако известно, что рекурсия требовательна к памяти и при увеличении вложенности растёт и объем занимаемой памяти. Из-за этого при больших значениях параметров и использование рассматриваемого подхода будет приводить к ошибке заполнения стека.
Рисунок 1. Листинг функции в R на основе рекурсии
В этой связи может быть более предпочтительным подход к написанию функции на основе цикла, представленный в листинге на рис. 2. При этом следует обратить внимание, то в цикле происходит вычисление только произведения для нахождения значений функции , в то время как значения множителя в правой части выражения (4) находятся векторизовано.
Рисунок 2. Листинг функции в R на основе цикла
Рассмотрим пример применения предлагаемой функции. Предположим, при контроле случайной выборки объёма , извлечённой без возвращения из партии объёмом , было обнаружено несоответствующих единиц продукции. Требуется найти границы доверительного интервала для генеральной доли несоответствующих единиц продукции в партии. Результаты вычислений с использованием предлагаемой функции приведены на рис. 3, там же приведены результаты вычислений и при других значениях входных параметров. Отметим, что при значениях, использованных в последнем примере, реализация функции через рекурсивное выражение привела бы к появлению ошибки.
Рисунок 3. Результаты применения функции для различных значений входных параметров
Таким образом, использование предлагаемой функции позволит специалистам в области качества быстро находить значения точных границ % доверительного интервала для генеральной доли несоответствующих единиц в контролируемой партии по результатам проверки случайной выборки из неё.
Список литературы:
- Dodge H.F., Romig H.G. (1959). Sampling Inspection Tables, Single and Double Sampling, 2nd ed. New York: John Wiley & Sons.
- Berry K.J., Mielke P.W. (1996). Exact confidence limits for population proportions based on the negative hypergeometric probability distribution. Perceptual and motor skills, 83(3 suppl), pp. 1216 – 1218. https://doi.org/10.2466/ pms.1996.83.3f.1216.
- Berry K.J., Mielke P.W. (1998). The negative hypergeometric probability distribution: Sampling without replacement from a finite population. Perceptual and motor skills, 86(1), pp. 207 – 210. https://doi.org/10.2466/pms.1998.86.1.207.
- Guenther W.C. (1975) The inverse hypergeometric - a useful model. Statistica Neerlandica, 29(4), pp. 129 – 144. https://doi.org/10.1111/j.1467-9574. tb00257.x.
- R Development Core Team. R: A language and environment for statis-tical computing. – R Foundation for Statistical Computing, Vienna, Austria. URL: https://www.r-project.org/ (дата обращения: 11.06.2023).