Немецкий математик Карл Фридрих Гаусс называл математику королевой наук, и это верно хотя бы потому, что математические законы и формулы универсальны. Это значит, что одни и те же формулы могут описывать явления, возникающие в самых разных науках – точных и гуманитарных – и просто в повседневной жизни.
Что, казалось бы, может быть общего между столь разными явлениями, как счёт в футбольном матче, судебными приговорами, опечатками в тексте, обращениями в колл-центр, процессом радиоактивного распада, продажей экзотических товаров, распределением мест падения снарядов при бомбардировке, теорией очередей, количеством перегоревших лампочек, страховыми случаями и крупными выигрышами в лотереях?
Оказывается, что при исследовании всех этих явлений применима формула Пуассона, а общим во всех перечисленных явлениях является то, что имеет место большое количество независимых маловероятных событий. Другими словами, в случаях, когда имеет место много однотипных событий, но при этом вероятность каждого отдельно взятого события мала.
Рассмотрим всё по порядку. Закон редких событий был открыт великим французским математиком Симеоном Дени Пуассоном и получил впоследствии его имя. В настоящее время математики чаще говорят «Закон Пуассона» или «Формула Пуассона», чем «Закон редких событий».
Вклад Пуассона в мировую науку огромен и разнообразен – это математическая физика, электростатика, магнетизм, гидромеханика, теория интегралов, теория вероятностей, но мы рассмотрим лишь одну формулу и её применение.
Пуассон изучал современные ему юриспруденцию и практику ведения судебных дел и написал научный труд «Исследования вероятности приговоров в уголовных и гражданских делах», в котором рассуждал о том, какие факторы влияют на вынесение тех или иных приговоров и как уменьшить вероятность вынесения несправедливых приговоров.
Он писал «Шанс быть неправедно осужденным должен быть равносилен шансу такой опасности, которую мы полагаем достаточно малой, чтобы не стараться избегать её в обычной жизни».
Изучая статистику судебных приговоров, Пуассон заметил, что доля строгих приговоров (что в современной ему Франции означало отправление подсудимого на гильотину), равно как и доля оправдательных приговоров составляет малую долю от общего числа рассматриваемых судебных дел и на этом основании вывел формулу вероятностного распределения числа такого рода приговоров.
Рассмотрим это на простом примере. Пусть суд ежемесячно рассматривает в среднем 150 дел. При этом, согласно статистике рассмотрения дел за предыдущие месяцы, доля строгих приговоров составляет один процент, а доля оправдательных приговоров – два процента от общего числа. Тогда, очевидно, средние числа строгих и оправдательных приговоров на протяжении месяца равны соответственно λ1=150·0.01=1.5 и λ2=150·0.02=3.0.
Но это лишь средние показатели, а каково реальное вероятностное распределение, например, вероятность того, что в каком-то месяце строгих приговоров вообще не будет вынесено?
Пуассон ответил на этот вопрос, вывел такую формулу. Пусть может произойти n событий, и n достаточно велико, а вероятность того, что произойдёт отдельно взятое событие, равна p, и эта величина достаточно мала.
Обозначим среднее число событий, которые могут произойти, через λ, где λ = np. Тогда вероятность того, что произойдёт ровно k событий, как доказал Пуассон, равна
,
где e – число Эйлера, примерно равное 2.718, а k! означает произведение всех целых чисел от 1 до k, при этом полагают, что 0!=1.
Данную формулу принято называть формулой Пуассона, а вероятностное целочисленное распределение, которое получается в результате применения этой формулы – распределением Пуассона. Число λ принято называть параметром распределения Пуассона – это единственное число, которое нужно знать, чтобы построить ряд распределения.
Так, например, вероятность того, что на протяжении месяца не будет вынесено ни одного строгого приговора, равна: , а таблица распределения количества приговоров будет иметь вид:
λ | k | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|---|
1.5 | 0.223 | 0.335 | 0.251 | 0.126 | 0.047 | 0.014 | 0.0035 | 0.0008 | |
3 | 0.050 | 0.149 | 0.224 | 0.224 | 0.168 | 0.101 | 0.050 | 0.022 |
В рассуждениях мы не определили, что такое достаточно большое n и достаточно малое значение p. Так какими они должны быть? Точной границы нет, но есть оценка того, насколько, применяя формулу Пуассона, можно ошибиться в вычислении вероятности наступления количества событий. Причём оценку ошибки можно посчитать и в случае, когда вероятности редких событий не равны между собой.
Пусть есть n независимых редких событий, вероятности наступления которых равны p1, p2,..., pn. Тогда распределение количества наступивших событий можно приближённо вычислить по формуле Пуассона, положив λ=p1+…+pn, при этом вычисления по формуле Пуассона дают ошибку не больше, чем сумма квадратов вероятностей событий, т.е. p12+…+pn2.
Так, в разобранном примере с количеством вынесенных приговоров, в каждом из случаев значения p одинаковые, значит, величины ошибок не превысят 150·0.012=0.015 и 150·0.022=0.06 соответственно.
Если же вероятности независимых событий различаются, но при этом остаются малыми, то и в этом случае можно применить формулу Пуассона.
Например, пусть наблюдается 600 событий с вероятностью наступления 0.001, 200 – с вероятностью 0.002 и 100 – с вероятностью 0.005. Тогда суммарное число наступивших событий имеет распределение Пуассона с параметром λ=600·0.001+200·0.002+100·0.005=1.5, а ошибка нахождения значений вероятностей не превысит 600·0.0012+200·0.0022+100·0.0052=0.004.
График распределения Пуассона для различных значений λ (в данном случае 1, 4 и 10) имеет вид, приведенный на рисунке в начале статьи.
Распределение Пуассона имеет ряд интересных свойств.
1) Среднее значение распределения равно параметру λ.
2) Наиболее вероятное значение распределения (его принято называть модой) равно целой части параметра λ (т.е. значению λ, округленному до целого в меньшую сторону), а если значение λ является целым– то наиболее вероятное значение достигается дважды – при λ и λ-1. Это легко увидеть на графике – два соседних значения, для которых достигается максимум, соединены «горизонтальной полкой».
3) Сумма независимых случайных величин, имеющих распределение Пуассона, также будет иметь распределение Пуассона, причём параметр этого распределения будет равен сумме параметров слагаемых.
Рассмотрим примеры распределения Пуассона, упомянутые выше.
Рассмотрим работу колл-центра на протяжении некоторого интервала времени (например, с 12.00 до 13.00). Здесь входной поток заявок складывается из малого количества маловероятных заявок, т.е. вероятность того, что у отдельно взятого человека возникнет необходимость обратиться за помощью (например, поскольку пропал сигнал интернета) именно в данном промежутке времени, очень мала. Но у колл-центра есть большое количество потенциальных клиентов, поэтому произведение малой вероятности возникновения проблемы у одного клиента на большое количество клиентов даёт параметр Пуассоновского распределения. Причём в течение дня интенсивность обращения может меняться, но вид распределения неизменно остаётся Пуассоновским, меняется только параметр распределения.
Эти же рассуждения справедливы при оценке количеств обращений в травмпункт. Фраза героя комедии «Бриллиантовая рука» «Поскользнулся, упал, очнулся – гипс» стала крылатой. К счастью, с каждым человеком в отдельности такое случается очень редко, но в большом городе несколько обращений в день с переломами в травмпункте рассматривается не как несчастье, а как естественная закономерность.
При этом среднее число обращений должно быть оценено, и тот факт, что в отдельные дни число обращений может превышать среднее значение, тоже является частью закономерности. Так, если например, среднее число обращений – три в день, то врач должен иметь минимум семь комплектов медикаментов для оказания первой медицинской помощи.
Менеджеры могут руководствоваться аналогичными рассуждениями для оценки спроса на какие-либо товары, которые покупают редко, например, музыкальные инструменты. Понятно, что, например, рояль нужен далеко не всем, а если даже и нужен, то человек приобретает такой инструмент 1–2 раза в жизни.
Так что вероятность того, что каждый отдельно взятый человек именно сегодня придёт покупать рояль, ничтожно мала. Но если в городе проживает несколько миллионов человек, то каждодневный спрос даже на такой экзотический товар становится закономерным.
Аналогично, перегорание лампочки или возникновение иной неисправности в течение дня является редким событием. Но на большом предприятии используется много ламп, и необходимость замены нескольких из них закономерна, поэтому наличие нужного количества запасных ламп на складе является необходимостью.
Что касается ошибок в тексте – то и здесь совершенно аналогичная ситуация. Вероятность того, что автор в каждом отдельно взятом слове допустит ошибку, и к тому же редактор этого не заметит, очень мала. Но книга содержит несколько десятков тысяч слов, так что одна или несколько опечаток является естественной закономерностью.
Все лотереи построены так, что крупный выигрыш в них является крайне редким событием, но порой число проданных билетов достигает сотен тысяч или даже миллионов, поэтому крупные выигрыши периодически случаются. Организаторы лотерей должны иметь крупную сумму для выплаты таких выигрышей под рукой, чтобы выплатить их в короткие сроки, тем самым поддержав репутацию лотереи.
Удивительно, но число забитых голов в футбольном матче тоже близко к распределению Пуассона. Действительно, вероятность того, что гол будет забит в определённую минуту, мала (порядка 1–2 процента), но матч длится 90 минут, а забивания голов в разные периоды матча являются независимыми (точнее, почти независимыми) событиями. Параметры распределений Пуассона, отвечающие за количество забитых голов каждой из команд, оцениваются исходя из статистики ранее сыгранных матчей. Зная эти два параметра, можно оценить вероятность выигрыша каждой из команд, а также вероятность ничьи.
Напоследок пожелаем читателям успехов в изучении всех наук и использовании математических формул, и чтобы с вами почаще случались хорошие редкие события, а плохие – обходили стороной.
С.И. Доценко, кандидат физико-математических наук, доцент факультета информационных технологий КНУ имени Тараса Шевченко