Разное

Сигма это в статистике: Что такое «сигма»? • Физика элементарных частиц • LHC на «Элементах»

Содержание

Что такое «сигма»? • Физика элементарных частиц • LHC на «Элементах»

Сигмой (σ) в статистическом анализе обозначают стандартное отклонение. Опуская тонкости, которые будут обсуждены ниже, можно сказать, что стандартное отклонение — это та погрешность, то «± сколько-то», которым обязательно сопровождают измерение величины. Если вы измерили массу предмета и получили результат 100 ± 5 грамм, то величина «110 грамм» отличается от измеренного результата на два стандартных отклонения (то есть на 2 сигмы), величина «50 грамм» отличается на 10 стандартных отклонений (на 10 сигм).

Зачем всё это нужно: сигмы и вероятности

При обсуждении погрешностей мы уже говорили, что фраза «измеренная масса равна 100 ± 5 грамм» вовсе не означает, что истинная масса гарантированно лежит в интервале от 95 до 105 грамм. Она может оказаться и за пределами этого интервала «± 1σ», но, как правило, недалеко. В небольшом проценте случаев может даже случиться, что она выходит за пределы интервала «± 2σ», и уж совсем редко она оказывается за пределами «± 3σ». В общем, тенденция ясна: количество сигм связано с вероятностью того, что истинное значение будет настолько отличаться от измеренного.

Пропустим все математические подробности и покажем результат для самого простого и распространенного случая, который называется «нормальное распределение» (см. рисунок). Вероятность попасть в интервал ± 1σ — примерно 68%, в интервал ± 2σ — примерно 95%, в интервал ± 3σ — примерно 99,8%, и т. д. Итак, можно сформулировать некую договоренность:

Договоренность: выражение какого-то отличия в количестве сигм — это сообщение о том, какова вероятность, что такое или еще более сильное отличие могло произойти за счет случайного стечения обстоятельств при измерении.

Использовать эту договоренность можно разными способами. Если вы просто сообщаете результат измерения (100 ± 5 грамм) и уверены в том, что нормальное распределение применимо, то вы можете сказать, что истинное значение массы с вероятностью 68% лежит в этом интервале, с вероятностью 95% лежит в интервале от 90 до 110 грамм, и т. д.

Вы можете также сравнивать результат вашего измерения с чужим измерением той же самой величины или с теоретическими расчетами. Вы видите, что числа отличаются, и хотите понять, имеете ли вы право утверждать, что между двумя результатами есть статистически значимое расхождение — то есть несогласие, которое нельзя списать на случайную статистическую флуктуацию в данных. Тогда утверждения звучат так:

  • Если отличие составляет меньше 1σ, то вероятность того, что два числа согласуются друг с другом, больше 32%. В таком случае просто говорят, что два результата совпадают в пределах погрешностей.
  • Если отличие составляет меньше 3σ, то вероятность того, что два числа согласуются друг с другом, больше 0,2%. В физике элементарных частиц такой вероятности недостаточно для каких-либо серьезных выводов, и принято говорить: различие между двумя результатами не является статистически значимым.
  • Если отличие от 3σ до 5σ, то это повод подозревать что-то серьезное. Впрочем, даже в этом случае физики говорят осторожно: данные указывают на существование различия между двумя результатами.
  • И только если два результата отличаются на 5σ или больше, физики четко заявляют: два результата отличаются друг от друга.

Эти выражения особенно стандартны, когда речь идет о поиске новой частицы. Вы сравниваете экспериментальные данные с теоретическим предсказанием, сделанным без новой частицы, и, если видите отличие от 3 до 5 сигм, вы говорите: получено указание на существование новой частицы (по-английски, evidence). Если же отличие превышает 5 сигм, вы говорите: мы открыли новую частицу (discovery).

«Уверенность» против «статистической значимости»

Заметьте, что в приведенных выше примерах нас интересовали вопросы, на которые можно ответить «да» или «нет». Проступает ли в полученных данных какая-то новая частица? Согласуется ли распределение по импульсу с теоретическими расчетами? Зависит ли сечение процесса от энергии столкновений? Совпадает ли масса у частицы и ее античастицы? Попытка ответить на эти вопросы с помощью данных называется на научном языке проверкой гипотез. Вопросы, которые требуют развернутого ответа (подсчитать что-то, объяснить что-то и т. п.), гипотезами не называются.

В простейшем приближении результат экспериментальной проверки гипотезы выглядит так: ответ «да» с вероятностью p и ответ «нет» с вероятностью 1 – p. Эти вероятности очень важны для сообщения результата; физики обычно избегают абсолютных утверждений («мы открыли» или «мы опровергли») без указания вероятностей.

Но тут сразу же надо сделать важное уточнение. Если его четко осознать, то станет понятным, почему такие стандартные для научно-популярных новостей фразы, как «Ученые на 99% уверены, что открыли что-то новое», — обманчивы.

Точная формулировка, которую обычно используют ученые, такова:

При проверке гипотезы получен ответ «да» на уровне статистической значимости p.

При этом величина p часто выражается в виде количества сигм. В англоязычной литературе используется словосочетание confidence level, CL (доверительный уровень). В русскоязычной еще иногда говорят «статистическая достоверность», но такое выражение может привести к путанице в понимании.

Отличие «популярной» фразы от истинного утверждения вот в чём. Во всяком измерении есть не только статистические, но и систематические погрешности. Описанные выше правила связи вероятностей и количества сигм работают только для статистических погрешностей — и то если к ним применимо нормальное распределение. Если статистические погрешности всегда можно обсчитать аккуратно, то систематические погрешности — это немножко искусство. Более того, из многолетнего опыта известно, что сильные систематические отклонения уж точно не описываются нормальным распределением, и потому для них эти правила пересчета не справедливы. Так что даже если экспериментаторы всё перепроверили много раз и указали систематическую погрешность, всегда остается риск, что они что-то упустили из виду. Корректно оценить этот риск невозможно, поэтому вы на самом деле не знаете, с какой истинной вероятностью ваш ответ верен.

Конечно, по умолчанию систематическим погрешностям стоит доверять, особенно если они исходят от опытных экспериментальных групп. Но вековой опыт изучения элементарных частиц показывает, что несмотря на все предосторожности регулярно случаются проколы. Бывает, что коллаборация получает результат, сильно противоречащий какой-то гипотезе, перепроверяет анализ много раз и никаких ошибок у себя не находит. Однако этот результат затем не подтверждается другими — порой намного более точными! — экспериментами. Почему первый эксперимент дал такой странный результат, что в нём было не то, где там ошибка или неучтенная погрешность — всё это зачастую так и остается непонятым (впрочем, иногда источник ошибки быстро вскрывается, как это случилось со «сверхсветовыми» нейтрино в эксперименте OPERA).

Физики к таким оборотам событий уже привыкли, поэтому каждый экспериментальный результат, сильно отличающийся от всей сложившейся к тому времени картины, вызывает оправданный скепсис. Физики так консервативны в своем отношении вовсе не потому, что они ретрограды и намертво уверовали в какую-то одну теорию, как это хотят представить опровергатели физики. Они просто научены всем предыдущим опытом в физике частиц и знают, чем это обычно кончается. Поэтому без независимого подтверждения другими экспериментами подобные сенсации они не поддерживают.

ФЭЧ в сравнении с другими науками

Надо сказать, что сформулированные выше жесткие критерии статистической достоверности характерны именно для физики элементарных частиц и некоторых смежных разделов. Во многих других разделах физики, а тем более в других дисциплинах (в особенности, в биомедицинских науках) критерии намного слабее.

Предположим, вы измерили некие данные и хотите узнать, какова вероятность того, что они «вписываются в норму». Вы проводите статистический тест, который дает вам вероятность того, что «нормальная ситуация» без какого-либо реального отклонения только за счет статистической флуктуации даст вот такое или еще более сильное отклонение. Эта вероятность называется p-значение. В биологии пороговое p-значение, ниже которого уже уверенно говорят про реальное отличие, составляет один или даже несколько процентов. В физике элементарных частиц такое отличие вообще не считают значимым, тут нет даже «указания на существование» какого-то отличия! Ответственное заявление об отличии звучит в ФЭЧ только для p-значений меньше одной двухмиллионной (то есть отклонение больше 5σ). Такой жесткий подход к достоверности утверждений выработался в ФЭЧ примерно полвека назад, в эпоху, когда экспериментаторы видели много отклонений со значимостью в районе 3σ и смело заявляли об открытии новых частиц, хотя потом эти «открытия» не подтверждались. Подробный рассказ об истоках этого критерия см. в постах Tommaso Dorigo (часть 1, часть 2).

Стандартное отклонение (сигма) | Кинезиолог

 Стандартное отклонение — это корень из суммы квадратов разностей между элементами выборки и средним, деленной на количество элементов в выборке (либо n, либо n-1).

Синонимы: стандартное отклонение, сигма, среднеквадратичное отклонение, среднеквадратическое отклонение.

STDEV=√[(∑(x-x)2)/n]

Если количество элементо в выборке не превышает 30, то знаменатель дроби под корнем принимает значение n-1,  и тогда функция для вычисления называется STDEV или СТАНДОТКЛОН. А если превышает 30, то знаменатель дроби под корнем принимает значение n, и эта функция называется STDEVP (или СТАНДОТКЛОН.Г, т.е. стандартное отклонение по генеральной совокупности, заданной аргументами).

Пошагово вычисление стандартного отклонения:

  • вычисляем среднее арифметическое выборки данных
  • отнимаем это среднее от каждого элемента выборки
  • все полученные разности возводим в квадрат
  • суммируем все полученные квадраты
  • делим полученную сумму на количество элементов в выборке (или на n-1, если n>30)
  • вычисляем квадратный корень из полученного частного (именуемого дисперсией).

 Стандартное отклонение выборки

s = [ ∑(xi-xbar)2/n-1]1/2

xbar (х с чёрточкой сверху: x ) — это выборочное среднее
n — число наблюдений в выборке.

Сигма σ

Широко известно также такое понятие как σ («сигма»). Это тоже стандартное отклонение. Но это стандартное отклонение всей генеральной совокупности, а не вашей выборки.

σ = [ ∑(xi-µ)2/N]1/2

где
µ — среднее генеральной совокупности (например, популяции)
N — размер генеральной совокупности (популяции).

Пошаговая инструкция для вычисления в таблицах Excel среднего значения и стандартного отклонения.

 

Среднеквадратическое отклонение — Википедия

Среднеквадрати́ческое отклоне́ние (синонимы: среднее квадрати́ческое отклоне́ние, среднеквадрати́чное отклоне́ние, квадрати́чное отклоне́ние; близкие термины: станда́ртное отклоне́ние, станда́ртный разбро́с) — в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическое совокупности выборок (измерений), это среднее арифметическое называют оценкой математического ожидания .

В литературе обычно обозначают греческой буквой σ{\displaystyle \sigma } (сигма) или буквой S{\displaystyle S}.

Основные сведения

Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами. Определяется как квадратный корень из дисперсии случайной величины.

На практике, когда вместо точного распределения случайной величины в распоряжении имеется лишь выборка, стандартное отклонение оценивают (выборочная дисперсия), и делать это можно разными способами. Термины «стандартное отклонение» и «среднеквадратическое отклонение» обычно применяют к квадратному корню из дисперсии случайной величины (определённому через её истинное распределение), но иногда и к различным вариантам оценки этой величины на основании выборки.

Стандартное отклонение на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией[1]):

S=1n∑i=1n(xi−x¯)2.{\displaystyle S={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}.}

Стандартное отклонение на основании несмещённой оценки дисперсии (подправленная выборочная дисперсия[1], в ГОСТ Р 8.736-2011 — «среднее квадратическое отклонение»):

S0=nn−1S2=1n−1∑i=1n(xi−x¯)2;{\displaystyle S_{0}={\sqrt {{\frac {n}{n-1}}S^{2}}}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}};}

где S2{\displaystyle S^{2}} — выборочная дисперсия; xi{\displaystyle x_{i}} — i-й элемент выборки; n{\displaystyle n} — объём выборки; x¯{\displaystyle {\bar {x}}} — среднее арифметическое выборки (выборочное среднее):

x¯=1n∑i=1nxi=1n(x1+…+xn).{\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\ldots +x_{n}).}

Само по себе, однако, S0{\displaystyle S_{0}} не является несмещённой оценкой квадратного корня из дисперсии, то есть извлечение квадратного корня «портит» несмещённость.

Обе оценки являются состоятельными[1].

В более общем случае среднеквадратическим отклонением называют математическое ожидание квадрата разности истинного значения случайной величины и её оценки для некоторого метода оценки[2]. Если оценка несмещённая (выборочное среднее — как раз несмещённая оценка для случайной величины), то эта величина равна дисперсии.

Правило трёх сигм

Правило трёх сигм (3σ{\displaystyle 3\sigma }) — практически все значения нормально распределённой случайной величины лежат в интервале (x¯−3σ;x¯+3σ){\displaystyle \left({\bar {x}}-3\sigma ;{\bar {x}}+3\sigma \right)}. Более строго — приблизительно с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в указанном интервале (при условии, что величина x¯{\displaystyle {\bar {x}}} истинная, а не полученная в результате обработки выборки).

Интерпретация величины среднеквадратического отклонения

Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения — значения внутри множества сильно расходятся со средним значением.

В общем смысле среднеквадратическое отклонение можно считать мерой неопределённости. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.

Практическое применение

На практике среднеквадратическое отклонение позволяет оценить, насколько значения из множества могут отличаться от среднего значения.

Экономика и финансы

Среднее квадратическое отклонение доходности портфеля σ=D[X]{\displaystyle \sigma ={\sqrt {D[X]}}} отождествляется с риском портфеля.

В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера, расчёта волатильности.

Климат

Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой на равнине. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.

Спорт

Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.

Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.

См. также

Примечания

  1. 1 2 3 Ивченко Г. И., Медведев Ю. И. Введение в математическую статистику. — М. : Издательство ЛКИ, 2010. — §2.2. Выборочные моменты: точная и асимптотическая теория. — ISBN 978-5-382-01013-7.
  2. C. Patrignani et al. (Particle Data Group). 39. STATISTICS. — В: Review of Particle Physics // Chin. Phys. C. — 2016. — Vol. 40. — P. 100001. — DOI:10.1088/1674-1137/40/10/100001.

Литература

  • Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. — СПб.: Питер, 2003. — 688 с. — ISBN 5-272-00078-1..

Как найти среднеквадратическое отклонение

В данной статье я расскажу о том, как найти среднеквадратическое отклонение. Этот материал крайне важен для полноценного понимания математики, поэтому репетитор по математике должен посвятить его изучению отдельный урок или даже несколько. В этой статье вы найдёте ссылку на подробный и понятный видеоурок, в котором рассказано о том, что такое среднеквадратическое отклонение и как его найти.

Среднеквадратическое отклонение дает возможность оценить разброс значений, полученных в результате измерения какого-то параметра. Обозначается символом  (греческая буква «сигма»).

Формула для расчета довольно проста. Чтобы найти среднеквадратическое отклонение, нужно взять квадратный корень из дисперсии. Так что теперь вы должны спросить: “А что же такое дисперсия?”

Что такое дисперсия

Определение дисперсии звучит так. Дисперсия — это среднее арифметическое от квадратов отклонений значений от среднего.

Чтобы найти дисперсию последовательно проведите следующие вычисления:

  • Определите среднее (простое среднее арифметическое ряда значений).
  • Затем от каждого из значений отнимите среднее и возведите полученную разность в квадрат (получили квадрат разности).
  • Следующим шагом будет вычисление среднего арифметического полученных квадратов разностей (Почему именно квадратов вы сможете узнать ниже).

Рассмотрим на примере. Допустим, вы с друзьями решили измерить рост ваших собак (в миллиметрах). В результате измерений вы получили следующие данные измерений роста (в холке): 600 мм, 470 мм, 170 мм, 430 мм и 300 мм.

Порода собакиРост в миллиметрах
Ротвейлер600
Бульдог470
Такса170
Пудель430
Мопс300

Вычислим среднее значение, дисперсию и среднеквадратическое отклонение.

Сперва найдём среднее значение. Как вы уже знаете, для этого нужно сложить все измеренные значения и поделить на количество измерений. Ход вычислений:

Среднее   мм.

Итак, среднее (среднеарифметическое) составляет 394 мм.

Теперь нужно определить отклонение роста каждой из собак от среднего:

   

Наконец, чтобы вычислить дисперсию, каждую из полученных разностей возводим в квадрат, а затем находим среднее арифметическое от полученных результатов:

Дисперсия мм2.

Таким образом, дисперсия составляет 21704 мм2.

Как найти среднеквадратическое отклонение

Так как же теперь вычислить среднеквадратическое отклонение, зная дисперсию? Как мы помним, взять из нее квадратный корень. То есть среднеквадратическое отклонение равно:

мм (округлено до ближайшего целого значения в мм).

Применив данный метод, мы выяснили, что некоторые собаки (например, ротвейлеры) – очень большие собаки. Но есть и очень маленькие собаки (например, таксы, только говорить им этого не стоит).

Самое интересное, что среднеквадратическое отклонение несет в себе полезную информацию. Теперь мы можем показать, какие из полученных результатов измерения роста находятся в пределах интервала, который мы получим, если отложим от среднего (в обе стороны от него) среднеквадратическое отклонение.

То есть с помощью среднеквадратического отклонения мы получаем “стандартный” метод, который позволяет узнать, какое из значений является нормальным (среднестатистическим), а какое экстраординарно большим или, наоборот, малым.

Что такое стандартное отклонение

Но… все будет немного иначе, если мы будем анализировать выборку данных. В нашем примере мы рассматривали генеральную совокупность. То есть наши 5 собак были единственными в мире собаками, которые нас интересовали.

Но если данные являются выборкой (значениями, которые выбрали из большой генеральной совокупности), тогда вычисления нужно вести иначе.

Если есть значений, то:

  • Когда мы имеем дело с генеральной совокупностью при вычислении дисперсии, мы делим на  (как и было сделано в рассмотренном нами примере).
  • Когда мы имеем дело с выборкой, при вычислении дисперсии делим на .

Все остальные расчеты производятся аналогично, в том числе и определение среднего.

Например, если наших пять собак – только выборка из генеральной совокупности собак (всех собак на планете), мы должны делить на 4, а не на 5, а именно:

Дисперсия выборки =  мм2.

При этом стандартное отклонение по выборке равно мм (округлено до ближайшего целого значения).

Можно сказать, что мы произвели некоторую “коррекцию” в случае, когда наши значения являются всего лишь небольшой выборкой.

Примечание. Почему именно квадраты разностей?

Но почему при вычислении дисперсии мы берём именно квадраты разностей? Допустим при измерении какого-то параметра, вы получили следующий набор значений: 4; 4; -4; -4. Если мы просто сложим абсолютные отклонения от среднего (разности) между собой … отрицательные значения взаимно уничтожатся с положительными:

.

Получается, этот вариант бесполезен. Тогда, может, стоит попробовать абсолютные значения отклонений (то есть модули этих значений)?

.

На первый взгляд получается неплохо (полученная величина, кстати, называется средним абсолютным отклонением), но не во всех случаях. Попробуем другой пример. Пусть в результате измерения получился следующий набор значений: 7; 1; -6; -2. Тогда среднее абсолютное отклонение равно:

.

Вот это да! Снова получили результат 4, хотя разности имеют гораздо больший разброс.

А теперь посмотрим, что получится, если возвести разности в квадрат (и взять потом квадратный корень из их суммы).

Для первого примера получится:

.

Для второго примера получится:

.

Теперь – совсем другое дело! Среднеквадратическое отклонение получается тем большим, чем больший разброс имеют разности … к чему мы и стремились.

Фактически в данном методе использована та же идея, что и при вычислении расстояния между точками, только примененная иным способом.

И с математической точки зрения использование квадратов и квадратных корней дает больше пользы, чем мы могли бы получить на основании абсолютных значений отклонений, благодаря чему среднеквадратическое отклонение применимо и для других математических задач.

О том, как найти среднеквадратическое отклонение, вам рассказал репетитор по математике в Москве, Сергей Валерьевич

Среднеквадратическое отклонение · Loginom Wiki

Синонимы: Среднее квадратическое отклонение, Среднеквадратичное отклонение, Квадратичное отклонение, Стандартное отклонение, Standard deviation

Разделы: Метрики

Loginom: Статистика (визуализатор)

Среднеквадратическое отклонение — статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания. Обозначается греческой σ (сигма) или буквой S.

Среднеквадратическое отклонение измеряется в единицах самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

Определяется как квадратный корень из дисперсии случайной величины. Стандартное отклонение на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией):

S=√1nn∑i=1(xi−¯x)2.

Стандартное отклонение на основании несмещённой оценки дисперсии:

S0=√nn−1S2=√1n−1n∑i=1(xi−¯x)2,

где S2 — выборочная дисперсия; xi — i-й элемент выборки; n — объём выборки; ¯x — среднее арифметическое выборки (выборочное среднее):

¯x=1nn∑i=1xi=1n(x1+…+xn).

Большее значение среднеквадратического отклонения показывает больший разброс наблюдаемых значений признака относительно среднего; меньшее значение, соответственно, показывает, что величины в множестве сгруппированы вокруг среднего.

Наряду с дисперсией среднеквадратическое отклонение является одним из параметров нормального распределения. Чем оно выше, тем длиннее «хвосты» распределения.

В анализе данных среднеквадратическое отклонение может использоваться в качестве меры изменчивости значений признаков, степени отклонения желаемых показателей от наблюдаемых, а также для обнаружения выбросов и аномальных значений в данных c помощью правила трёх сигм.

Среднеквадратическое отклонение — Википедия

Среднеквадрати́ческое отклоне́ние (синонимы: среднее квадрати́ческое отклоне́ние, среднеквадрати́чное отклоне́ние, квадрати́чное отклоне́ние; близкие термины: станда́ртное отклоне́ние, станда́ртный разбро́с) — в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическое совокупности выборок (измерений), это среднее арифметическое называют оценкой математического ожидания .

В литературе обычно обозначают греческой буквой σ{\displaystyle \sigma } (сигма) или буквой S{\displaystyle S}.

Основные сведения

Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами. Определяется как квадратный корень из дисперсии случайной величины.

На практике, когда вместо точного распределения случайной величины в распоряжении имеется лишь выборка, стандартное отклонение оценивают (выборочная дисперсия), и делать это можно разными способами. Термины «стандартное отклонение» и «среднеквадратическое отклонение» обычно применяют к квадратному корню из дисперсии случайной величины (определённому через её истинное распределение), но иногда и к различным вариантам оценки этой величины на основании выборки.

Стандартное отклонение на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией[1]):

S=1n∑i=1n(xi−x¯)2.{\displaystyle S={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}.}

Стандартное отклонение на основании несмещённой оценки дисперсии (подправленная выборочная дисперсия[1], в ГОСТ Р 8.736-2011 — «среднее квадратическое отклонение»):

S0=nn−1S2=1n−1∑i=1n(xi−x¯)2;{\displaystyle S_{0}={\sqrt {{\frac {n}{n-1}}S^{2}}}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}};}

где S2{\displaystyle S^{2}} — выборочная дисперсия; xi{\displaystyle x_{i}} — i-й элемент выборки; n{\displaystyle n} — объём выборки; x¯{\displaystyle {\bar {x}}} — среднее арифметическое выборки (выборочное среднее):

x¯=1n∑i=1nxi=1n(x1+…+xn).{\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\ldots +x_{n}).}

Само по себе, однако, S0{\displaystyle S_{0}} не является несмещённой оценкой квадратного корня из дисперсии, то есть извлечение квадратного корня «портит» несмещённость.

Обе оценки являются состоятельными[1].

В более общем случае среднеквадратическим отклонением называют математическое ожидание квадрата разности истинного значения случайной величины и её оценки для некоторого метода оценки[2]. Если оценка несмещённая (выборочное среднее — как раз несмещённая оценка для случайной величины), то эта величина равна дисперсии.

Правило трёх сигм

Правило трёх сигм (3σ{\displaystyle 3\sigma }) — практически все значения нормально распределённой случайной величины лежат в интервале (x¯−3σ;x¯+3σ){\displaystyle \left({\bar {x}}-3\sigma ;{\bar {x}}+3\sigma \right)}. Более строго — приблизительно с вероятностью 0,9973 значение нормально распределённой случайной величины лежит в указанном интервале (при условии, что величина x¯{\displaystyle {\bar {x}}} истинная, а не полученная в результате обработки выборки).

Интерпретация величины среднеквадратического отклонения

Большее значение среднеквадратического отклонения показывает больший разброс значений в представленном множестве со средней величиной множества; меньшее значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения — значения внутри множества сильно расходятся со средним значением.

В общем смысле среднеквадратическое отклонение можно считать мерой неопределённости. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.

Практическое применение

На практике среднеквадратическое отклонение позволяет оценить, насколько значения из множества могут отличаться от среднего значения.

Экономика и финансы

Среднее квадратическое отклонение доходности портфеля σ=D[X]{\displaystyle \sigma ={\sqrt {D[X]}}} отождествляется с риском портфеля.

В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера, расчёта волатильности.

Климат

Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой на равнине. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.

Спорт

Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.

Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.

См. также

Примечания

  1. 1 2 3 Ивченко Г. И., Медведев Ю. И. Введение в математическую статистику. — М. : Издательство ЛКИ, 2010. — §2.2. Выборочные моменты: точная и асимптотическая теория. — ISBN 978-5-382-01013-7.
  2. C. Patrignani et al. (Particle Data Group). 39. STATISTICS. — В: Review of Particle Physics // Chin. Phys. C. — 2016. — Vol. 40. — P. 100001. — DOI:10.1088/1674-1137/40/10/100001.

Литература

  • Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. — СПб.: Питер, 2003. — 688 с. — ISBN 5-272-00078-1..

Среднеквадратическое отклонение — это… Что такое Среднеквадратическое отклонение?

Среднеквадрати́ческое отклоне́ние (синонимы: среднеквадрати́чное отклоне́ние, квадрати́чное отклоне́ние; близкие термины: станда́ртное отклоне́ние, станда́ртный разбро́с) — в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания.

Основные сведения

Измеряется в единицах измерения самой случайной величины. Равно корню квадратному из дисперсии случайной величины. Среднеквадратическое отклонение используют при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

Среднеквадратическое отклонение:

Стандартное отклонение (оценка среднеквадратического отклонения случайной величины Пол, стены вокруг нас и потолок,x относительно её математического ожидания на основе несмещённой оценки её дисперсии):

где  — дисперсия;  — Пол, стены вокруг нас и потолок,i-й элемент выборки;  — объём выборки;  — среднее арифметическое выборки:

Следует отметить, что обе оценки являются смещёнными. В общем случае несмещённую оценку построить невозможно. Однако оценка на основе оценки несмещённой дисперсии является состоятельной[1].

Правило трёх сигм

Правило трёх сигм () — практически все значения нормально распределённой случайной величины лежат в интервале . Более строго — не менее чем с 99,7 % достоверностью значение нормально распределенной случайной величины лежит в указанном интервале (при условии, что величина истинная, а не полученная в результате обработки выборки).

Если же истинная величина неизвестна, то следует пользоваться не , а Пол, стены вокруг нас и потолок,s. Таким образом, правило трёх сигм преобразуется в правило трёх Пол, стены вокруг нас и потолок,s.

Интерпретация величины среднеквадратического отклонения

Большое значение среднеквадратического отклонения показывает большой разброс значений в представленном множестве со средней величиной множества; маленькое значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратическое отклонение маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения — значения внутри множества сильно расходятся со средним значением.

В общем смысле среднеквадратическое отклонение можно считать мерой неопределенности. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.

Практическое применение

На практике среднеквадратическое отклонение позволяет определить, насколько значения в множестве могут отличаться от среднего значения.

Климат

Предположим, существуют два города с одинаковой средней максимальной дневной температурой, но один расположен на побережье, а другой внутри континента. Известно, что в городах, расположенных на побережье, множество различных максимальных дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднеквадратическое отклонение максимальных дневных температур у прибрежного города будет меньше, чем у второго города, несмотря на то, что среднее значение этой величины у них одинаковое, что на практике означает, что вероятность того, что максимальная температура воздуха каждого конкретного дня в году будет сильнее отличаться от среднего значения, выше у города, расположенного внутри континента.

Спорт

Предположим, что есть несколько футбольных команд, которые оцениваются по некоторому набору параметров, например, количеству забитых и пропущенных голов, голевых моментов и т. п. Наиболее вероятно, что лучшая в этой группе команда будет иметь лучшие значения по большему количеству параметров. Чем меньше у команды среднеквадратическое отклонение по каждому из представленных параметров, тем предсказуемее является результат команды, такие команды являются сбалансированными. С другой стороны, у команды с большим значением среднеквадратического отклонения сложно предсказать результат, что в свою очередь объясняется дисбалансом, например, сильной защитой, но слабым нападением.

Использование среднеквадратического отклонения параметров команды позволяет в той или иной мере предсказать результат матча двух команд, оценивая сильные и слабые стороны команд, а значит, и выбираемых способов борьбы.

Технический анализ

В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера.

См. также

Литература

* Боровиков, В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов / В. Боровиков. — СПб.: Питер, 2003. — 688 с. — ISBN 5-272-00078-1.

  1. Обе вышеупомянутые оценки — состоятельные
Столбчатая диаграмма · Совмещённая диаграмма · Диаграмма управления · Лесная диаграмма · Гистограмма · Q-Q диаграмма · Диаграмма выполнения · Диаграмма разброса · Стебель-листья · Ящик с усами

Базовая статистика в шести сигмах

Модуль Описание Тип
Обзор

Что такое Шесть сигм

Различные определения «Шести сигм» объясняются в этом видео 5:42. Мы специально обсуждаем 6 определений «сигмы», заканчивая наиболее подходящим определением, которое связано с методом решения проблем DMAIC.

Обзор

Фреймворк DMAIC

В этом видео 4:17 мы объясняем структуру DMAIC и даем введение в каждую фазу DMAIC.Мы специально показываем раскадровку для каждого этапа в структуре DMAIC.

Обзор

DMAIC по сравнению с PDCA

В статье описывается использование PDCA в Lean, а также сходства и общая история между PDCA и DMAIC.

Обзор

История шести сигм и бережливого производства

В этом видео мы рассмотрим различных участников «Шести сигм», их вклад и то, почему это важно в практике современной «Шесть сигм».Мы также рассмотрим историю производственной системы Toyota и то, как появился термин «бережливое производство». Видео длится 7:36.

Обзор

История бережливого производства и сроки

В этой статье представлена ​​подробная история и хронология бережливого производства и непрерывного совершенствования, начиная с 1600-х годов.

Обзор

Сертификат черного пояса

В этой статье мы предоставляем различные ресурсы, где вы можете сдать экзамен на черный пояс, если захотите.Мы также обсуждаем положительные и отрицательные стороны сертификации «Черный пояс».

ОПРЕДЕЛЕНИЕ
Определить

Раскадровка Define Phase

Мы представляем этап определения и показываем раскадровку «Определение раскадровки», высокоуровневую карту того, о чем идет речь, и ожидаемых результатов. Длина видео 3:50.

Определить

Оценка бизнес-потребностей

В этом видео мы обсуждаем, как определить бизнес-потребности организации и как использовать эти знания и превратить их в формальный проект DMAIC, который получит поддержку и поддержку со стороны высшего руководства.Продолжительность видео 6:46.

Определить

Устав проекта

В этом видео продолжительностью 5:37 минут мы объясняем роль устава проекта и его важность в проектах Six Sigma DMAIC. Длина видео 5:37.

Определить

Матрица выбора проекта

В этом коротком видео продолжительностью 2:51 минуты мы узнаем простой и эффективный метод определения приоритетов между конкурирующими приоритетами.Этот метод важен для выбора проекта улучшения.

Определить Описание проблемы

Если правильно сформулировать проблему, вы приблизитесь к ее решению. В этом видео мы покажем вам, как это сделать, а также несколько реальных примеров эффективных постановок задач. Длина видео 5:42.

Определить

Анализ заинтересованных сторон

Выявление заинтересованных сторон и их потребностей — один из самых важных шагов в Define.Это особенно важно, если есть влиятельные заинтересованные стороны, которые сопротивляются вашему сообщению. Длина видео 2:47.

Определить

Диаграмма родства

Диаграмма сходства — это проверенный и верный метод мозгового штурма и придумывания идей. Узнайте, как применять эту технику, из этого видео. Длина видео 4:25.

Определить

SIPOC

Определение ключевых точек, в которых могут быть сделаны решающие измерения.Это видео покажет вам, как это сделать. Продолжительность видео 3:01.

Определить

Голос заказчика и CTQ

В этом видео продолжительностью 5:11 мы объясняем «Голос клиента» и то, как «Шесть сигм» укоренены в клиенте. Мы объясняем, как перевести голос клиента в критически важные показатели качества.

Определить

Дерево критических показателей качества

Статья, объясняющая критически важное для качества дерево, с примерами и шаблоном для загрузки, чтобы вы могли создать свой собственный для своих проектов шести сигм.

Определить

Карта потока создания ценности

Из этого видеоролика 4:42 вы научитесь понимать символы карты потока создания ценности и научитесь создавать свою собственную карту потока создания ценности. Мы предоставляем вам для загрузки zip-файл с символами VSM.

Определить

Kano Модель

Мы объясняем модель Кано, чтобы определить характеристики услуг и продуктов, которые должны быть «удовлетворительными», и те, которые должны быть «достаточно хорошими» и не нуждаются в дальнейшем продвижении.

ИЗМЕРЕНИЕ
Размер

Раскадровка фазы измерения

Мы представляем этап измерения и показываем раскадровку измерения, карту высокого уровня, показывающую, что это за этап, и ожидаемые результаты.

Размер

Типы данных в системе шести сигм

В этой статье мы объясняем различные типы данных, чем они отличаются и что они говорят нам о поведении процессов.Мы также узнаем, как собирать данные. Длина видео 5:24.

Размер

Описательная статистика

В этом модуле мы изучаем различные меры данных, которые сообщают нам ключевые характеристики набора данных. Мы также заложим основу для обсуждения распределений в следующем модуле.

Размер

Распределения

Это краткое введение в статистические распределения и какие выводы мы можем сделать из них.

Размер

Графическое представление данных

Для эффективной передачи смысла требуется эффективное графическое представление данных. В этом модуле мы узнаем о различных графических методах и о том, как их использовать.

Размер

7 инструментов качества

Мы кратко представим каждый из 7 инструментов качества. Мы следим за этим видео, несколько видеороликов, в которых мы подробно останавливаемся на каждом из 7 инструментов качества.Длина видео 4:46.

Размер

Контрольные листы

В этом HD-видео мы объясняем контрольную таблицу, для чего она используется, видим различные примеры контрольных таблиц, как ее создать, а также сможем загрузить шаблон контрольной таблицы из библиотеки содержимого Shmula. Длина видео 3:53.

Размер

Диаграмма Парето

В этом видео продолжительностью 4:48 минут вы узнаете историю принципа Парето, почему он важен и как применять принцип Парето в ваших усилиях по бережливому производству и шести сигмам с использованием Excel.

Размер

Гистограмма

Это видео о гистограмме объясняет, что это такое, когда и как использовать. Продолжительность видео 3:01.

Размер

Точечная диаграмма

В этом коротком видео 4:27 мы представляем диаграмму рассеяния, что это такое, зачем ее использовать и как она может быть полезна в ваших проектах шести сигм.

Размер

Причинно-следственная диаграмма

Это 5:21 минутное видео объясняет причинно-следственную диаграмму — что это такое, когда ее использовать и как ее создать.

Размер

Контрольная карта

В этом видео мы познакомим вас с контрольной таблицей — что это такое, где ее использовать, когда и как ее использовать. Продолжительность видео 7:05.

Размер

Диаграмма хода

В процессе

Выполняется
Размер

Эффективность технологического цикла

Эффективность цикла процессов — это более современный инструмент, который рассматривает процессы с точки зрения ценности и потерь.Мы покажем вам, как это сделать и почему это важно.

Выполняется
Размер

FMEA

Анализ последствий режима сбоя — это проверенный временем метод и методика для быстрого определения путей, в которых могут возникнуть проблемы процесса, и способов их быстрого устранения. Продолжительность видео 4:45.

Размер

Базовая статистика

В этой статье мы подробно объясняем основные типы данных, шкалы и язык шести сигм.

Размер

Использование значений Z

Мы узнаем о Z Values ​​или Z Score с приложениями в проектах Six Sigma.

Размер

Расчет размера выборки

В этом модуле мы узнаем основы расчета размера выборки и то, как они используются в шести сигмах. Мы также предоставляем калькулятор размера выборки в разделе шаблонов.

Размер

Введение в вариацию

Эта статья знакомит учащихся с концепцией вариаций и их влиянием на качество обслуживания клиентов.

Размер

Эксперимент с красной бусиной, часть 1

Введение в эксперимент с красной бусиной.

Размер

Эксперимент с красной бусиной, часть 2

Во второй части мы на самом деле быстро проводим эксперимент.

Размер

Эксперимент с красной бусиной, часть 3

В этом видео мы объясняем и проводим дополнительные прогоны эксперимента.

Размер

Эксперимент с красной бусиной, часть 4

В этом видео мы продолжаем наш эксперимент и рассмотрим некоторые из самых известных цитат доктора Деминга.

Размер

Эксперимент с красной бусиной, часть 5

Продолжаем эксперимент, уделяя особое внимание тому, как лучше всего организовать мероприятие.

Размер

Эксперимент с красной бусиной, часть 6

В этом последнем видео из серии мы рассмотрим ключевые уроки, извлеченные из знаменитого эксперимента Деминга с вариациями.

Размер

Анализ системы измерений

В этом видео мы обсуждаем вариации и их влияние на наши методы измерения. Длина видео составляет 5:28, и мы показываем примеры вместе с советами о том, как бороться с плохой метрологией.Продолжительность видео 5:28.

Размер

Датчик R&R

В этом видео мы объясняем, что такое Gauge R&R Test, и приводим различные примеры того, где и как он может применяться в промышленности.

Выполняется
АНАЛИЗ
Анализировать

Раскадровка фазы анализа

Мы представляем этап анализа и показываем раскадровку анализа, карту высокого уровня, показывающую, что это за этап, и ожидаемые результаты.

Выполняется
Анализировать

Мозговой штурм

Мы представляем различные методы мозгового штурма. Некоторые обычные, а некоторые не очень и более современные. Некоторые из этих методов заимствованы из дизайн-мышления и оказались очень эффективными при поиске новаторских и простых решений проблем.

Выполняется
Анализировать

5 Whys and Fishbone Диаграмма

В этом видео мы объясняем упражнение «5 Почему» и показываем множество примеров.Мы расширяем «5 почему» и показываем, как они естественным образом приводят к диаграмме «Рыбья кость».

Выполняется
Анализировать

Проверка основных причин

Мы представляем проверку гипотез и различные методы для этого, включая регрессию, T-тест, хи-квадрат и ANOVA.

Выполняется
Анализировать

Проверка гипотез

В процессе

Выполняется
Анализировать

Регрессия

В процессе

Выполняется
Анализировать

T Тест

В процессе

Выполняется
Анализировать

Площадь Ши

В процессе

Выполняется
Анализировать

ANOVA

В процессе

Выполняется
УЛУЧШИТЬ
Улучшить

Раскадровка фазы улучшения

Мы представляем фазу улучшения и показываем улучшенную раскадровку, карту высокого уровня, показывающую, что это за фаза, и ожидаемые результаты.

Выполняется
Улучшить

Управление изменениями

Мы познакомим вас с несколькими моделями управления изменениями, которые оказались эффективными на практике. Мы показываем, что это такое, как их делать.

Выполняется
Улучшить

Матрица выбора решения

Матрица выбора решений — это простой инструмент, который помогает команде проголосовать и решить, какое решение имеет наибольший смысл вкладывать ресурсы в проекты улучшения.

Выполняется
Улучшить

Возможности процесса

Мы обсуждаем возможности процесса и их отличие от процесса, который не контролируется. Обсуждаем его важность.

Выполняется
Улучшить

Анализ затрат / выгод

Мы представляем концепцию анализа затрат и выгод и предлагаем несколько способов продемонстрировать экономию затрат по проектам «Шесть сигм».

Выполняется
Улучшить

Пока хомут

В рамках фазы улучшения мы представляем концепцию Poka Yoke, или защиты от ошибок, как способ предотвращения дефектов еще до их появления. Мы показываем возможные примеры и обучаем принципам Poka Yoke.

Выполняется
УПРАВЛЕНИЕ
Контроль

Раскадровка контрольной фазы

Мы представляем контрольную фазу и показываем контрольную раскадровку, карту высокого уровня, показывающую, что это за фаза, и ожидаемые результаты.

НЕТ
Контроль

До / после Парето

Мы показываем способы визуально увидеть до и после результатов вашего проекта.

Выполняется
Контроль

Стандартная дичь для свиней

В этом видео продолжительностью 4:55 минут мы покажем вам простую и эффективную игру, в которой рассказывается о важности стандартной работы. Это видео следует посмотреть перед видео о стандартной работе.

Контроль

Стандартная работа

Стандартная работа — это основа бережливого производства и шести сигм. В этом видео продолжительностью 5:36 минут мы объясняем стандартную работу и показываем ее роль в постоянном улучшении.

Контроль

Контрольные карты

Мы обсуждаем различные контрольные диаграммы, почему они важны и как их создавать с учетом вашего процесса и типа данных.

Выполняется

.

Базовая статистика шести сигм | Учебное пособие «Шесть сигм»

Фото Саймона Каннингема

Мы используем следующие основные статистические показатели, чтобы лучше понять, как работает наш процесс.

Среднее значение: Среднее значение всех значений набора данных.

Медиана: Среднее значение набора данных, когда значения расположены в порядке возрастания или убывания

Режим: Общее значение режима набора данных.
Диапазон: Диапазон чисел во всем диапазоне набора.

Стандартное отклонение — см. Статью там.

Central Tendency — см. Статью там.

Также связано, Базовая вероятность

.

Что означает обнаружение 1-сигма, 3-сигма или 5-сигма?

Несколько дней назад я писал в блоге о разногласиях по поводу результата BICEP2 и о возможности того, что в их измеренном сигнале действительно может преобладать загрязнение от переднего плана галактической пылью. Как упоминается в блоге Питера Коулза, их статья опубликована в Physical Review Letters . В аннотации к своей статье команда BICEP2 говорит:

Кросс-корреляция BICEP2 с картами 100 ГГц из эксперимента BICEP1, избыточный сигнал подтверждается значимостью, и его спектральный индекс согласуется со спектральным индексом реликтового излучения, не благоприятствуя пыли при.

Что на самом деле означает фраза типа «со значимостью» ? Это значение, с которым ученые считают результат реальным, в отличие от случайных колебаний фонового сигнала (шума). Чтобы полностью понять, почему ученые цитируют результаты для конкретного случая, и что это означает в деталях, первым шагом является понимание того, что называется нормальным распределением .

Вы можете больше узнать о результате BICEP2 и о том, как были отозваны его выводы, в моей книге «Космический микроволновый фон — как он изменил наше понимание Вселенной» .Перейдите по этой ссылке для получения более подробной информации.

Моя книга «Космический микроволновый фон — как он изменил наше понимание Вселенной» издается Springer. Подробнее об этом читайте по этой ссылке.

Нормальное распределение

Если у вас есть большое количество независимых измерений, то их распределение будет стремиться к так называемому нормальному распределению . Это распределение выглядит следующим образом, где по оси x у нас есть некоторая переменная (например, фоновый шум в сигнале), а ось y представляет частоту, с которой возникает эта переменная.Нормальные распределения обычно нормализуются так, чтобы полная вероятность (площадь под кривой) была равна единице (1), поскольку сумма всех вероятностей всегда равна единице. Кривая часто называют колоколообразной кривой по понятным причинам.

Нормальное распределение выглядит как «колоколообразная кривая». На этом графике ось X представляет собой измеряемую переменную, ось Y — частоту, с которой возникает эта переменная.

Математическая формула для нормального распределения задается так называемой функцией Гаусса (и поэтому другое название нормального распределения — «Гауссово распределение» ) и имеет вид

где — переменная, — среднее значение распределения и — стандартное отклонение распределения.Обычно в статистике есть среднее значение, медиана и мода, но для нормального распределения все они равны. Стандартное отклонение связано с шириной кривой. Например, на рисунке ниже показаны четыре нормальных распределения. Синяя, красная и оранжевая кривые имеют одинаковое среднее значение (ноль), но разные стандартные отклонения, которые связаны с шириной кривой (диаграмма фактически цитирует дисперсию , которая представляет собой просто квадрат стандартного отклонения). Зеленая кривая имеет среднее значение -2, а не 0, и ее стандартное отклонение отличается от трех других.

Четыре разных нормальных распределения. Синяя, красная и оранжевая кривые имеют одинаковое среднее значение (ноль), но разные стандартные отклонения. Зеленая кривая имеет среднее значение -2 и стандартное отклонение, отличное от трех других.

Как видно из этих диаграмм, если полная вероятность под каждой кривой равна единице, то вероятность того, что значение измеряется, зависит от среднего и стандартного отклонения. Чем дальше измерение от среднего (т. Е. К любому концу колоколообразной кривой), тем меньше и меньше вероятность того, что оно будет измерено случайным образом, или, другими словами, тем меньше и меньше вероятность того, что сигнал вызван колебание фона.

Итак, что означает результат 3-сигмы?

Мы можем вычислить вероятность конкретного измерения, если знаем среднее значение и стандартное отклонение нормального распределения. Для этого есть таблицы, они дают площадь под функцией нормального распределения (которая, как мы помним, связана с вероятностью) в терминах параметра, обычно записываемого как. Вот пример такой таблицы.

Таблица вероятностей нормального распределения.

Как пользоваться этой таблицей? Первое, на что следует обратить внимание, это то, что нормальное распределение симметрично относительно среднего, поэтому вероятность от максимального значения до значения среднего равна 0.5.

Предположим, у нас есть нормальное распределение со средним значением и стандартным отклонением. Как бы мы использовали эту таблицу для расчета вероятности значения, большего или равного, например, быть реальным? (то есть любое значение больше, включая 3).

Определение:

, где модуль в числителе всегда положителен. В нашем примере. Таким образом, нахождение в таблице дает совокупную вероятность того, что значение находится между и существует.Таким образом, вероятность значения от.

Если мы пытаемся вычислить вероятность измерения значения, тогда нам нужно помнить, что общая вероятность равна 1, поэтому вероятность значения или. Очевидно, что при выбранном нами значении значение равно 2 сигмам от среднего (), поэтому результат, цитируемый в качестве результата (или достоверности), означает, что он имеет ложное значение и реальное значение.

Что бы мы получили, если бы мы выбрали значение 1-сигма из среднего, или, другими словами, значение? В данном случае, и так по нашей таблице находим.Таким образом, вероятность того, что будет больше или равна 2,5, равна или. Как видите, вероятность того, что результат будет реальным (или вероятность того, что результат будет ложным), не очень высока, поэтому обнаружение сигнала обычно не считается достаточно хорошим, чтобы в него можно было поверить.

Что бы мы получили, если бы выбрали значение 3-сигма из среднего, или, другими словами, значение? В этом случае, и поэтому с помощью нашей таблицы мы находим, поэтому вероятность получения значения , равного или превышающего 3.5 — это или. Итак, когда мы говорим, что обнаружение производится на уровне 3-сигм, мы говорим, что оно достоверно или что вероятность того, что оно будет ложным, просто есть.

Обычно в науке обнаружение 3-сигм считается минимальным, которому можно верить, и довольно часто выбирается 5-сигма, что по сути является вероятностью ложного результата.

Сводка

На рисунке ниже это показано графически.

Вероятности значения, лежащего в пределах 1-сигма, 2-сигма и 3-сигма среднего для нормального распределения.

Чтобы преобразовать эту цифру в то, что мы вычислили выше, просто обратите внимание, что проценты слева от среднего в сумме составляют, поэтому, если мы хотим вычислить вероятность того, что результат будет больше, чем выше среднего, мы будем работать так же, как и выше. Ибо у нас есть (были раньше, разница из-за округления).

А вот таблица, суммирующая значения до двух десятичных знаков.

Итак, возвращаясь к результату BICEP2, они заявляют в своей статье, что их сигнал превышает фоновый (шумовой) сигнал на, что означало бы, что их сигнал с уверенностью реален.Но, конечно, хотя кажется, что нет никаких сомнений в том, что их сигнал реален, остается нерешенным и горячо спорным вопрос о том, является ли сигнал почти полностью результатом реликтового излучения или может быть главным образом вызван галактической пылью на переднем плане. Нам придется подождать, чтобы узнать ответ на этот вопрос!

*** ОБНОВЛЕНИЕ ***

В феврале 2015 года команда BICEP2 отозвала свое заявление об открытии первичной поляризации B-моды и признала, что их обнаружение было связано с галактической пылью.Гораздо больше об этой увлекательной истории вы можете прочитать в моей книге «Космический микроволновый фон — как это изменило наше понимание Вселенной» .

Моя книга «Космический микроволновый фон — как он изменил наше понимание Вселенной» издается Springer. Перейдите по этой ссылке для получения более подробной информации.

Нравится:

Нравится Загрузка …

Связанные

.

Таблица преобразования Шесть сигм

В следующей таблице перечислены дефекты на миллион возможностей с соответствующим уровнем сигмы.

Также показано прямое преобразование в уровень Cpk на основе площади под нормальной кривой. По соглашению, установленному в Motorola, где зародилась программа «Шесть сигм», уровень сигмы корректируется на 1,5 сигмы, чтобы распознавать тенденцию процессов к сдвигу в долгосрочной перспективе.

По сути, 1.Сдвиг в 5 сигм указывает на то, что если вы планируете иметь 3 DPMO в долгосрочной перспективе, процесс должен быть более производительным, чем 4,5 сигма (Cpk), обозначенный нормальной кривой, чтобы приспособиться к нестабильности или сдвигам процесса, которые происходят со временем.

Сдвиг на 1,5 сигма может быть или не быть точной оценкой фактической долгосрочной нестабильности вашего процесса.

Примечание: преобразование уровня сигмы в Cpk составляет только приблизительное значение , поскольку Cpk основывается только на пределе спецификации, ближайшем к среднему значению процесса.Другая сторона распределения процесса, которая может иметь хвост за пределами дальнейших спецификаций, игнорируется при вычислении Cpk.

* Таблица предполагает сдвиг на 1,5 сигма, потому что процессы, как правило, демонстрируют нестабильность такой величины с течением времени. Другими словами, хотя статистические таблицы показывают, что 3,4 дефекта на миллион достигается, когда 4,5 стандартного отклонения процесса (сигма) находятся между средним и ближайшим пределом спецификации, целевой показатель повышается до 6.0 стандартных отклонений, чтобы приспособиться к неблагоприятным сдвигам процесса с течением времени и при этом производить только 3,4 дефекта на миллион возможностей.

Сводка

Хотя первоначальные затраты на ресурсы статистического управления процессами могут быть значительными, возврат инвестиций, полученных от информации и знаний, создаваемых инструментом, снова и снова оказывается успешным. Этот инструмент требует большой координации, и в случае успешного выполнения может значительно улучшить возможность контроля и анализа процессов в ходе проектов по улучшению процессов.

Хотите узнать больше?

MoreSteam.com предлагает широкий спектр онлайн-курсов по бережливому производству и шести сигмам, в том числе курсы «Черный пояс», «Зеленый пояс» и DFSS. Узнайте, как пройти обучение, соответствующее вашему графику, по доступной цене!

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *