Описательной статистики методы: Описательные статистики
Статистика в Data Science — исчерпывающий гид для амбициозных практиков ML
В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning» представляем вашему вниманию пост, который смело можно класть в закладки, — гид по статистике для амбициозных практиков машинного обучения. От ответа на вопрос, что такое статистика, до весьма подробных списков понятий, которые нужно усвоить, чтобы овладеть используемой в работе с проектами ML статистикой. Кроме того, в посте вы найдёте рекомендации литературы.
В современном сверхсвязанном мире данные генерируются и потребляются невиданными ранее темпами. И, как бы нам ни нравилась эта «сверхпроводимость данных», она провоцирует злоупотребления. Дата-сайентисты должны быть обучены использованию статистических методов не только для интерпретации цифр, но и для выявления таких злоупотреблений и защиты людей от введения в заблуждение. Немногие специалисты по статистике имеют формальную подготовку. Хороших книг и курсов, которые обучают статистическим методам с точки зрения науки о данных, немного. В этом посте я пролью свет на следующие вопросы:
- Что такое статистика?
- Статистика в отношении к машинному обучению.
- Зачем вам нужно осваивать статистику.
- Какому учебному плану следовать, чтобы освоить эти темы.
- Как изучать статистику, чтобы стать практиком, а не просто человеком, который правильно сдаёт тесты.
- Практические советы и обучающие ресурсы.
Что такое статистика?
Статистика — это набор математических методов и инструментов, позволяющих ответить на важные вопросы о данных. Она делится на две категории:
- Описательная статистика. Предлагает методы резюмирования данных путем преобразования необработанных наблюдений в значимую информацию, которую легко интерпретировать и распространять.
- Логическая статистика. Предлагает методы изучения экспериментов, выполненных на маленьких образцах данных, и умозаключения для всей популяции (всего домена).
Сегодня статистика и машинное обучение — две тесно связанные между собой области. Статистика дает важные предпосылки для прикладного машинного обучения: она помогает выбирать, оценивать и интерпретировать модели прогнозирования.
Статистика в машинном обучении
В основе машинного обучения лежит статистика. Невозможно решить реальные проблемы с помощью машинного обучения, если вы не обладаете хорошим знанием основ статистики.
Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.
Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.
Зачем вам осваивать статистику?
Каждая организация стремится стать управляемой данными. Вот почему мы наблюдаем такой рост спроса на дата-сайентистов и аналитиков. Сегодня, чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. К счастью, статистика предлагает набор инструментов для получения этих знаний.
От данных к знаниям
Сами по себе сырые наблюдения — это просто данные. Чтобы трансформировать наблюдения в имеющие смысл идеи, применяется описательная статистика. Затем возможно применить логическую статистику, чтобы изучить небольшие выборки данных и дать схему с выводами для экстраполяции результатов на всю совокупность данных.
Статистика помогает ответить на вопросы, подобные этим
- Какие из признаков наиболее важны?
- Как проектировать эксперимент, чтобы разработать стратегию продукта?
- Какие показатели производительности мы должны измерять?
- Какой самый распространенный и ожидаемый результат?
- Как отличить шум от достоверных данных?
Это важные и общие вопросы, на которые ежедневно приходится отвечать работающим с данными командами. Ответы на эти вопросы помогают эффективно принимать решения. Статистические методы помогают нам не только настраивать проекты прогнозного моделирования, но и интерпретировать результаты.
Статистика и проекты по машинному обучению
Почти каждый состоит из перечисленных ниже задач. И статистика играет в той или иной форме центральную роль во всех этих задачах. Ниже примеры:
Уточнение постановки проблемы
Наиболее важной частью прогностического моделирования является фактическое определение проблемы, дающее реальную цель, к которой мы должны стремиться. Это помогает определить тип проблемы, с которой мы имеем дело (то есть регрессия это или классификация), а также помогает в определении структуры и типов входных, выходных данных и метрик с учетом поставленной задачи. Но подстановка проблем не всегда проста. Если вы новичок в машинном обучении, она может потребовать значительного изучения наблюдений в вашей области. Два основных понятия, которые необходимо освоить здесь — это экспериментальный анализ данных (EDA) и добыча данных (Data Mining).
Первоначальное исследование данных
Исследование данных включает в себя получение глубокого понимания как распределения переменных, так и отношений между переменными в ваших данных.
Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.
Очистка данных
Часто точки данных, собранные из эксперимента или хранилища данных, являются нетронутыми. Данные могли быть подвергнуты процессам или манипуляциям, которые повредили их целостность. Это еще больше влияет на последующие процессы или использующие такие данные модели. Распространённые примеры — пропущенные значения, повреждение данных, ошибки в данных (из-за плохого датчика), а также не приведённые к единой форме данные (наблюдения с разными масштабами). Если вы хотите освоить методы очистки, изучите выявление отклонений и вменение отсутствующих значений.
Подготовка данных и настройка конвейера преобразования
Если данные содержат ошибки и несоответствия, часто нельзя применять их в моделировании. Во-первых, данным, возможно, придётся пройти через набор преобразований, чтобы изменить форму или структуру и сделать их более подходящими для определённой вами задачи, или используемых алгоритмов обучения. Затем можно разработать конвейер таких преобразований, который будет применяться к данным для получения последовательных и совместимых входных данных для модели. Вы должны овладеть такими понятиями, как методы выборки данных и отбора признаков, преобразование данных, их масштабирование и кодирование.
Выбор и оценка модели
Ключевым шагом в решении прогностической проблемы являются выбор и оценка метода обучения. Оценочная статистика поможет вам оценить прогнозы модели на данных, которые модель не видела.
Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.
Тонкая настройка модели
Почти в каждом алгоритме машинного обучения имеется набор гиперпараметров, которые позволяют настроить метод обучения под выбранную вами постановку задачи. Эта гиперпараметрическая настройка часто носит эмпирический, но не аналитический характер. Для оценки влияния различных настроек гиперпараметра на производительность модели требуются большие наборы экспериментов.
Статистика: учебный план для практиков
Хорошая учебная программа по статистике для практиков должна охватывать не только множество методов и инструментов, о которых я только что писал. Она также должна охватывать и изучать наиболее часто встречающиеся проблемы в отрасли. Ниже приведён список широко используемых навыков, которые вам нужно освоить, чтобы пройти собеседование на должность дата-сайентиста и ML и устроиться на работу в этой области.
Основные навыки в статистике
- Определение вопроса, на который можно ответить статистически, чтобы принимать эффективные решения.
- Вычисление и интерпретация общих статистических данных и использование стандартных методов визуализации данных для передачи результатов.
- Понимание того, как математическая статистика применяется в конкретной области, такие понятия, как центральная предельная теорема и закон больших чисел.
- Умение делать выводы из оценок местоположения и изменчивости (ANOVA).
Определение связи между целевыми и независимыми переменными. - Разработка экспериментов по проверке статистических гипотез, A/B тестирование и т. д.
- Вычисление и интерпретация метрик производительности, таких как р-значение, альфа, ошибки первого и второго рода и т. д.
Важные понятия статистики
- Приступая к освоению статистики, нужно понимать типы данных (данные в прямоугольной системе координат и другие данные), оценивать местоположение и вариабельность распределения данных, бинарные и категориальные данные, корреляцию, отношение между различными типами переменных.
- Статистические распределения — случайные числа, закон больших чисел, центральная предельная теорема, стандартная погрешность и т. д.
- Выборка и распределение данных — случайная выборка, смещение выборки, смещение выбора, распределение выборки, бутстрэп, доверительный интервал, нормальное распределение, t-распределение, биномиальное распределение, распределение «хи квадрат», F-распределение, распределение Пуассона и экспоненциальное распределение.
- Статистические эксперименты и и тестирование значимости — A/B тестирование, проведение проверки гипотез (нулевая и альтернативная гипотезы), ресемплирование, статистическая значимость, доверительный интервал, p-значение, альфа [прим. перев. — максимальный шанс допустить ошибку первого рода], t-критерии, степени свободы, выводы из оценок местоположения и изменчивости, критические значения, ковариантность и корреляция, величина эффекта, статистическая мощность.
- Непараметрические статистические методы — ранжирование данных, критерии нормальности, нормализация данных, ранговая корреляция, критерии знаковых рангов, критерий независимости.
Практические советы по обучению
Большинство университетов разработали учебные программы курсов по статистике, чтобы проверить способность студента справляться с трудностями. Они просто проверяют, могут ли учащиеся решать уравнения, определять терминологию и идентифицировать графики, выводящие уравнения, вместо того, чтобы сосредотачиваться на применении этих методов для решения реальных задач. Однако увлеченные специалисты-практики должны следовать пошаговому процессу изучения и реализации статистических методов по различным проблемам с использованием исполняемого кода Python. Рассмотрим два основных подхода к изучению статистики немного глубже.
Нисходящий подход
Допустим, вас попросят провести эксперимент для проверки эффективности двух версий продукта. Эта функция призвана повысить вовлечённость пользователей в работу онлайн-портала. С помощью подхода «сверху вниз» вы сначала узнаете больше о проблеме. Затем, как только цель станет ясной, вы сможете научиться применять соответствующие статистические методы. Это поддерживает ваше участие и предлагает лучший практический опыт обучения.
Восходящий метод
Такой подход позволяет большинству университетов и онлайн-курсов преподавать статистику. Он сосредоточена на изучении теоретических понятий с математической нотацией, истории понятия и способах применения. Для таких людей, как я, склонных терять интерес к теоретическому обучению, это неправильный способ изучения прикладной статистики. Он делает обучение слишком обобщённым, отсутствие какой-либо прямой связи с решением проблемы делает изучаемый объект сухим и депрессивным. Вероятно, вы уже поняли, я рекомендую нисходящий подход к изучению статистики. Давайте посмотрим на некоторые специфические ресурсы, которые я рекомендую, чтобы вы начали изучение статистики правильно.
Ресурсы для обучения
- Book on Practical Statistics — книга научит статистике с точки зрения Data Science. Вы должны прочитать по крайней мере первые 3 главы.
- Statistics and Probability | Khan Academy Этот курс хорошо подготовит вас ко всем вопросам по статистике и вероятности во время собеседования. Это бесплатный курс с хорошей подборкой видеолекций и практических задач.
- Naked Statistics – для людей, которые боятся математики и предпочитают практические примеры, это удивительная книга, которая объясняет, как статистика применяется в реальных ситуациях.
- Статистические методы для машинного обучения. Эта книга — ускоренный курс по статистическим методам для практиков машинного обучения. В идеале она для тех, у кого есть опыт разработки.
Если вам нравится сфера машинного обучения или же вы хотите расширить свои знания в этой области, то приходите к нам учиться, а специальный промокод HABR добавит 10 % к скидке на баннере.
Рекомендуемые статьи
Описательная статистика — Descriptive statistics
Описательная статистика (в графе существительного смысла) представляет собой краткое изложение статистики , которая количественно описывает или суммирует особенность из коллекции информации , в то время как описательная статистика (в массовом существительного смысле) является процессом использования и анализа этих статистических данных. Описательная статистика отличается от логической статистики (или индуктивной статистики) своей целью подвести итоги выборки , а не использовать данные для изучения совокупности, которую, как предполагается, представляет выборка данных. Как правило, это означает, что описательная статистика, в отличие от статистики вывода, не разрабатывается на основе теории вероятностей и часто является непараметрической статистикой . Даже когда анализ данных делает свои основные выводы с использованием статистических выводов, обычно также представлена описательная статистика. Например, в статьи, посвященные людям, обычно включается таблица с указанием общего размера выборки, размеров выборки в важных подгруппах (например, для каждой группы лечения или воздействия), а также демографических или клинических характеристик, таких как средний возраст, пропорция субъектов каждого пола, долю лиц с сопутствующими заболеваниями и т. д.
Некоторые меры, которые обычно используются для описания набора данных, — это меры центральной тенденции и меры изменчивости или дисперсии . Меры центральной тенденции включают среднее , медианное значение и моду , тогда как меры изменчивости включают стандартное отклонение (или дисперсию ), минимальные и максимальные значения переменных, эксцесс и асимметрию .
Использование в статистическом анализе
Описательная статистика предоставляет простые сводки об образце и о сделанных наблюдениях. Такие сводки могут быть как количественными , то есть сводными статистическими данными , так и визуальными, то есть простыми для понимания графиками. Эти сводные данные могут либо лечь в основу первоначального описания данных как часть более обширного статистического анализа, либо сами по себе могут быть достаточными для конкретного исследования.
Например, процент бросков в баскетболе — это описательная статистика, которая суммирует результативность игрока или команды. Это число представляет собой количество сделанных снимков, разделенное на количество сделанных снимков. Например, игрок, который забивает 33%, делает примерно один бросок из каждых трех. Процент суммирует или описывает несколько дискретных событий. Учитывайте также средний балл . Это единственное число описывает общую успеваемость студента по всему спектру курсов.
Использование описательной и сводной статистики имеет обширную историю, и, действительно, простое табулирование населения и экономических данных было первым способом появления темы статистики . Совсем недавно, коллекция методов summarisation была сформулирована под заголовком разведочного анализа данных : пример такого метода является коробка сюжет .
В деловом мире описательная статистика предоставляет полезную сводку многих типов данных. Например, инвесторы и брокеры могут использовать исторический учет поведения доходности, выполняя эмпирический и аналитический анализ своих инвестиций, чтобы принимать более обоснованные решения об инвестировании в будущем.
Одномерный анализ
Одномерный анализ включает описание распределения отдельной переменной, включая ее центральную тенденцию (включая среднее значение , медианное значение и моду ) и дисперсию (включая диапазон и квартили набора данных, а также меры разброса, такие как дисперсия и стандартное отклонение). ). Форму распределения также можно описать с помощью таких показателей, как асимметрия и эксцесс . Характеристики распределения переменной также могут быть изображены в графическом или табличном формате, включая гистограммы и отображение «стебель-лист» .
Двумерный и многомерный анализ
Когда выборка состоит из более чем одной переменной, описательная статистика может использоваться для описания взаимосвязи между парами переменных. В этом случае описательная статистика включает:
Основная причина разграничения одномерного и двумерного анализа заключается в том, что двумерный анализ — это не только простой описательный анализ, но также он описывает взаимосвязь между двумя разными переменными. Количественные меры зависимости включают корреляцию (например , r Пирсона, когда обе переменные непрерывны, или rho Спирмена, если одна или обе не являются непрерывными ) и ковариацию (которая отражает масштабные переменные, на которых измеряются). Наклон в регрессионном анализе также отражает взаимосвязь между переменными. Нестандартизированный наклон указывает на изменение единицы в переменной критерия для изменения на одну единицу в предсказателе . Стандартизированный наклон показывает это изменение в стандартизированных ( z-балл ) единицах. Сильно искаженные данные часто преобразуются путем логарифмирования. Использование логарифмов делает графики более симметричными и более похожими на нормальное распределение , что упрощает их интуитивную интерпретацию.
Ссылки
внешние ссылки
Описательная статистика в Excel
Пользователи Эксель знают, что данная программа имеет очень широкий набор статистических функций, по уровню которых она вполне может потягаться со специализированными приложениями. Но кроме того, у Excel имеется инструмент, с помощью которого производится обработка данных по целому ряду основных статистических показателей буквально в один клик.
Этот инструмент называется «Описательная статистика». С его помощью можно в очень короткие сроки, использовав ресурсы программы, обработать массив данных и получить о нем информацию по целому ряду статистических критериев. Давайте взглянем, как работает данный инструмент, и остановимся на некоторых нюансах работы с ним.
Использование описательной статистики
Под описательной статистикой понимают систематизацию эмпирических данных по целому ряду основных статистических критериев. Причем на основе полученного результата из этих итоговых показателей можно сформировать общие выводы об изучаемом массиве данных.
В Экселе существует отдельный инструмент, входящий в «Пакет анализа», с помощью которого можно провести данный вид обработки данных. Он так и называется «Описательная статистика». Среди критериев, которые высчитывает данный инструмент следующие показатели:
- Медиана;
- Мода;
- Дисперсия;
- Среднее;
- Стандартное отклонение;
- Стандартная ошибка;
- Асимметричность и др.
Рассмотрим, как работает данный инструмент на примере Excel 2010, хотя данный алгоритм применим также в Excel 2007 и в более поздних версиях данной программы.
Подключение «Пакета анализа»
Как уже было сказано выше, инструмент «Описательная статистика» входит в более широкий набор функций, который принято называть Пакет анализа. Но дело в том, что по умолчанию данная надстройка в Экселе отключена. Поэтому, если вы до сих пор её не включили, то для использования возможностей описательной статистики, придется это сделать.
- Переходим во вкладку «Файл». Далее производим перемещение в пункт «Параметры».
- В активировавшемся окне параметров перемещаемся в подраздел «Надстройки». В самой нижней части окна находится поле «Управление». Нужно в нем переставить переключатель в позицию «Надстройки Excel», если он находится в другом положении. Вслед за этим жмем на кнопку «Перейти…».
- Запускается окно стандартных надстроек Excel. Около наименования «Пакет анализа» ставим флажок. Затем жмем на кнопку «OK».
После вышеуказанных действий надстройка Пакет анализа будет активирована и станет доступной во вкладке «Данные» Эксель. Теперь мы сможем использовать на практике инструменты описательной статистики.
Применение инструмента «Описательная статистика»
Теперь посмотрим, как инструмент описательная статистика можно применить на практике. Для этих целей используем готовую таблицу.
- Переходим во вкладку «Данные» и выполняем щелчок по кнопке «Анализ данных», которая размещена на ленте в блоке инструментов «Анализ».
- Открывается список инст
4 Методы анализа и описательная статистика | Оценка Управления по делам ветеранов. Реестр авиационных опасностей и открытых ожоговых ям
Афганистан (80,6%). Различия в некоторых характеристиках (например, семейном положении) не имеют большого практического значения или значения, но многие другие важно рассматривать как потенциальные факторы, влияющие на результаты в отношении здоровья; они включают пол, возраст, расу, отрасль обслуживания, совокупные меры развертывания и страны развертывания.Люди, которые сообщили о службе в разные эпохи, были включены во все категории, в которых они работали (например, война в Персидском заливе и после 11 сентября). Люди были подсчитаны один раз в большинстве категорий, за двумя исключениями: страна развертывания и период службы, где люди были подсчитаны в нескольких категориях, поскольку учитывались все записи.
Различия между респондентами эпохи войны в Персидском заливе и подходящим населением не были столь заметными, как в случае с группой после 11 сентября, а относительно меньшие размеры выборки для определенных категорий респондентов делают некоторые оценки менее надежными.Армейская служба была перепредставлена среди респондентов войны в Персидском заливе по сравнению с подходящим населением (76,4% против 56,3%, относительная разница в 35,7%). И наоборот, доля респондентов, которые служили в ВМС / береговой охране, была ниже, чем среди подходящего населения (4,0% против 19,0%). Точно так же респонденты, служившие в ВВС и Корпусе морской пехоты, также были недопредставлены (относительные различия 25,2% и 19,0% соответственно). Чрезмерная представленность армейской службы может быть связана с тем, что эти ветераны с большей вероятностью, чем те, кто служил в других родах, были размещены на суше с ямами для сжигания или рядом с ними.
Около половины (50,4%) всего обслуживающего персонала, отвечающего критериям участия в войне в Персидском заливе, не были направлены ни в Ирак, ни в Кувейт, по сравнению с только 35,5% респондентов (относительная разница -29,6%). Более сильные положительные различия и, следовательно, чрезмерная представленность наблюдались между двумя группами для развертывания только в Ираке (относительная разница 40,0%) и Ираке и Кувейте (43,4%). Чрезмерное количество мест дислокации Ирака / Кувейта, вероятно, объясняется тем, что передовые оперативные базы, которые использовали ямы для сжигания отходов в то время, находились в Ираке и Кувейте.Поэтому ветераны и военнослужащие, отправленные в эти места, могут быть более склонны участвовать в реестре.
Немногочисленные различия, наблюдаемые в демографических характеристиках, а не в военных характеристиках, включали чрезмерную представленность женщин (16,2%) и женщин с некоторым высшим образованием или степенью бакалавра (относительная разница 33,3%), а также существенную недопредставленность женщин в возрасте 60 лет и старше (относительная разница −56,6%).
В то время как респонденты, принявшие участие в исследовании 11 сентября, отличались от подходящего населения аналогично респондентам в случае войны в Персидском заливе (вид службы и страна развертывания), они также отличались от подходящего населения почти по всем другим изученным характеристикам.Среди респондентов после 11 сентября служба в армии была перепредставлена на 26,9%, в то время как военно-морские силы / береговая охрана и морская пехота были недопредставлены (относительные различия -73,0% и -11,0%, соответственно). Предыдущие отчеты ветеранов и военнослужащих после 11 сентября подтвердили этот вывод и специально ограничили исследуемую группу персоналом армии и ВВС из-за небольшого числа военно-морских сил и персонала корпуса морской пехоты с местами развертывания в радиусе 5 миль от задокументированные ожоговые ямы в образце (AFHSC et al., 2010; Смит и др., 2012).
В то время как большинство респондентов и подходящего населения были направлены в Ирак, Афганистан или обе страны (86,3% против 67,1%), респонденты из реестра были существенно перепредставлены среди тех, кто направился только в Ирак (относительная разница, 31,8%) и в Ирак и Афганистан (относительная разница 80,6%). Напротив, респонденты были существенно недопредставлены среди тех, кто не служил ни в Ираке, ни в Афганистане (относительная разница -58.0%).
Что касается других военных характеристик, респонденты после 11 сентября, которые были членами резерва или Национальной гвардии, были перепредставлены (относительная разница, 34,3%), а те, кто находился на действительной службе, были недопредставлены (относительная разница, -12,8%) в реестр по сравнению с подходящим населением. Распределение количества развертываний также заметно отличалось: респонденты сообщили о большем количестве подходящих сегментов развертывания, чем подходящее население. Например, 15.1% респондентов имели одно подходящее развертывание по сравнению с 26,0% подходящего населения (относительная разница -41,9%), но 14,0% респондентов имели 10 или более подходящих сегментов развертывания по сравнению с 8,8% соответствующих критериям обслуживающего персонала (относительная разница 59,1%). ).
Помимо различий в военных характеристиках, респонденты после событий 11 сентября и соответствующие лица той эпохи различались по всем демографическим характеристикам, доступным для оценки. Например, женщины (−14.3%), лица моложе 30 лет (-41,0%) и представители расы / этнических меньшинств (с некоторыми относительными различиями в -20% и более) были существенно недопредставлены среди респондентов, в то время как те, кто был женат, и те, кто учился в каком-либо колледже или со степенью бакалавра были перепредставлены среди участников реестра (относительные различия 20,9% и 33,3%) относительно всех подходящих кандидатов той эпохи.
Другие сравнения респондентов после 11 сентября со всеми подходящими лицами для VA (Гаспер и Катава,
допущений для статистических тестов | Реальная статистика с использованием Excel
Как видно на этом веб-сайте, большинство статистических тестов, которые мы проводим, основаны на ряде предположений.Когда эти предположения нарушаются, результаты анализа могут вводить в заблуждение или полностью ошибочны.
Типичные допущения:
- Нормальность : данные имеют нормальное распределение (или, по крайней мере, симметрично)
- Однородность дисперсий : данные из нескольких групп имеют одинаковую дисперсию
- Линейность : данные имеют линейную зависимость
- Независимость : Данные независимы
Мы подробно исследуем, что означает нормальное распределение данных при нормальном распределении, но в целом это означает, что график данных имеет форму колоколообразной кривой. Такие данные симметричны относительно своего среднего и имеют эксцесс, равный нулю. В разделе «Тестирование на нормальность и симметрию» мы предлагаем тесты, чтобы определить, соответствуют ли данные этому предположению.
Некоторые тесты (например, ANOVA) требуют, чтобы исследуемые группы данных имели одинаковую дисперсию. В разделе «Однородность отклонений» мы предлагаем несколько тестов для определения того, имеют ли группы данных одинаковую дисперсию.
Некоторые тесты (например, регрессия) требуют наличия линейной корреляции между зависимыми и независимыми переменными.Как правило, линейность можно проверить графически с помощью диаграмм рассеяния или с помощью других методов, рассмотренных в разделах «Корреляция, регрессия и множественная регрессия».
Мы затрагиваем понятие независимости в определении 3 основных концепций вероятности. Как правило, данные независимы, если между ними нет корреляции (см. Корреляция). Многие тесты требуют, чтобы данные отбирались случайным образом, причем каждый элемент данных выбирался независимо от ранее выбранных данных. Например. если мы измеряем ежемесячный вес 10 человек в течение 5 месяцев, эти 50 наблюдений не являются независимыми, поскольку повторные измерения у одних и тех же людей не являются независимыми.Кроме того, IQ 20 супружеских пар не составляет 40 независимых наблюдений.
Практически все наиболее часто используемые статистические тесты основываются на соблюдении некоторой функции распределения (например, нормального распределения). Такие тесты называются параметрическими тестами . Иногда, когда одно из ключевых допущений такого теста нарушается, вместо него может использоваться непараметрический тест . Такие тесты не полагаются на конкретную функцию распределения вероятностей (см. Непараметрические тесты).
Другой подход к решению проблем, связанных с предположениями, — это преобразование данных (см. Преобразования).
4. Описательная статистика и графические дисплеи
Меры центральной тенденции
Меры центральной тенденции, также известные как меры местоположения, обычно
среди первых статистических данных, вычисленных для непрерывных переменных в новом
набор данных. Основная цель вычисления показателей центральной тенденции —
дать вам представление о том, какое типичное или общее значение для данной переменной
является.Три наиболее распространенных показателя центральной тенденции — это арифметика.
среднее, медиана и мода.
Среднее арифметическое , или просто среднее, в обычной речи часто называют
среднее значение набора значений. Расчет среднего как
мера центральной тенденции подходит для интервала и соотношения
данных, а среднее значение дихотомических переменных, закодированных как 0 или 1, обеспечивает
доля субъектов, значение переменной которых равно 1.Для непрерывного
данные, например, измерения роста или баллы по тесту IQ, среднее
просто вычисляется путем сложения всех значений и последующего деления на
количество значений. Среднее значение населения обозначается греческим
буква mu ( μ ), тогда как среднее
образца обычно обозначается полосой над символом переменной: для
например, будет записано среднее значение x
и произносится как «х-бар». Некоторые авторы адаптируют
штриховая нотация также для имен переменных.Например, некоторые авторы
обозначим «среднее значение переменной возраста» цифрой , что будет произноситься как «возрастная планка».
Предположим, что у нас всего пять случаев, и это
значения для членов этой совокупности для переменной
x :
Мы можем вычислить среднее значение x , добавив
эти значения и разделив на 5 (количество значений):
µ = (100 + 115 + 93 + 102 + 97) / 5 =
507/5 = 101.4
Статистики часто используют соглашение, называемое суммированием .
обозначение , введенное в главе 1, которое определяет статистику как
описывая, как он рассчитывается. Вычисление среднего значения такое же
считаются ли числа представляющими совокупность или выборку; единственный
разница — это символ самого среднего. Среднее значение населения,
в виде суммирования показано на рисунке 4-1.
Рисунок 4-1. Формула для вычисления среднего
В этой формуле µ (греческая буква mu ) равна
среднее значение для x , n
— количество случаев (количество значений для
x ), и
x i есть
значение x для конкретного случая.Греческий
буква сигма (Σ) означает суммирование (сложение), а цифры
выше и ниже сигмы определяют диапазон, в котором операция
должен быть выполнен. В этом случае в обозначениях сказано, что нужно просуммировать все
значения x от 1 до n . В
символ i обозначает позицию в наборе данных,
поэтому x 1 — первое значение в
набор данных, x 2 второй
значение и
x n мм
последнее значение в наборе данных.Символ суммирования означает сложение
или суммируйте значения x с первого
( x 1 ) до последнего
( x n ).
Поэтому среднее значение по совокупности вычисляется путем суммирования всех значений.
для рассматриваемой переменной, а затем разделив на количество значений,
помня, что деление на n — то же самое, что
умножение на 1/ n .
Среднее — это интуитивная мера центральной тенденции, которую легко
для понимания большинства людей.Однако среднее значение не подходит
сводная мера для каждого набора данных, потому что она чувствительна к экстремальным
значения, также известные как выбросов (обсуждается далее
позже), а также может вводить в заблуждение из-за перекоса (несимметричности)
данные.
Рассмотрим один простой пример. Предположим, что последнее значение в нашем крошечном
набор данных был 297 вместо 97. В этом случае среднее значение будет:
µ = (100 + 115 + 93 + 102 + 297) / 5 = 707/5 =
141,4
Среднее значение 141.4 не является типичным значением для этих данных.
80% данных (четыре из пяти значений) ниже среднего, что составляет
искажается наличием одного чрезвычайно высокого значения.
Проблема здесь не только теоретическая; много больших наборов данных
также имеют распределение, для которого среднее значение не является хорошей мерой
основная тенденция. Это часто верно в отношении показателей дохода, таких как
данные о доходах домохозяйств в США. Несколько очень богатых семей
сделать средний доход домохозяйства в США больше, чем
действительно репрезентативен для среднего или типичного домохозяйства, и для
по этой причине средний доход домохозяйства часто
вместо этого сообщили (подробнее о медианах позже).
Среднее значение также можно рассчитать с использованием данных частоты
таблица , то есть таблица, отображающая значения данных и частоту
каждое происходит. Рассмотрим следующий простой пример в Таблице 4-1.
Таблица 4-1. Простая таблица частот
Чтобы найти среднее значение этих чисел, рассматривайте столбец частоты как
весовая переменная. То есть умножьте каждое значение на его частоту. За
знаменатель, сложите частоты, чтобы получить общее
н. .Затем рассчитывается среднее значение, как показано на рисунке 4-2.
Рисунок 4-2. Вычисление среднего из таблицы частот
Это тот же результат, что и при сложении каждой оценки.
(1 + 1 + 1 + 1 +…) И деление на 26.
Среднее значение для сгруппированных данных , в которых данные были табулированы по диапазону и точным значениям
неизвестны, рассчитывается аналогичным образом. Потому что мы не знаем
точные значения для каждого случая (мы знаем, например, что 5 значений
попадали в диапазон 1–20, но не в конкретные значения для этих пяти
случаев), для расчетов мы используем середину диапазона
в качестве замены определенных ценностей.Следовательно, чтобы вычислить среднее значение,
мы сначала вычисляем эту среднюю точку для каждого диапазона, а затем умножаем ее на
частота значений в диапазоне. Чтобы вычислить среднюю точку для
диапазона, сложите первое и последнее значения в диапазоне и разделите на 2. Для
Например, для диапазона 1–20 средняя точка равна:
(1 + 20) / 2 = 10,5
Среднее значение, вычисленное таким образом, называется сгруппированным средним . Сгруппированный
среднее значение не так точно, как среднее значение, рассчитанное на основе исходных данных
точек, но часто это единственный вариант, если исходные значения
имеется в наличии.Рассмотрим следующий сгруппированный набор данных в Таблице 4-2.
Таблица 4-2. Сгруппированные данные
Диапазон | Частота | Средняя точка | ||||||
1–20 9205 | 1–20 9202 9202 21–40 | 25 | 30,5 | |||||
41–60 | 37 | 50. 5 | ||||||
61–80 | 23 | 70,5 | ||||||
81–100 | 8 | 02 8 | 02 2 умножая среднюю точку каждогоусеченное среднее , также известное как Winsorized значит .Как следует из названия, усеченное среднее вычисляется по формуле обрезка или отбрасывание определенного процента крайних значений в распределение, а затем вычисление среднего оставшихся значений. В цель — вычислить среднее значение, которое хорошо представляет большинство значений и не подвержен чрезмерному влиянию экстремальных ценностей. Рассмотрим на примере вторая популяция с пятью ранее указанными членами со значениями 100, 115, 93, 102 и 297. Среднее значение этой совокупности искажено на влияние одного очень большого значения, поэтому мы вычисляем усеченное среднее значение отбрасывание самого высокого и самого низкого значений (эквивалентно отбрасыванию минимальное и максимальное 20% значений).Усеченное среднее вычисляется как: распределения, чем 141,4, значение среднего, включая все данные ценности. Конечно, мы редко работаем с населением с всего пять членов, но принцип применим к большим группам населения, поскольку Что ж. Обычно определенный процент значений данных отсекается от крайности распределения, и это решение должно быть сообщил, чтобы прояснить, что на самом деле рассчитанное среднее представляет собой. кодирование, в этом случае среднее значение эквивалентно проценту значений с числом 1. Предположим, у нас есть население из 10 субъектов, 6 из которых которых мужчины и 4 женщины, и мы закодировали мужчин как 1 и женщин как 0. Вычисление среднего даст нам процент мужчин в население: мужчины по возрастанию или убыванию.Если есть n значений, медиана формально определяется как ( n +1) / 2-е значение, поэтому, если n = 7, среднее значение будет (7 + 1) / 2-е или четвертое значение. Если есть четное количество значений, Медиана — это среднее из двух средних значений. Это формально определено как среднее значение ( n /2) -го и (( n /2) +1) -ое значение. Если есть шесть значений, медиана — это среднее значение (6/2) -го и ((6/2) +1) -го значения, или третьего и четвертые значения. Здесь демонстрируются оба метода: для данных, которые являются асимметричными или содержат выбросы.Это потому, что медиана основана на рангах точек данных, а не на их фактических значения, и по определению половина значений данных в распределении лежит ниже медианы и наполовину выше медианы, без учета фактического рассматриваемые ценности. Следовательно, не имеет значения, содержит очень большие или маленькие значения, потому что они не будут влияют на медиану больше, чем на менее экстремальные значения. Например, Медиана всех трех из следующих распределений равна 4: описать генеральную совокупность или образец. Отчасти это призыв к суждению; в В этом примере медиана кажется достаточно репрезентативной для данных значения в распределениях A и B, но, возможно, не в распределении C, чьи значения настолько несопоставимы, что любая единственная сводная мера может быть вводящие в заблуждение. относится к наиболее часто встречающемуся значению.Режим чаще всего полезно при описании порядковых или категориальных данных. Например, представьте что следующие числа отражают избранные источники новостей группы студентов колледжей, где 1 = газеты, 2 = телевидение и 3 = Интернет: — модальное (наиболее распространенное) значение в этом наборе данных. значений называется режимом (потому что со многими значениями, как типично для непрерывных данных, может не быть единственного значения существенно чаще, чем любой другой).Если вы собираетесь это сделать, вы следует определиться с категориями заранее и использовать стандартные диапазоны, если они существуют. Например, возраст взрослых часто собирается в диапазоне 5 или 10 лет, поэтому может случиться так, что в данном наборе данных разделенный в диапазоне от 10 лет модальный диапазон составлял от 40 до 49 лет. медиана и режим идентичны.В асимметричном или скошенном распределения, эти три показателя будут отличаться, как показано на наборы данных, представленные в виде гистограмм на рисунках 4-4, 4-5 и 4-6. Чтобы облегчить расчет режима, мы также разделили каждый набор данных на диапазоны 5 (35–39,99, 40–44,99 и т. д.). нормальные и симметричные со средним значением 50.88 и медиана 51,02; то наиболее распространенный диапазон — 50,00–54,99 (37 случаев), за которым следует 45,00–49,99 (34 случая). случаи). В этом распределении среднее значение и медиана очень близки к каждому другой, и два наиболее распространенных диапазона также группируются вокруг подлый. среднее значение 58,18, а медиана — 56,91; среднее значение выше медианы является обычным для данных со смещением вправо, потому что чрезвычайно высокие значения тянут среднее значение выше, но не оказывает такого же влияния на медианное значение.Модальный диапазон 45,00–49,99 с 16 случаями; однако несколько других диапазонов имеют 14 случаев, что делает их очень близкими по частоте к модальным диапазон и сделать режим менее полезным при описании этих данных задавать. среднее значение составляет 44,86, а медиана — 47,43. Среднее значение ниже медианы типичен для данных со смещением влево, потому что экстремально низкие значения тянут среднее значение вниз, в то время как они не имеют такого же влияния на медианное значение.В перекос на рис. 4-6 больше, чем на Рисунок 4-5, и это отражено в большая разница между средним и медианным значением в | |||||
Нечетное число (5) значений: 1, 4, 6, 6, 10; Медиана = 6, потому что (5 + 1) / 2 = 3, а 6 — третье значение в упорядоченном списке. | ||||||||
Четное число (6) значений: 1, 3, 5, 6, 10, 15; Медиана = (5 + 6) / 2 = 5,5, потому что 6/2 = 3 и [(6/2) +1] = 4, а 5 и 6 являются третье и четвертое значения в упорядоченном списке. | ||||||||
Распределение A: 1, 1, 3, 4, 5, 6, 7 | ||||||||
Распределение B: 0.01, 3, 3, 4, 5, 5, 5 | ||||||||
Распределение C: 1, 1, 2, 4, 5, 100, 2000 |