Разное

Описательной статистики методы: Описательные статистики

Содержание

Статистика в Data Science — исчерпывающий гид для амбициозных практиков ML

В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning» представляем вашему вниманию пост, который смело можно класть в закладки, — гид по статистике для амбициозных практиков машинного обучения. От ответа на вопрос, что такое статистика, до весьма подробных списков понятий, которые нужно усвоить, чтобы овладеть используемой в работе с проектами ML статистикой. Кроме того, в посте вы найдёте рекомендации литературы.


В современном сверхсвязанном мире данные генерируются и потребляются невиданными ранее темпами. И, как бы нам ни нравилась эта «сверхпроводимость данных», она провоцирует злоупотребления. Дата-сайентисты должны быть обучены использованию статистических методов не только для интерпретации цифр, но и для выявления таких злоупотреблений и защиты людей от введения в заблуждение. Немногие специалисты по статистике имеют формальную подготовку. Хороших книг и курсов, которые обучают статистическим методам с точки зрения науки о данных, немного. В этом посте я пролью свет на следующие вопросы:

  • Что такое статистика?
  • Статистика в отношении к машинному обучению.
  • Зачем вам нужно осваивать статистику.
  • Какому учебному плану следовать, чтобы освоить эти темы.
  • Как изучать статистику, чтобы стать практиком, а не просто человеком, который правильно сдаёт тесты.
  • Практические советы и обучающие ресурсы.

Что такое статистика?

Статистика — это набор математических методов и инструментов, позволяющих ответить на важные вопросы о данных. Она делится на две категории:

  1. Описательная статистика. Предлагает методы резюмирования данных путем преобразования необработанных наблюдений в значимую информацию, которую легко интерпретировать и распространять.
  2. Логическая статистика. Предлагает методы изучения экспериментов, выполненных на маленьких образцах данных, и умозаключения для всей популяции (всего домена).

Сегодня статистика и машинное обучение — две тесно связанные между собой области. Статистика дает важные предпосылки для прикладного машинного обучения: она помогает выбирать, оценивать и интерпретировать модели прогнозирования.

Статистика в машинном обучении


В основе машинного обучения лежит статистика. Невозможно решить реальные проблемы с помощью машинного обучения, если вы не обладаете хорошим знанием основ статистики.

Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.

Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.

Зачем вам осваивать статистику?


Каждая организация стремится стать управляемой данными. Вот почему мы наблюдаем такой рост спроса на дата-сайентистов и аналитиков. Сегодня, чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. К счастью, статистика предлагает набор инструментов для получения этих знаний.

От данных к знаниям


Сами по себе сырые наблюдения — это просто данные. Чтобы трансформировать наблюдения в имеющие смысл идеи, применяется описательная статистика. Затем возможно применить логическую статистику, чтобы изучить небольшие выборки данных и дать схему с выводами для экстраполяции результатов на всю совокупность данных.

Статистика помогает ответить на вопросы, подобные этим

  • Какие из признаков наиболее важны?
  • Как проектировать эксперимент, чтобы разработать стратегию продукта?
  • Какие показатели производительности мы должны измерять?
  • Какой самый распространенный и ожидаемый результат?
  • Как отличить шум от достоверных данных?

Это важные и общие вопросы, на которые ежедневно приходится отвечать работающим с данными командами. Ответы на эти вопросы помогают эффективно принимать решения. Статистические методы помогают нам не только настраивать проекты прогнозного моделирования, но и интерпретировать результаты.

Статистика и проекты по машинному обучению


Почти каждый состоит из перечисленных ниже задач. И статистика играет в той или иной форме центральную роль во всех этих задачах. Ниже примеры:

Уточнение постановки проблемы


Наиболее важной частью прогностического моделирования является фактическое определение проблемы, дающее реальную цель, к которой мы должны стремиться. Это помогает определить тип проблемы, с которой мы имеем дело (то есть регрессия это или классификация), а также помогает в определении структуры и типов входных, выходных данных и метрик с учетом поставленной задачи. Но подстановка проблем не всегда проста. Если вы новичок в машинном обучении, она может потребовать значительного изучения наблюдений в вашей области. Два основных понятия, которые необходимо освоить здесь — это экспериментальный анализ данных (EDA) и добыча данных (Data Mining).

Первоначальное исследование данных


Исследование данных включает в себя получение глубокого понимания как распределения переменных, так и отношений между переменными в ваших данных.

Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.

Очистка данных


Часто точки данных, собранные из эксперимента или хранилища данных, являются нетронутыми. Данные могли быть подвергнуты процессам или манипуляциям, которые повредили их целостность. Это еще больше влияет на последующие процессы или использующие такие данные модели. Распространённые примеры — пропущенные значения, повреждение данных, ошибки в данных (из-за плохого датчика), а также не приведённые к единой форме данные (наблюдения с разными масштабами). Если вы хотите освоить методы очистки, изучите выявление отклонений и вменение отсутствующих значений.

Подготовка данных и настройка конвейера преобразования


Если данные содержат ошибки и несоответствия, часто нельзя применять их в моделировании. Во-первых, данным, возможно, придётся пройти через набор преобразований, чтобы изменить форму или структуру и сделать их более подходящими для определённой вами задачи, или используемых алгоритмов обучения. Затем можно разработать конвейер таких преобразований, который будет применяться к данным для получения последовательных и совместимых входных данных для модели. Вы должны овладеть такими понятиями, как методы выборки данных и отбора признаков, преобразование данных, их масштабирование и кодирование.

Выбор и оценка модели


Ключевым шагом в решении прогностической проблемы являются выбор и оценка метода обучения. Оценочная статистика поможет вам оценить прогнозы модели на данных, которые модель не видела.

Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.

Тонкая настройка модели


Почти в каждом алгоритме машинного обучения имеется набор гиперпараметров, которые позволяют настроить метод обучения под выбранную вами постановку задачи. Эта гиперпараметрическая настройка часто носит эмпирический, но не аналитический характер. Для оценки влияния различных настроек гиперпараметра на производительность модели требуются большие наборы экспериментов.

Статистика: учебный план для практиков


Хорошая учебная программа по статистике для практиков должна охватывать не только множество методов и инструментов, о которых я только что писал. Она также должна охватывать и изучать наиболее часто встречающиеся проблемы в отрасли. Ниже приведён список широко используемых навыков, которые вам нужно освоить, чтобы пройти собеседование на должность дата-сайентиста и ML и устроиться на работу в этой области.

Основные навыки в статистике

  • Определение вопроса, на который можно ответить статистически, чтобы принимать эффективные решения.
  • Вычисление и интерпретация общих статистических данных и использование стандартных методов визуализации данных для передачи результатов.
  • Понимание того, как математическая статистика применяется в конкретной области, такие понятия, как центральная предельная теорема и закон больших чисел.
  • Умение делать выводы из оценок местоположения и изменчивости (ANOVA).


    Определение связи между целевыми и независимыми переменными.
  • Разработка экспериментов по проверке статистических гипотез, A/B тестирование и т. д.
  • Вычисление и интерпретация метрик производительности, таких как р-значение, альфа, ошибки первого и второго рода и т. д.

Важные понятия статистики

  • Приступая к освоению статистики, нужно понимать типы данных (данные в прямоугольной системе координат и другие данные), оценивать местоположение и вариабельность распределения данных, бинарные и категориальные данные, корреляцию, отношение между различными типами переменных.
  • Статистические распределения — случайные числа, закон больших чисел, центральная предельная теорема, стандартная погрешность и т. д.
  • Выборка и распределение данных — случайная выборка, смещение выборки, смещение выбора, распределение выборки, бутстрэп, доверительный интервал, нормальное распределение, t-распределение, биномиальное распределение, распределение «хи квадрат», F-распределение, распределение Пуассона и экспоненциальное распределение.
  • Статистические эксперименты и и тестирование значимости — A/B тестирование, проведение проверки гипотез (нулевая и альтернативная гипотезы), ресемплирование, статистическая значимость, доверительный интервал, p-значение, альфа [прим. перев. — максимальный шанс допустить ошибку первого рода], t-критерии, степени свободы, выводы из оценок местоположения и изменчивости, критические значения, ковариантность и корреляция, величина эффекта, статистическая мощность.
  • Непараметрические статистические методы — ранжирование данных, критерии нормальности, нормализация данных, ранговая корреляция, критерии знаковых рангов, критерий независимости.

Практические советы по обучению


Большинство университетов разработали учебные программы курсов по статистике, чтобы проверить способность студента справляться с трудностями. Они просто проверяют, могут ли учащиеся решать уравнения, определять терминологию и идентифицировать графики, выводящие уравнения, вместо того, чтобы сосредотачиваться на применении этих методов для решения реальных задач. Однако увлеченные специалисты-практики должны следовать пошаговому процессу изучения и реализации статистических методов по различным проблемам с использованием исполняемого кода Python. Рассмотрим два основных подхода к изучению статистики немного глубже.

Нисходящий подход


Допустим, вас попросят провести эксперимент для проверки эффективности двух версий продукта. Эта функция призвана повысить вовлечённость пользователей в работу онлайн-портала. С помощью подхода «сверху вниз» вы сначала узнаете больше о проблеме. Затем, как только цель станет ясной, вы сможете научиться применять соответствующие статистические методы. Это поддерживает ваше участие и предлагает лучший практический опыт обучения.

Восходящий метод


Такой подход позволяет большинству университетов и онлайн-курсов преподавать статистику. Он сосредоточена на изучении теоретических понятий с математической нотацией, истории понятия и способах применения. Для таких людей, как я, склонных терять интерес к теоретическому обучению, это неправильный способ изучения прикладной статистики. Он делает обучение слишком обобщённым, отсутствие какой-либо прямой связи с решением проблемы делает изучаемый объект сухим и депрессивным. Вероятно, вы уже поняли, я рекомендую нисходящий подход к изучению статистики. Давайте посмотрим на некоторые специфические ресурсы, которые я рекомендую, чтобы вы начали изучение статистики правильно.

Ресурсы для обучения

  • Book on Practical Statistics — книга научит статистике с точки зрения Data Science. Вы должны прочитать по крайней мере первые 3 главы.
  • Statistics and Probability | Khan Academy Этот курс хорошо подготовит вас ко всем вопросам по статистике и вероятности во время собеседования. Это бесплатный курс с хорошей подборкой видеолекций и практических задач.
  • Naked Statistics – для людей, которые боятся математики и предпочитают практические примеры, это удивительная книга, которая объясняет, как статистика применяется в реальных ситуациях.
  • Статистические методы для машинного обучения. Эта книга — ускоренный курс по статистическим методам для практиков машинного обучения. В идеале она для тех, у кого есть опыт разработки.

Если вам нравится сфера машинного обучения или же вы хотите расширить свои знания в этой области, то приходите к нам учиться, а специальный промокод HABR добавит 10 % к скидке на баннере.

Рекомендуемые статьи

Описательная статистика — Descriptive statistics

Описательная статистика (в графе существительного смысла) представляет собой краткое изложение статистики , которая количественно описывает или суммирует особенность из коллекции информации , в то время как описательная статистика (в массовом существительного смысле) является процессом использования и анализа этих статистических данных. Описательная статистика отличается от логической статистики (или индуктивной статистики) своей целью подвести итоги выборки , а не использовать данные для изучения совокупности, которую, как предполагается, представляет выборка данных. Как правило, это означает, что описательная статистика, в отличие от статистики вывода, не разрабатывается на основе теории вероятностей и часто является непараметрической статистикой . Даже когда анализ данных делает свои основные выводы с использованием статистических выводов, обычно также представлена ​​описательная статистика. Например, в статьи, посвященные людям, обычно включается таблица с указанием общего размера выборки, размеров выборки в важных подгруппах (например, для каждой группы лечения или воздействия), а также демографических или клинических характеристик, таких как средний возраст, пропорция субъектов каждого пола, долю лиц с сопутствующими заболеваниями и т. д.

Некоторые меры, которые обычно используются для описания набора данных, — это меры центральной тенденции и меры изменчивости или дисперсии . Меры центральной тенденции включают среднее , медианное значение и моду , тогда как меры изменчивости включают стандартное отклонение (или дисперсию ), минимальные и максимальные значения переменных, эксцесс и асимметрию .

Использование в статистическом анализе

Описательная статистика предоставляет простые сводки об образце и о сделанных наблюдениях. Такие сводки могут быть как количественными , то есть сводными статистическими данными , так и визуальными, то есть простыми для понимания графиками. Эти сводные данные могут либо лечь в основу первоначального описания данных как часть более обширного статистического анализа, либо сами по себе могут быть достаточными для конкретного исследования.

Например, процент бросков в баскетболе — это описательная статистика, которая суммирует результативность игрока или команды. Это число представляет собой количество сделанных снимков, разделенное на количество сделанных снимков. Например, игрок, который забивает 33%, делает примерно один бросок из каждых трех. Процент суммирует или описывает несколько дискретных событий. Учитывайте также средний балл . Это единственное число описывает общую успеваемость студента по всему спектру курсов.

Использование описательной и сводной статистики имеет обширную историю, и, действительно, простое табулирование населения и экономических данных было первым способом появления темы статистики . Совсем недавно, коллекция методов summarisation была сформулирована под заголовком разведочного анализа данных : пример такого метода является коробка сюжет .

В деловом мире описательная статистика предоставляет полезную сводку многих типов данных. Например, инвесторы и брокеры могут использовать исторический учет поведения доходности, выполняя эмпирический и аналитический анализ своих инвестиций, чтобы принимать более обоснованные решения об инвестировании в будущем.

Одномерный анализ

Одномерный анализ включает описание распределения отдельной переменной, включая ее центральную тенденцию (включая среднее значение , медианное значение и моду ) и дисперсию (включая диапазон и квартили набора данных, а также меры разброса, такие как дисперсия и стандартное отклонение). ). Форму распределения также можно описать с помощью таких показателей, как асимметрия и эксцесс . Характеристики распределения переменной также могут быть изображены в графическом или табличном формате, включая гистограммы и отображение «стебель-лист» .

Двумерный и многомерный анализ

Когда выборка состоит из более чем одной переменной, описательная статистика может использоваться для описания взаимосвязи между парами переменных. В этом случае описательная статистика включает:

Основная причина разграничения одномерного и двумерного анализа заключается в том, что двумерный анализ — это не только простой описательный анализ, но также он описывает взаимосвязь между двумя разными переменными. Количественные меры зависимости включают корреляцию (например , r Пирсона, когда обе переменные непрерывны, или rho Спирмена, если одна или обе не являются непрерывными ) и ковариацию (которая отражает масштабные переменные, на которых измеряются). Наклон в регрессионном анализе также отражает взаимосвязь между переменными. Нестандартизированный наклон указывает на изменение единицы в переменной критерия для изменения на одну единицу в предсказателе . Стандартизированный наклон показывает это изменение в стандартизированных ( z-балл ) единицах. Сильно искаженные данные часто преобразуются путем логарифмирования. Использование логарифмов делает графики более симметричными и более похожими на нормальное распределение , что упрощает их интуитивную интерпретацию.

Ссылки

внешние ссылки

Описательная статистика в Excel

Пользователи Эксель знают, что данная программа имеет очень широкий набор статистических функций, по уровню которых она вполне может потягаться со специализированными приложениями. Но кроме того, у Excel имеется инструмент, с помощью которого производится обработка данных по целому ряду основных статистических показателей буквально в один клик.

Этот инструмент называется «Описательная статистика». С его помощью можно в очень короткие сроки, использовав ресурсы программы, обработать массив данных и получить о нем информацию по целому ряду статистических критериев. Давайте взглянем, как работает данный инструмент, и остановимся на некоторых нюансах работы с ним.

Использование описательной статистики

Под описательной статистикой понимают систематизацию эмпирических данных по целому ряду основных статистических критериев. Причем на основе полученного результата из этих итоговых показателей можно сформировать общие выводы об изучаемом массиве данных.

В Экселе существует отдельный инструмент, входящий в «Пакет анализа», с помощью которого можно провести данный вид обработки данных. Он так и называется «Описательная статистика». Среди критериев, которые высчитывает данный инструмент следующие показатели:

  • Медиана;
  • Мода;
  • Дисперсия;
  • Среднее;
  • Стандартное отклонение;
  • Стандартная ошибка;
  • Асимметричность и др.

Рассмотрим, как работает данный инструмент на примере Excel 2010, хотя данный алгоритм применим также в Excel 2007 и в более поздних версиях данной программы.

Подключение «Пакета анализа»

Как уже было сказано выше, инструмент «Описательная статистика» входит в более широкий набор функций, который принято называть Пакет анализа. Но дело в том, что по умолчанию данная надстройка в Экселе отключена. Поэтому, если вы до сих пор её не включили, то для использования возможностей описательной статистики, придется это сделать.

  1. Переходим во вкладку «Файл». Далее производим перемещение в пункт «Параметры».
  2. В активировавшемся окне параметров перемещаемся в подраздел «Надстройки». В самой нижней части окна находится поле «Управление». Нужно в нем переставить переключатель в позицию «Надстройки Excel», если он находится в другом положении. Вслед за этим жмем на кнопку «Перейти…».
  3. Запускается окно стандартных надстроек Excel. Около наименования «Пакет анализа» ставим флажок. Затем жмем на кнопку «OK».

После вышеуказанных действий надстройка Пакет анализа будет активирована и станет доступной во вкладке «Данные» Эксель. Теперь мы сможем использовать на практике инструменты описательной статистики.

Применение инструмента «Описательная статистика»

Теперь посмотрим, как инструмент описательная статистика можно применить на практике. Для этих целей используем готовую таблицу.

  1. Переходим во вкладку «Данные» и выполняем щелчок по кнопке «Анализ данных», которая размещена на ленте в блоке инструментов «Анализ».
  2. Открывается список инст

4 Методы анализа и описательная статистика | Оценка Управления по делам ветеранов. Реестр авиационных опасностей и открытых ожоговых ям

Афганистан (80,6%). Различия в некоторых характеристиках (например, семейном положении) не имеют большого практического значения или значения, но многие другие важно рассматривать как потенциальные факторы, влияющие на результаты в отношении здоровья; они включают пол, возраст, расу, отрасль обслуживания, совокупные меры развертывания и страны развертывания.Люди, которые сообщили о службе в разные эпохи, были включены во все категории, в которых они работали (например, война в Персидском заливе и после 11 сентября). Люди были подсчитаны один раз в большинстве категорий, за двумя исключениями: страна развертывания и период службы, где люди были подсчитаны в нескольких категориях, поскольку учитывались все записи.

Различия между респондентами эпохи войны в Персидском заливе и подходящим населением не были столь заметными, как в случае с группой после 11 сентября, а относительно меньшие размеры выборки для определенных категорий респондентов делают некоторые оценки менее надежными.Армейская служба была перепредставлена ​​среди респондентов войны в Персидском заливе по сравнению с подходящим населением (76,4% против 56,3%, относительная разница в 35,7%). И наоборот, доля респондентов, которые служили в ВМС / береговой охране, была ниже, чем среди подходящего населения (4,0% против 19,0%). Точно так же респонденты, служившие в ВВС и Корпусе морской пехоты, также были недопредставлены (относительные различия 25,2% и 19,0% соответственно). Чрезмерная представленность армейской службы может быть связана с тем, что эти ветераны с большей вероятностью, чем те, кто служил в других родах, были размещены на суше с ямами для сжигания или рядом с ними.

Около половины (50,4%) всего обслуживающего персонала, отвечающего критериям участия в войне в Персидском заливе, не были направлены ни в Ирак, ни в Кувейт, по сравнению с только 35,5% респондентов (относительная разница -29,6%). Более сильные положительные различия и, следовательно, чрезмерная представленность наблюдались между двумя группами для развертывания только в Ираке (относительная разница 40,0%) и Ираке и Кувейте (43,4%). Чрезмерное количество мест дислокации Ирака / Кувейта, вероятно, объясняется тем, что передовые оперативные базы, которые использовали ямы для сжигания отходов в то время, находились в Ираке и Кувейте.Поэтому ветераны и военнослужащие, отправленные в эти места, могут быть более склонны участвовать в реестре.

Немногочисленные различия, наблюдаемые в демографических характеристиках, а не в военных характеристиках, включали чрезмерную представленность женщин (16,2%) и женщин с некоторым высшим образованием или степенью бакалавра (относительная разница 33,3%), а также существенную недопредставленность женщин в возрасте 60 лет и старше (относительная разница −56,6%).

В то время как респонденты, принявшие участие в исследовании 11 сентября, отличались от подходящего населения аналогично респондентам в случае войны в Персидском заливе (вид службы и страна развертывания), они также отличались от подходящего населения почти по всем другим изученным характеристикам.Среди респондентов после 11 сентября служба в армии была перепредставлена ​​на 26,9%, в то время как военно-морские силы / береговая охрана и морская пехота были недопредставлены (относительные различия -73,0% и -11,0%, соответственно). Предыдущие отчеты ветеранов и военнослужащих после 11 сентября подтвердили этот вывод и специально ограничили исследуемую группу персоналом армии и ВВС из-за небольшого числа военно-морских сил и персонала корпуса морской пехоты с местами развертывания в радиусе 5 миль от задокументированные ожоговые ямы в образце (AFHSC et al., 2010; Смит и др., 2012).

В то время как большинство респондентов и подходящего населения были направлены в Ирак, Афганистан или обе страны (86,3% против 67,1%), респонденты из реестра были существенно перепредставлены среди тех, кто направился только в Ирак (относительная разница, 31,8%) и в Ирак и Афганистан (относительная разница 80,6%). Напротив, респонденты были существенно недопредставлены среди тех, кто не служил ни в Ираке, ни в Афганистане (относительная разница -58.0%).

Что касается других военных характеристик, респонденты после 11 сентября, которые были членами резерва или Национальной гвардии, были перепредставлены (относительная разница, 34,3%), а те, кто находился на действительной службе, были недопредставлены (относительная разница, -12,8%) в реестр по сравнению с подходящим населением. Распределение количества развертываний также заметно отличалось: респонденты сообщили о большем количестве подходящих сегментов развертывания, чем подходящее население. Например, 15.1% респондентов имели одно подходящее развертывание по сравнению с 26,0% подходящего населения (относительная разница -41,9%), но 14,0% респондентов имели 10 или более подходящих сегментов развертывания по сравнению с 8,8% соответствующих критериям обслуживающего персонала (относительная разница 59,1%). ).

Помимо различий в военных характеристиках, респонденты после событий 11 сентября и соответствующие лица той эпохи различались по всем демографическим характеристикам, доступным для оценки. Например, женщины (−14.3%), лица моложе 30 лет (-41,0%) и представители расы / этнических меньшинств (с некоторыми относительными различиями в -20% и более) были существенно недопредставлены среди респондентов, в то время как те, кто был женат, и те, кто учился в каком-либо колледже или со степенью бакалавра были перепредставлены среди участников реестра (относительные различия 20,9% и 33,3%) относительно всех подходящих кандидатов той эпохи.

Другие сравнения респондентов после 11 сентября со всеми подходящими лицами для VA (Гаспер и Катава,

допущений для статистических тестов | Реальная статистика с использованием Excel

Как видно на этом веб-сайте, большинство статистических тестов, которые мы проводим, основаны на ряде предположений.Когда эти предположения нарушаются, результаты анализа могут вводить в заблуждение или полностью ошибочны.

Типичные допущения:

  • Нормальность : данные имеют нормальное распределение (или, по крайней мере, симметрично)
  • Однородность дисперсий : данные из нескольких групп имеют одинаковую дисперсию
  • Линейность : данные имеют линейную зависимость
  • Независимость : Данные независимы

Мы подробно исследуем, что означает нормальное распределение данных при нормальном распределении, но в целом это означает, что график данных имеет форму колоколообразной кривой. Такие данные симметричны относительно своего среднего и имеют эксцесс, равный нулю. В разделе «Тестирование на нормальность и симметрию» мы предлагаем тесты, чтобы определить, соответствуют ли данные этому предположению.

Некоторые тесты (например, ANOVA) требуют, чтобы исследуемые группы данных имели одинаковую дисперсию. В разделе «Однородность отклонений» мы предлагаем несколько тестов для определения того, имеют ли группы данных одинаковую дисперсию.

Некоторые тесты (например, регрессия) требуют наличия линейной корреляции между зависимыми и независимыми переменными.Как правило, линейность можно проверить графически с помощью диаграмм рассеяния или с помощью других методов, рассмотренных в разделах «Корреляция, регрессия и множественная регрессия».

Мы затрагиваем понятие независимости в определении 3 основных концепций вероятности. Как правило, данные независимы, если между ними нет корреляции (см. Корреляция). Многие тесты требуют, чтобы данные отбирались случайным образом, причем каждый элемент данных выбирался независимо от ранее выбранных данных. Например. если мы измеряем ежемесячный вес 10 человек в течение 5 месяцев, эти 50 наблюдений не являются независимыми, поскольку повторные измерения у одних и тех же людей не являются независимыми.Кроме того, IQ 20 супружеских пар не составляет 40 независимых наблюдений.

Практически все наиболее часто используемые статистические тесты основываются на соблюдении некоторой функции распределения (например, нормального распределения). Такие тесты называются параметрическими тестами . Иногда, когда одно из ключевых допущений такого теста нарушается, вместо него может использоваться непараметрический тест . Такие тесты не полагаются на конкретную функцию распределения вероятностей (см. Непараметрические тесты).

Другой подход к решению проблем, связанных с предположениями, — это преобразование данных (см. Преобразования).

4. Описательная статистика и графические дисплеи

Меры центральной тенденции

Меры центральной тенденции, также известные как меры местоположения, обычно
среди первых статистических данных, вычисленных для непрерывных переменных в новом
набор данных. Основная цель вычисления показателей центральной тенденции —
дать вам представление о том, какое типичное или общее значение для данной переменной
является.Три наиболее распространенных показателя центральной тенденции — это арифметика.
среднее, медиана и мода.

Среднее арифметическое , или просто среднее, в обычной речи часто называют
среднее значение набора значений. Расчет среднего как
мера центральной тенденции подходит для интервала и соотношения
данных, а среднее значение дихотомических переменных, закодированных как 0 или 1, обеспечивает
доля субъектов, значение переменной которых равно 1.Для непрерывного
данные, например, измерения роста или баллы по тесту IQ, среднее
просто вычисляется путем сложения всех значений и последующего деления на
количество значений. Среднее значение населения обозначается греческим
буква mu ( μ ), тогда как среднее
образца обычно обозначается полосой над символом переменной: для
например, будет записано среднее значение x
и произносится как «х-бар». Некоторые авторы адаптируют
штриховая нотация также для имен переменных.Например, некоторые авторы
обозначим «среднее значение переменной возраста» цифрой , что будет произноситься как «возрастная планка».

Предположим, что у нас всего пять случаев, и это
значения для членов этой совокупности для переменной
x :

Мы можем вычислить среднее значение x , добавив
эти значения и разделив на 5 (количество значений):

µ = (100 + 115 + 93 + 102 + 97) / 5 =
507/5 = 101.4

Статистики часто используют соглашение, называемое суммированием .
обозначение
, введенное в главе 1, которое определяет статистику как
описывая, как он рассчитывается. Вычисление среднего значения такое же
считаются ли числа представляющими совокупность или выборку; единственный
разница — это символ самого среднего. Среднее значение населения,
в виде суммирования показано на рисунке 4-1.

Рисунок 4-1. Формула для вычисления среднего

В этой формуле µ (греческая буква mu ) равна
среднее значение для x , n
— количество случаев (количество значений для
x ), и
x i есть
значение x для конкретного случая.Греческий
буква сигма (Σ) означает суммирование (сложение), а цифры
выше и ниже сигмы определяют диапазон, в котором операция
должен быть выполнен. В этом случае в обозначениях сказано, что нужно просуммировать все
значения x от 1 до n . В
символ i обозначает позицию в наборе данных,
поэтому x 1 — первое значение в
набор данных, x 2 второй
значение и
x n мм
последнее значение в наборе данных.Символ суммирования означает сложение
или суммируйте значения x с первого
( x 1 ) до последнего
( x n ).
Поэтому среднее значение по совокупности вычисляется путем суммирования всех значений.
для рассматриваемой переменной, а затем разделив на количество значений,
помня, что деление на n — то же самое, что
умножение на 1/ n .

Среднее — это интуитивная мера центральной тенденции, которую легко
для понимания большинства людей.Однако среднее значение не подходит
сводная мера для каждого набора данных, потому что она чувствительна к экстремальным
значения, также известные как выбросов (обсуждается далее
позже), а также может вводить в заблуждение из-за перекоса (несимметричности)
данные.

Рассмотрим один простой пример. Предположим, что последнее значение в нашем крошечном
набор данных был 297 вместо 97. В этом случае среднее значение будет:

µ = (100 + 115 + 93 + 102 + 297) / 5 = 707/5 =
141,4

Среднее значение 141.4 не является типичным значением для этих данных.
80% данных (четыре из пяти значений) ниже среднего, что составляет
искажается наличием одного чрезвычайно высокого значения.

Проблема здесь не только теоретическая; много больших наборов данных
также имеют распределение, для которого среднее значение не является хорошей мерой
основная тенденция. Это часто верно в отношении показателей дохода, таких как
данные о доходах домохозяйств в США. Несколько очень богатых семей
сделать средний доход домохозяйства в США больше, чем
действительно репрезентативен для среднего или типичного домохозяйства, и для
по этой причине средний доход домохозяйства часто
вместо этого сообщили (подробнее о медианах позже).

Среднее значение также можно рассчитать с использованием данных частоты
таблица
, то есть таблица, отображающая значения данных и частоту
каждое происходит. Рассмотрим следующий простой пример в Таблице 4-1.

Таблица 4-1. Простая таблица частот

Чтобы найти среднее значение этих чисел, рассматривайте столбец частоты как
весовая переменная. То есть умножьте каждое значение на его частоту. За
знаменатель, сложите частоты, чтобы получить общее
н. .Затем рассчитывается среднее значение, как показано на рисунке 4-2.

Рисунок 4-2. Вычисление среднего из таблицы частот

Это тот же результат, что и при сложении каждой оценки.
(1 + 1 + 1 + 1 +…) И деление на 26.

Среднее значение для сгруппированных данных , в которых данные были табулированы по диапазону и точным значениям
неизвестны, рассчитывается аналогичным образом. Потому что мы не знаем
точные значения для каждого случая (мы знаем, например, что 5 значений
попадали в диапазон 1–20, но не в конкретные значения для этих пяти
случаев), для расчетов мы используем середину диапазона
в качестве замены определенных ценностей.Следовательно, чтобы вычислить среднее значение,
мы сначала вычисляем эту среднюю точку для каждого диапазона, а затем умножаем ее на
частота значений в диапазоне. Чтобы вычислить среднюю точку для
диапазона, сложите первое и последнее значения в диапазоне и разделите на 2. Для
Например, для диапазона 1–20 средняя точка равна:

(1 + 20) / 2 = 10,5

Среднее значение, вычисленное таким образом, называется сгруппированным средним . Сгруппированный
среднее значение не так точно, как среднее значение, рассчитанное на основе исходных данных
точек, но часто это единственный вариант, если исходные значения
имеется в наличии.Рассмотрим следующий сгруппированный набор данных в Таблице 4-2.

Таблица 4-2. Сгруппированные данные

Диапазон

Частота

Средняя точка

1–20 9205

1–20

9202 9202

21–40

25

30,5

41–60

37

50. 5

61–80

23

70,5

81–100

8

02

8

02

2 умножая среднюю точку каждого
интервал по количеству значений в интервале (частота) и
деление на общую частоту, как показано на рисунке 4-3.

Рисунок 4-3. Вычисление среднего для сгруппированных данных

Одним из способов уменьшить влияние выбросов является вычисление
усеченное среднее , также известное как Winsorized
значит
.Как следует из названия, усеченное среднее вычисляется по формуле
обрезка или отбрасывание определенного процента крайних значений в
распределение, а затем вычисление среднего оставшихся значений. В
цель — вычислить среднее значение, которое хорошо представляет большинство значений
и не подвержен чрезмерному влиянию экстремальных ценностей. Рассмотрим на примере
вторая популяция с пятью ранее указанными членами со значениями
100, 115, 93, 102 и 297. Среднее значение этой совокупности искажено на
влияние одного очень большого значения, поэтому мы вычисляем усеченное среднее значение
отбрасывание самого высокого и самого низкого значений (эквивалентно отбрасыванию
минимальное и максимальное 20% значений).Усеченное среднее вычисляется
как:

(100 + 115 + 102) / 3 = 317/3 = 105,7

Значение 105,7 намного ближе к типичным значениям в
распределения, чем 141,4, значение среднего, включая все данные
ценности. Конечно, мы редко работаем с населением с
всего пять членов, но принцип применим к большим группам населения, поскольку
Что ж. Обычно определенный процент значений данных отсекается от
крайности распределения, и это решение должно быть
сообщил, чтобы прояснить, что на самом деле рассчитанное среднее
представляет собой.

Среднее значение также можно рассчитать для дихотомических данных, используя 0–1
кодирование, в этом случае среднее значение эквивалентно проценту значений
с числом 1. Предположим, у нас есть население из 10 субъектов, 6 из которых
которых мужчины и 4 женщины, и мы закодировали мужчин как 1 и
женщин как 0. Вычисление среднего даст нам процент мужчин в
население:

µ = (1 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0) / 10 = 6/10 = 0,6 или 60%
мужчины

Медиана набора данных является средним значением, когда значения ранжируются в
по возрастанию или убыванию.Если есть n
значений, медиана формально определяется как ( n
+1) / 2-е значение, поэтому, если n = 7, среднее значение будет
(7 + 1) / 2-е или четвертое значение. Если есть четное количество значений,
Медиана — это среднее из двух средних значений. Это формально определено
как среднее значение ( n /2) -го и
(( n /2) +1) -ое значение. Если есть шесть значений,
медиана — это среднее значение (6/2) -го и ((6/2) +1) -го значения, или третьего
и четвертые значения. Здесь демонстрируются оба метода:

Нечетное число (5) значений: 1, 4, 6, 6, 10; Медиана = 6, потому что
(5 + 1) / 2 = 3, а 6 — третье значение в упорядоченном списке.
Четное число (6) значений: 1, 3, 5, 6, 10, 15; Медиана =
(5 + 6) / 2 = 5,5, потому что 6/2 = 3 и [(6/2) +1] = 4, а 5 и 6 являются
третье и четвертое значения в упорядоченном списке.

Медиана является лучшим показателем центральной тенденции, чем среднее значение
для данных, которые являются асимметричными или содержат выбросы.Это потому, что
медиана основана на рангах точек данных, а не на их фактических
значения, и по определению половина значений данных в распределении лежит
ниже медианы и наполовину выше медианы, без учета фактического
рассматриваемые ценности. Следовательно, не имеет значения,
содержит очень большие или маленькие значения, потому что они не будут
влияют на медиану больше, чем на менее экстремальные значения. Например,
Медиана всех трех из следующих распределений равна 4:

Распределение A: 1, 1, 3, 4, 5, 6, 7
Распределение B: 0.01, 3, 3, 4, 5, 5, 5
Распределение C: 1, 1, 2, 4, 5, 100, 2000

Конечно, медиана не всегда является подходящей мерой для
описать генеральную совокупность или образец. Отчасти это призыв к суждению; в
В этом примере медиана кажется достаточно репрезентативной для данных
значения в распределениях A и B, но, возможно, не в распределении C,
чьи значения настолько несопоставимы, что любая единственная сводная мера может быть
вводящие в заблуждение.

Третьим распространенным показателем центральной тенденции является мода , которая
относится к наиболее часто встречающемуся значению.Режим чаще всего
полезно при описании порядковых или категориальных данных. Например, представьте
что следующие числа отражают избранные источники новостей группы
студентов колледжей, где 1 = газеты, 2 = телевидение и 3 =
Интернет:

1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3

Мы видим, что Интернет является самым популярным источником, потому что 3
— модальное (наиболее распространенное) значение в этом наборе данных.

Когда режимы указаны для непрерывных данных, обычно в диапазоне
значений называется режимом (потому что со многими значениями, как
типично для непрерывных данных, может не быть единственного значения
существенно чаще, чем любой другой).Если вы собираетесь это сделать, вы
следует определиться с категориями заранее и использовать стандартные диапазоны, если
они существуют. Например, возраст взрослых часто собирается в диапазоне
5 или 10 лет, поэтому может случиться так, что в данном наборе данных разделенный
в диапазоне от 10 лет модальный диапазон составлял от 40 до 49 лет.

Сравнение среднего, медианы и моды

В абсолютно симметричном распределении (таком как нормальное распределение, обсуждаемое в главе 3) среднее,
медиана и режим идентичны.В асимметричном или скошенном
распределения, эти три показателя будут отличаться, как показано на
наборы данных, представленные в виде гистограмм на рисунках 4-4, 4-5 и 4-6. Чтобы
облегчить расчет режима, мы также разделили каждый набор данных на
диапазоны 5 (35–39,99, 40–44,99 и т. д.).

Рисунок 4-4. Симметричные данные

Рисунок 4-5. Данные со смещением вправо

Рисунок 4-6. Данные со смещением влево

Данные на рис. 4-4 приблизительно
нормальные и симметричные со средним значением 50.88 и медиана 51,02; то
наиболее распространенный диапазон — 50,00–54,99 (37 случаев), за которым следует 45,00–49,99 (34 случая).
случаи). В этом распределении среднее значение и медиана очень близки к каждому
другой, и два наиболее распространенных диапазона также группируются вокруг
подлый.

Данные на рис. 4-5 смещены вправо;
среднее значение 58,18, а медиана — 56,91; среднее значение выше медианы
является обычным для данных со смещением вправо, потому что чрезвычайно высокие значения тянут
среднее значение выше, но не оказывает такого же влияния на медианное значение.Модальный
диапазон 45,00–49,99 с 16 случаями; однако несколько других диапазонов имеют
14 случаев, что делает их очень близкими по частоте к модальным
диапазон и сделать режим менее полезным при описании этих данных
задавать.

Данные на рис. 4-6 смещены влево;
среднее значение составляет 44,86, а медиана — 47,43. Среднее значение ниже медианы
типичен для данных со смещением влево, потому что экстремально низкие значения тянут
среднее значение вниз, в то время как они не имеют такого же влияния на медианное значение.В
перекос на рис. 4-6 больше, чем на
Рисунок 4-5, и это отражено в
большая разница между средним и медианным значением в

PPT — Глава 2 Описательная статистика: табличные и графические методы Презентация в PowerPoint

  • Глава 2 Описательная статистика: табличные и графические методы • Обобщение качественных данных • Обобщение количественных данных • Исследовательский анализ данных • Кросс-таблицы и точечные диаграммы

  • Обобщение качественных данных • Распределение частот • Относительная частота • Процентное распределение частот • Гистограмма • Круговая диаграмма

  • Распределение частот • Распределение частот — это сводная таблица данных, показывающих частоту ( или количество) элементов в каждом из нескольких неперекрывающихся классов. • Цель состоит в том, чтобы дать представление о данных, которые нельзя быстро получить, глядя только на исходные данные.

  • Пример: Marada Inn Гостей, остановившихся в Marada Inn, попросили оценить качество своего жилья как отличное, выше среднего, среднее, ниже среднего или плохое. Ниже приведены рейтинги по выборке из 20 квестов. Ниже среднего Среднее Выше среднего Выше среднего Выше среднего Выше среднего Выше среднего Ниже среднего Ниже среднего Плохо Выше среднего Отлично Выше среднего Выше среднего Выше среднего Выше среднего

  • Пример: Marada Inn • Рейтинг распределения частот Частота Плохо 2 Ниже среднего 3 Среднее 5 Выше среднего 9 Отлично 1 Всего 20

  • Относительное распределение частот • Относительная частота класса — это доля или доля от общего количества элементов данных, принадлежащих этому классу.• Распределение относительной частоты — это сводная таблица с набором данных, показывающая относительную частоту для каждого класса.

  • Процентное распределение частот • Процентная частота класса — это относительная частота, умноженная на 100. • Процентное частотное распределение — это сводная таблица набора данных, показывающая процентную частоту для каждого класса.

  • Пример: Marada Inn • Относительная частота и процентное распределение частот RelativePercent RatingFrequencyFrequency Плохое.10 10 Ниже среднего 0,15 15 Среднее 0,25 25 Выше среднего 0,45 45 Отлично 0,05 5 Всего 1,00 100

  • Гистограмма • Гистограмма — это графическое устройство для отображения качественных данных. • На горизонтальной оси мы указываем метки, которые используются для каждого из классов. • Для вертикальной оси можно использовать шкалу частоты, относительной частоты или частоты в процентах. • Используя полосу фиксированной ширины, нарисованную над каждой меткой класса, мы соответствующим образом увеличиваем высоту. • Полосы разделены, чтобы подчеркнуть тот факт, что каждый класс представляет собой отдельную категорию.

  • 9 8 7 6 Частота 5 4 3 2 1 Рейтинг Выше среднего Отлично Плохо Ниже среднего Пример: Marada Inn • Столбиковая диаграмма

  • Круговая диаграмма • Круговая диаграмма является обычно используемым графическим устройством для представление относительных частотных распределений для качественных данных. • Сначала нарисуйте круг; затем используйте относительные частоты, чтобы разделить круг на секторы, которые соответствуют относительной частоте для каждого класса.• Поскольку круг состоит из 360 градусов, класс с относительной частотой 0,25 будет занимать 0,25 (360) = 90 градусов круга.

  • Отл. 5% Плохо 10% Ниже среднего 15% Выше среднего 45% Среднее 25% Оценка качества Пример: Marada Inn • Круговая диаграмма

  • Пример: Marada Inn • Аналитические данные, полученные из предшествующей круговой диаграммы • Половина опрошенные клиенты дали Marada оценку качества «выше среднего» или «отлично» (если посмотреть на левую часть пирога). Это могло бы обрадовать менеджера. • На каждого покупателя, который дал оценку «отлично», было два клиента, которые дали оценку «плохо» (если смотреть на верхнюю часть пирога). Это должно не понравиться менеджеру.

  • Обобщение количественных данных • Распределение частот • Распределение относительной частоты и процентной частоты • Точечная диаграмма • Гистограмма • Кумулятивные распределения • Ogive

  • Пример: Hudson Auto Repair Менеджер Hudson Auto хотел бы получить лучшая картина распределения затрат на детали для настройки двигателя.Были взяты образцы из 50 счетов-фактур клиентов, и стоимость запчастей, округленная до ближайшего доллара, указана ниже.

  • Распределение частот • Рекомендации по выбору количества классов • Используйте от 5 до 20 классов. • Для наборов данных с большим количеством элементов обычно требуется большее количество классов. • Для меньших наборов данных обычно требуется меньше классов.

  • Распределение частот • Рекомендации по выбору ширины классов • Используйте классы одинаковой ширины.• Приблизительная ширина класса =

  • Пример: Hudson Auto Repair • Распределение частот Если мы выберем шесть классов: Приблизительная ширина класса = (109–52) / 6 = 9,5 10 Стоимость ($) Частота 50-59 2 60-69 13 70-79 16 80-89 7 90-99 7 100-109 5 Итого 50

  • Пример: Hudson Auto Repair • Относительная частота и процентное распределение частот Относительная процентная стоимость ($) Частота Частота 50-59 .04 4 60-69 .26 26 70-79 .32 32 80-89 .14 14 90-99 .14 14 100-109 .1010 Итого 1,00 100

  • Пример: Hudson Auto Repair • Информация, полученная из Процентное распределение частот • Только 4% стоимости запчастей относится к классу 50-59 долларов. • 30% стоимости запчастей меньше 70 долларов США. • Наибольший процент (32% или почти треть) стоимости запчастей приходится на класс 70-79 долларов.• 10% стоимости запчастей составляет 100 долларов и более.

  • Точечная диаграмма • Одно из самых простых графических сводок данных — это точечная диаграмма. • Горизонтальная ось показывает диапазон значений данных. • Затем каждое значение данных представлено точкой, помещенной над осью.

  • . . … . . . .. .. .. … . . . . ….. ………. … …. …. … 50607080

    110 Стоимость ($) Пример: Hudson Auto Repair • Точечная диаграмма

  • Гистограмма • Другим распространенным графическим представлением количественных данных является гистограмма. • Интересующая переменная расположена на горизонтальной оси. • Над каждым интервалом класса рисуется прямоугольник, высота которого соответствует частоте интервала, относительной частоте или частоте в процентах. • В отличие от гистограммы, гистограмма не имеет естественного разделения между прямоугольниками соседних классов.

  • Пример: Hudson Auto Repair • Гистограмма 18 16 14 12 Частота 10 8 6 4 Стоимость 2 частей ($) 50 60 70 80 90 100 110

  • Кумулятивное распределение • Кумулятивное распределение частот — показывает количество элементов со значениями, меньшими или равными верхнему пределу каждого класса. • Кумулятивное относительное частотное распределение — показывает долю элементов, значения которых меньше или равны верхнему пределу каждого класса.• Кумулятивное процентное частотное распределение — показывает процент элементов со значениями, меньшими или равными верхнему пределу каждого класса.

  • Пример: Hudson Auto Repair • Совокупные распределения Совокупная совокупная относительная относительная стоимость в процентах ($) ЧастотаЧастотаЧастота <59 2 . 04 4 <69 15 .30 30 <79 31 .62 62 <89 38.76 76 <99 45 .90 90 <109 50 1,00 100

  • Ogive • Ogive — это график кумулятивного распределения. • Значения данных отображаются на горизонтальной оси. • На вертикальной оси показаны: • совокупные частоты, или • совокупные относительные частоты, или • совокупные частоты в процентах • Частота (одна из вышеперечисленных) каждого класса отображается в виде точки. • Построенные точки соединяются прямыми линиями.

  • Пример: Hudson Auto Repair • Да здравствует • Поскольку пределы классов для данных о стоимости запчастей составляют 50-59, 60-69 и т. Д., Кажется, что есть пробелы на одну единицу от 59 до 60, С 69 по 70 и так далее. • Эти пробелы устраняются путем нанесения точек на полпути между пределами класса. • Таким образом, 59,5 используется для класса 50-59, 69,5 используется для класса 60-69 и так далее.

  • Пример: Hudson Auto Repair • Ogive с накопленной процентной частотой 100 80 60 Накопленная процентная частота 40 20 Стоимость деталей ($) 50 60 70 80 90 100 110

  • Анализ исследовательских данных • Методы Исследовательский анализ данных состоит из простых арифметических операций и простых в рисовании изображений, которые можно использовать для быстрого обобщения данных. • Одним из таких приемов является демонстрация стебля и листа.

  • Отображение «стержень и лист» • Отображение «стержень и лист» показывает как порядок ранжирования, так и форму распределения данных. • Он похож на гистограмму на своей стороне, но имеет то преимущество, что показывает фактические значения данных. • Первые цифры каждого элемента данных расположены слева от вертикальной линии. • Справа от вертикальной линии мы записываем последнюю цифру для каждого элемента в порядке ранжирования. • Каждая строка на дисплее называется стержнем.• Каждая цифра на стебле — это лист. 8 5 7 9 3 6 7 8

  • Отображение стержня и листа • Единицы измерения листа • Для определения каждой створки используется одна цифра. • В предыдущем примере конечная единица была 1. • Конечная единица могла быть 100, 10, 1, 0,1 и т. Д. • Если листовая единица не показана, предполагается, что она равна 1.

  • Пример: Leaf Unit = 0,1 Если у нас есть данные со значениями, например, 8,6 11,7 9,4 9,1 10,2 11,0 8,8, отображение стебля и листа из этих данных будет Leaf Unit = 0. 1 8 6 8 9 1 4 10 2 11 0 7

  • Пример: Leaf Unit = 10 Если у нас есть данные со значениями, такими как 1806 1717 1974 1791 1682 1910 1838, отображение этих данных в виде стебля и листа будет be Leaf Unit = 10 16 8 17 1 9 18 0 3 19 1 7

  • Пример: Hudson Auto Repair • Отображение стержня и листа 5 2 7 6 2 2 2 2 5 6 7 8 8 8 9 9 9 7 1 1 2 2 3 4 4 5 5 5 6 7 8 9 9 9 8 0 0 2 3 5 8 9 9 1 3 7 7 7 8 9 10 1 4 5 5 9

  • Растянутый стержень и- Leaf Display • Если мы считаем, что исходное отображение «стебель-лист» слишком сжато сжимало данные, мы можем растянуть отображение, используя еще два стержня для каждой ведущей цифры (цифр).• Если значение стержня указано дважды, первое значение соответствует значениям листа 0–4, а второе значение соответствует значениям 5–9.

  • Пример: Hudson Auto Repair • Отображение растянутых стержней и листьев 5 2 5 7 6 2 2 2 2 6 5 6 7 8 8 8 9 9 9 7 1 1 2 2 3 4 4 7 5 5 5 6 7 8 9 9 9 8 0 0 2 3 8 5 8 9 9 1 3 9 7 7 7 8 9 10 1 4 10 5 5 9

  • Кросс-таблицы и диаграммы рассеяния • До сих пор мы сосредоточились на методах, которые используются для суммирования данных по одной переменной за раз. • Часто менеджера интересуют табличные и графические методы, которые помогут понять взаимосвязь между двумя переменными. • Перекрестная таблица и диаграмма рассеяния — это два метода для суммирования данных для двух (или более) переменных одновременно.

  • Перекрестная таблица • Перекрестная таблица — это табличный метод суммирования данных для двух переменных одновременно. • Перекрестная таблица может использоваться, когда: • Одна переменная является качественной, а другая — количественной • Обе переменные являются качественными • Обе переменные являются количественными • Метки на левом и верхнем полях определяют классы для двух переменных.

  • Пример: Дома Finger Lakes • Перекрестная таблица Число домов Finger Lakes, проданных по каждому стилю и цене за последние два года, показано ниже. Цена Дома Стиль Колониальное Ранчо Раздельная А-образная рама Итого <99 000 долларов 18 6 19 12 55> 99 000 долларов 12 14 16 3 45 Итого 30 20 35 15 100

  • Пример: Finger Lakes Homes • Выводы, полученные из предшествующей кросс-таблицы • Наибольшее число домов в выборке (19) являются двухуровневыми и стоят не более 99 000 долларов. • Только три дома в выборке выполнены в стиле А-образной рамы и стоят более 99 000 долларов.

  • Перекрестная таблица: проценты по строкам или столбцам • Преобразование записей в таблице в проценты строк или столбцов может дать дополнительную информацию о взаимосвязи между двумя переменными.

  • Пример: Finger Lakes Homes • Цена в процентах по строкам Диапазон стилей дома Колониальное ранчо, разделенная А-образная рама Итого <99 000 долларов 32.73 10,91 34,55 21,82 100> 99 000 долларов 26,67 31,11 35,56 6,67 100 Примечание: итоги строк фактически равны 100,01 из-за округления.

  • Пример: Finger Lakes Homes • Процентные значения по столбцам Цена Диапазон домашнего стиля Колониальный ранчо с раздельной А-образной рамой <99 000 долларов США 60,00 30,00 54,29 80,00> 99 000 долларов США 40,00 70,00 45,71 20,00 Всего 100 100 100 100

  • Диаграмма разброса • Диаграмма разброса Диаграмма представляет собой графическое представление взаимосвязи между двумя количественными переменными. • Одна переменная отображается на горизонтальной оси, а другая — на вертикальной оси. • Общий рисунок нанесенных точек указывает на общую взаимосвязь между переменными.

  • Пример: Футбольная команда Пантерз • Диаграмма разброса Футбольная команда Пантерс заинтересована в исследовании взаимосвязи, если таковая имеется, между осуществленными перехватами и набранными очками. x = Количество y = Количество очков перехватов 1 14 3 24 2 18 1 17 3 27

  • Пример: Panthers Football Team • Диаграмма разброса y 30 25 20 Количество набранных очков 15 10 5 x 0 1 0 2 3 Количество перехватов

  • Пример: Panthers Football Team • Предыдущая диаграмма разброса показывает положительную взаимосвязь между количеством перехватов и количеством набранных очков.• Чем больше очков набрано, тем больше перехватов. • Отношения не идеальны; все нанесенные точки в разброс dia

  • .

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    2024 © Все права защищены. Карта сайта