Поделиться Поделиться

Форма частотного распределения

Выбор наиболее подходящего статистического метода часто зависит от формы распределения. Распределение данных чаще всего унимодальное, т.е. имеющее одну «вершину». Иногда распределение бимодальное (две «вершины») или равномерное (каждая величина одинаково вероятна и нет «вершин»). При унимодальном распределении главная цель состоит в том, чтобы увидеть, где находится большая часть данных, относительно максимальных и минимальных значений. В частности важно определить, каково распределение:

· симметричное – сосредоточенное вокруг средней точки, когда одна сторона – симметричное отражение другой;

· скошенное вправо (положительная асимметрия) – длинный правый «хвост» с одним или несколькими большими значениями. Такие данные являются весьма частыми в медицинском исследовании;

· скошенное влево (отрицательная асимметрия) — длинный левый «хвост» с одним или несколькими малыми значениями.

ДВЕ ПЕРЕМЕННЫЕ

Если одна переменная категориальная, тогда отдельные диаграммы, показывающие распределение второй переменной, должны быть начерчены для каждой категории. Другие графики, подходящие для таких данных, включают групповые или сегментные линии или графики с колонками. Если обе переменные непрерывные или ординальные, то связь между ними можно изобразить при помощи двухмерной диаграммы рассеяния (скаттерплот). Это двухмерный график, где оси переменных перпендикулярны друг другу. Одна переменная обычно называется x переменная и отображается на горизонтальной оси. Вторая переменная, известная как y переменная, наносится на вертикальную ось.

Идентификация выбросов при использовании графических методов

Мы часто используем только одну переменную, отображающую данные, чтобы обнаружить выбросы. Например, длинный хвост на одной стороне гистограммы может указывать на удалённое, аномальное значение. Однако иногда выбросы могут стать очевидными только при рассмотрении соотношения между двумя переменными. Например, для женщины, рост которой 1,6 м, масса 55 кг не выглядит необычной, однако для женщины ростом 1,9 м такая масса будет необычно мала.

Описание данных: «меры положения»

Обобщение данных

Довольно трудно «прочувствовать» числовые измерения, до тех пор, пока данные не будут обобщены содержательным образом. Диаграмма бывает, полезна в качестве отправной точки. Также можно сжать информацию, представив величины, наиболее важные для характеристики данных. В частности, если знать, из чего состоит представленная величина или насколько широко рассеяны наблюдения, можно сформировать образ этих данных. Мера положения — общее понятие для числового выражения локализации (на числовой оси); которое описывает типичный результат измерения. Мы посвящаем эту главу мерам положения, самые распространённые из которых — среднее и медиана (табл. 5-1).

СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ (ARITHMETIC MEAN) – сумма значений, полученных в ходе нескольких измерений, деленная на количество этих значений.

СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ (MEAN, ARITHMETIC) – одна из мер центральной тенденции. Вычисляется путем суммирования всех величин в группе и последующего деления полученной суммы на число слагаемых.

Среднее арифметическое, которое очень часто называют просто среднее, для набора значений вычисляют следующим образом: складывают все значения и делят эту сумму на количество значений в этом наборе. Можно суммировать это буквальное выражение при помощи алгебраической формулы. Используя математическую систему обозначения, мы можем изобразить набор nнаблюдений переменной х , как х1, х2 , х3, .., хn . Например, хмог бы обозначать рост индивидуума (сантиметры), так чтобы х1обозначал рост первого индивидуума, а хi — рост i индивидуума и т.д. Мы можем написать формулу для среднего арифметического наблюдений, пишется, x произносится «х с чертой»:

Форма частотного распределения - Инвестирование - 1

Используя математическую систему обозначения, мы можем сократить это выражение:

Форма частотного распределения - Инвестирование - 2

Форма частотного распределения - Инвестирование - 3

МЕДИАНА

Вид меры центральной тенденции. Простейшее деление набора измерений на две части: нижнюю и верхнюю половины. Точка на шкале, которая делит группу таким образом, называется медианой.

Если мы упорядочим данные по величине, начиная с самой маленькой величины и заканчивая самой большой, то медиана также будет характеристикой усреднения в упорядоченном наборе данных. Медиана делит ряд упорядоченных значений пополам, с равным числом этих значений как выше, так и ниже её (левее и правее медианы на числовой оси).

Вычислить медиану легко, если количество наблюдений n нечётное. Это будет наблюдение с номером (n+1)/2 в нашем упорядоченном наборе данных. Например, если n=11, то медиана — (11+1)/2=12/2=6, 6-е наблюдение в упорядоченном наборе данных. Если n чётное, тогда, строго говоря, медианы нет. Однако обычно мы вычисляем её как среднее арифметическое двух соседних средних наблюдений в упорядоченном наборе данных [т.е. наблюдений с номерами (n/2) и (n/2+1)]. Так, например, если n=20, то медиана — среднее арифметическое из наблюдений с номерами 20/2=10 и (20/2+1)=11 в упорядоченном наборе данных.

Медиана подобна среднему значению, если данные симметричны (рис. 5-1), меньше, чем среднее значение, если данные скошены вправо (рис. 5-2), и больше, чем среднее значение, если данные скошены влево.

Мода

Мода — значение, которое встречается наиболее часто в наборе данных; если данные непрерывные, то мы обычно группируем их и вычисляем модальную группу. Некоторые наборы данных не имеют моды, потому что каждое значение встречается только один раз.

Иногда можно встретить более одной моды; это происходит тогда, когда два значения или более встречаются одинаковое количество раз и частота встречаемости каждого из этих значений больше, чем таковые для любого другого значения. Мы редко используем моду как обобщающую характеристику.

← Предыдущая страница | Следующая страница →