Поделиться Поделиться

Выбросы (аномальные значения)

Что такое выбросы?

Выбросы – наблюдения, которые отличаются от главной группы данных и несовместимы с остальными. Эти данные могут быть подлинными наблюдениями с очень экстремальными величинами переменной. Однако они могут появиться также в результате опечаток и в этом случае любые данные, вызывающие подозрение, должны быть проверены. Важно выяснить, имеются ли выбросы в наборе данных, так как они могут в значительной степени повлиять на результаты некоторых исследований.

К примеру, женщина, у которой 2,1 м, вероятнее всего воспринималась бы как выброс в большинстве наборов данных. Однако, хотя очевидно, что эта величина довольно высокая по сравнению с обычным ростом женщин, эти данные могут быть подлинными, так как эта женщина может быть просто очень высокой. В этом случае надо исследовать это наблюдение и дальше, может проверить другие ее показатели, такие, как возраст и масса, прежде чем принимать решение относительно истинности этой величины. И только в этом случае, если стало очевидно, что эти данные неверны, следует изменить значение.

Проверка выбросов

Самый простой метод состоит в том, чтобы во время набора данных проверять их глазами. Это приемлемо, если количество наблюдений не слишком большое и потенциальный выброс намного ниже или выше, чем остальная часть данных. Выбросы также можно увидеть на гистограммах и диаграммах рассеяния.

Обращение с выбросами

Нельзя убрать индивидуума из анализа только потому, что его/ее данные выше или ниже, чем должны быть. Однако включение выбросов может повлиять на результаты, когда используются какие-нибудь статистические методы. Самый простой метод состоит в том, чтоб повторить анализ как с включенными, так и с исключенными данными. Если результаты окажутся одинаковыми, то в этом случае выбросы не окажут большого влияния на результаты. Однако, если результаты сильно отличаются, следует применить соответствующие методы, при которых выбросы не повлияют на исследование данных. Они включают в себя применение преобразований и непараметрических критериев.

Графическое представление данных

Первое, что вы захотите сделать после ввода данных в компьютер, - обобщить их таким образом, чтобы можно было «ощутить» их. Это можно сделать, создавая диаграммы, таблицы или статистическую сводку. Диаграммы – мощный инструмент передачи информации о данных для представления простых итоговых изображений, для обнаружения выбросов и тенденций до того, как будет проведен какой-либо запланированный анализ.

ОДНА ПЕРЕМЕННАЯ

Частотное распределение

Эмпирическое частотное переменной связывает каждое возможное наблюдение, группу наблюдений (т.е. интервал значений) или категории с их наблюдаемой частотой появления. Если мы заменим каждую частоту относительной частотой (процент от общей частоты), то мы сможем сравнить распределения в двух и более группах индивидуумов.

Как только получены частоты (или относительные частоты) для категориальных или дискретных числовых данных, их можно наглядно представить.

Столбчатая и колончатая диаграмма

Для каждой категории чертят отдельный горизонтальный или вертикальный столбик, длина которого пропорциональна частоте данной категории. Столбики отделяются друг от друга небольшим пробелом для того, чтобы показать, какие это данные, категориальные или дискретные.

Круговая диаграмма

Круговая диаграмма делится на секции, каждой из которых отводится определенная категория, таким образом, чтобы площадь каждого сектора была пропорциональна частоте этой категории.

Гистограмма

Здесь не должно быть пробелов между столбцами, так как данные непрерывны. Ширина каждого столбца гистограммы должна соответствовать интервалу значений данной переменной. Площадь столбца пропорциональна частоте в данном интервале, поэтому, если одна из групп охватывает более широкий интервал, чем другие, то основание столбца будет шире, а высота, соответственно меньше.

Точечный график

Каждое наблюдение изображено одной точкой на горизонтальной (или вертикальной) линии. Этот тип графика очень просто чертить, но только при небольшом объеме данных.

График «стебель и листья»

Это смесь диаграммы и таблицы; он похож на гистограмму и эффективен для отображения данных по увеличению порядка величины. Обычно чертят вертикальный стебель, который состоит из нескольких первых цифр данных, приведенных по порядку. Выходящие наружу от этого стебля листья – конечная цифра всех данных по порядку, которые написаны горизонтально в порядке увеличения порядка расположения числа.

График Box-plot

Этот тип графиков часто называют «ящиком с усами». Это вертикальный или горизонтальный прямоугольник, где две параллельных стороны отвечают верхнему и нижнему квартилям данных. Линия, проведенная поперек прямоугольника, отвечает значению среднего. «Усы», начинающиеся в конце прямоугольника обычно показывают минимальные и максимальные значения, но иногда указывают и особые процентили, например, 5-й и 95-й процентили. Здесь же могут быть обозначены и выбросы (аномально большие или малые значения).

← Предыдущая страница | Следующая страница →