Поделиться Поделиться

Множественные формы на одного больного

Иногда информацию собирают на одного и того же больного более чем в одном случае (наблюдении). Важно отметить, что должен существовать уникальный идентификатор (например, порядковый номер), принадлежащий только одному человеку в данном наблюдении, который предоставит вам возможность соединить все данные, собранные на одного человека при исследовании.

Проблемы с датами и периодами

Данные и периоды необходимо вводить последовательно, например: либо день/месяц/год, либо месяц/день/год, но всегда в одном и том же порядке. Важно установить, какой формат может читаться в данном статистическом пакете.

Кодирование отсутствующих (пропущенных) данных

Вам следует определить, что вы будете делать с отсутствующими данными, прежде чем вводить информацию. В большинстве случаев вы будете вынуждены использовать какой-нибудь символ для недостающих данных. Статистические пакеты предлагают для этого различные способы. Некоторые пакеты используют специальные символы (например, точку или звездочку) для обозначения пропущенных данных, принимая это во внимание во время анализа, другие требуют от вас ввести свой собственный код для обозначения отсутствующих данных (обычно используют знаки 9, 999 или -9999). Выбранное значение должно быть одно для всех переменных, и его невозможно использовать для другой переменной. Например, при вводе категориальной переменной с четырьмя категориями (коды 1, 2, 3 и 4) вы можете выбрать цифру 9 для недостающих данных. Однако для переменной «возраст ребенка» будет необходимо выбрать другой код, например «-9».

Проверка ошибок и выбросов

При любом исследовании всегда есть опасность допустить ошибки при наборе данных либо вначале, при измерениях, либо при сборе, переписывании и вводе данных в компьютер. Довольно трудно избежать этих ошибок. Однако можно сократить количество опечаток и описок путем тщательной проверки данных, как только они будут введены. Даже бегло просмотрев таблицу, можно обнаружить очевидные ошибки.

Опечатки

Опечатки – самые распространенные ошибки при вводе данных. Если количество данных невелико, мы можете сравнить уже напечатанные с оригинальными, просто просмотрев их, и проверить, нет ли ошибок. Однако при большом объеме данных на это потребуется слишком много времени. Можно ввести данные дважды и сравнить их при помощи компьютерной программы. Любы различия между двумя вариантами будут обнаружены. Хотя не исключено, что одна и та же ошибка может быть допущена в обоих случаях или данные в форме/анкете неправильные, но по крайней мере это сводит к минимуму количество ошибок. Недостаток этого метода заключается в том, что приходится дважды вводить данные, а это может повлечь большие затраты денег и времени.

Проверка ошибок

- категориальные данные. Относительно легко проверить категориальные данные, так как отклики на каждую переменную (переменная отклика) могут принимать только одно из ограниченного ряда значений, поэтому данные, которые недопустимы, должны считаться ошибочными.

- числовые (количественные) данные. При вводе числовых данных достаточно просто поменять местами цифры или не туда поставить десятичную запятую – и данные искажены, поэтому их довольно трудно проверить, но и здесь надо попытаться устранить ошибки. Числовые данные можно проверить по размаху, т.е. задать верхние и нижние ограничения для каждой переменной. Если величина находится за пределами этого интервала, то она не используется при дальнейшем исследовании.

- Даты. Часто трудно проверить точность дат, хотя иногда вам следует знать, что в определенный период времени данные могут выпадать (исчезать). Даты необходимо проверять хотя бы ради того, чтобы удостовериться, что они действительны.

Во всех проверках величина должна быть исправлена только в том случае, если ошибка очевидна. Не следует менять данные только потому, что они выглядят необычными.

← Предыдущая страница | Следующая страница →