Поделиться Поделиться

Основные этапы формирования выборки

В выборочных исследованиях можно несколько условно выделить следующие этапы формирования выборки:

1. определение соответствующей генеральной совокупности;

2. получение исходных данных об объектах этой генеральной совокупности, которые необходимо изучить, иначе говоря, «списка» объектов этой совокупности;

3. проектирование плана выборки;

4. определение методов доступа к объектам совокупности, попавшим в выборку;

5. достижение нужной численности выборки, эта численность, как правило, определяется требованием репрезентативности выборки;

6. проверка выборки на соответствие требованиям исследования;

7. при необходимости формирование новой выборки, более адекватной требованиям исследования.

На первом этапе определяется целевая совокупность, зависящая от целей исследования, здесь важно установить характеристики, которым должны удовлетворять единицы генеральной совокупности и которые позволяет ее отличать от других совокупностей.

На втором этапе устанавливается, откуда может быть получен перечень единиц совокупности, что важно для определения плана выборки. На этом этапе необходимо использовать соответствующие справочники, данные переписи населения и местных органов власти, материалы различных консультационных организаций, иные возможности исследователей по получению списков объектов, подлежащих изучению. В психологии такими объектами могут быть индивиды, малые социальные группы. В социологии – крупные социальные группы, всё население, общественное мнение которого изучается. В маркетинговых исследованиях – целевые для продаж товаров социальные группы, потребности и предпочтения которых изучаются.

На втором этапе также оценивается возможная ошибка выборки, её возможный сдвиг относительно генеральной совокупности. Для этой цели необходимо оценить, насколько объекты, которые по имеющимся спискам могут попасть в выборку исследования, будут отличаться от генеральной совокупности в целом. Например, если для получения выборки используется список избирателей тех или иных избирательных участков, то не получится ли так, что некоторые важные для исследования индивиды не попадут в выборку систематическим образом, потому что не зарегистрированы как избиратели, не ходят на выборы по принципиальным соображениям. В любом случае важно оценить, какой контингент объектов генеральной совокупности, тех или иных индивидов или социальных групп, не попадёт в выборку по техническим основаниям из-за их отсутствия в списках объектов, списках индивидов, которые предполагается использовать для построения выборки.

На третьем этапе с учетом ранее выполненных работ осуществляется проектирование самой выборки. В этом случае в практических исследованиях важно найти баланс между: структурой выборки, затратами на сбор данных и объемом выборки.

Достижение нужной численности выборки требует выполнения двух шагов операций: установления единицы выборки и от какой единицы должна быть получена требуемая информация.

На ряд выбранных респондентов невозможно выйти и что не каждый выбранный респондент выразит желание отвечать на вопросы. Таких респондентов необходимо заменить. И это обычно решается: во-первых, выбором следующего по списку респондента; либо, во-вторых, использованием выборки больших размеров; либо, в-третьих, формированием повторной выборки.

Первый метод наиболее часто применяется в случае систематической выборки, Например, в качестве контура выборки используется телефонный справочник и необходимо опросить каждого сотого абонента. Если не удается получить ответ от первого респондента, то звонят абоненту, следующему по справочнику, и так делают, пока не удастся получить ответы на задаваемые вопросы. Только после этого осуществляется скачок в 100 номеров.

Второй метод это использование выборки больших размеров и осуществляется он в случае, когда заранее известен процент респондентов, не принимавших участие в опросе. К примеру известно, что на письма при почтовом опросе отвечает только 20% респондентов (во многих случаях этот процент и того меньше). Поэтому, чтобы получить окончательную выборку численностью в 200 человек, письма необходимо отправить тысяче потенциальных респондентов.

Суть третьего метода – метода формирования повторной выборки заключается в том, что если процент ответов намного ниже, чем ожидалось, то контуры исходной выборки расширяются за счет дополнительных имен, найденных, например, случайным образом.

Единица отбора выборки

Единица наблюдения – это типы или признаки реальных объектов, которые включаются в исследование. Например, единицей наблюдения может быть тип высшей нервной деятельности, тип характера, тип мотивации потребительского поведения и т.п. Но в реальных выборочных исследованиях нередко приходится отбирать эти единицы наблюдения из генеральной совокупности не непосредственно, что иногда невозможно или очень дорого, а опосредованно, через формирование единиц отбора, более широких, чем единицы наблюдения.

Единица или серия единиц, иначе называемая гнездом, генеральной совокупности, подлежащих отбору при формировании выборки, называется единицей отбора. Единиц отбора может быть несколько при одной и той же единице наблюдения, что определяется методом формирования выборки. Различные единицы отбора, например, могут использоваться на различных стадиях отбора, таким является многоступенчатый отбор, в котором обычно единицы отбора поэтапно уменьшаются. На последней ступени отбора единица отбора всегда совпадает с единицей наблюдения.

Определение объема выборки

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5% от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1500 – 1600 человек, поэтому он рекомендует исследователю придерживаться данного объёма выборки.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5% ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99% доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении психологических, социологических и маркетинговых исследований.

Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5 – 7 визитам при 99% уровне доверительности. Это означает, что если появится возможность, провести независимо 100 раз выборочные исследования, то для 99 выборочных исследований среднее значение числа визитов попадут в диапазон от 5 до 7 визитов, Если сказать иначе, то 99 % автовладельцев попадут в доверительный интервал.

Допустим, было проведено исследование до 50 независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которое называется выборочным распределением.

Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие «выборочное распределение» рассматривается также в качестве одного из базовых понятий теоретической концепции, лежащее в основе определения объёма выборки.

Естественно ни одна компания не в состоянии сформировать 10, 20, 50 независимых выборок. Обычно используется только одна выборка. Эта выборка должна быть случайной для того, чтобы на основе центральной предельной теоремы можно было ожидать, что статистики этой одной выборки будут с высокой вероятностью соответствовать как средним статистикам по многим выборкам, если бы они были сделаны, так и соответствующим этим статистикам параметрам генеральной совокупности. Иначе говоря, эта одна реализуемая выборка должна быть случайной для того, чтобы быть репрезентативной. Любые отклонения от случайности снижают уровень репрезентативности такой выборки.

Математическая статистика позволяет получить некую информацию о выборочном распределении, владея точными данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средняя квадратическая ошибка. К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30% членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35%. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является:

· величина вариации, которой, как считается, обладает совокупность;

· желаемая точность;

· уровень достоверности, которому должны удовлетворять результаты проводимого обследования.

Когда на заданный вопрос существует только два варианта ответов, выраженных в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

Основные этапы формирования выборки - Инвестирование -  1

где n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности по таблице ниже в этом разделе;

р – найденная вариация для выборки;

q = (100 – p);

е – допустимая ошибка.

Таблица

Значение нормированного отклонения оценки z от среднего значения в зависимости от доверительной вероятности (а) полученного результата

а, % 99,0 99,7
z 0,84 1,03 1,29 1,44 1,65 1,96 2,18 2,58 3,0

Например, предприятием, выпускающим покрышки, проводится опрос автолюбителей, использующих радиальные покрышки.

Поэтому на вопрос: «Используете ли Вы радиальные покрышки?» возможны только 2 ответа: «Да» или «Нет». Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В данном случае может быть сформирована выборка достаточно малых размеров. В формуле (1) произведение pg выражает вариацию, свойственную совокупности. Например, пусть 90 % единиц совокупности используют радиальные покрышки. Это означает, что pg = 900. Если принять, что показатель вариации выше (р = 70 %), то pg = 2100. Наибольшая вариация достигается в случае, когда одна половина совокупности (50 %) использует радиальные покрышки, а другие не используют. В этом случае произведение достигает значения равного 2500.

При проведении опроса важно указывать точность полученных оценок. Например, было установлено, что 44 % респондентов используют радиальные покрышки. Результаты измерения необходимо представить в виде: процент автолюбителей, использующих радиальные покрышки, составляет 44 плюс – минус е %. Величина допустимой ошибки заранее совместно определяется заказчиком исследования и исполнителем.

Уровень достоверности при проведении маркетинговых исследований обычно оценивается с учетом двух его значений: 95% или 99%. Первому значению соответствует значение z = 1,96; второму – z = 2,58. Если выбирается уровень доверительности равный 99 %, то это говорит о следующем: мы уверены на 99 % (иными словами доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавший в диапазон плюс – минус е %, равен проценту членов выборки, попавших в тот же диапазон ошибки. Принимая вариацию равной 50 %, точность равной 10 % при 95 %-м уровне доверительности рассчитаем размер выборки:

n = 1,962 (50 х 50) / 102 = 96.

При уровне доверительности равном 99 %, и е = ±3 %, n = 1067.

При определении показателя вариации для конкретной совокупности целесообразно проводить предварительно качественный анализ исследуемой совокупности и установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно определение объема выборки на основе использования средних значений, а не процентных величин. Предположим, что выбран уровень достоверности равный 95 % (z = 1.96,), среднеквадратическое отклонение (S) рассчитано и равно 100, и желаемая точность (погрешность) составляет ±10. Тогда объем выборки составит

Основные этапы формирования выборки - Инвестирование -  2

Реально на практике, если выборка формируется заново и схожие опросы не проводились, S неизвестно.

В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Основные этапы формирования выборки - Инвестирование -  3

Приведённые выше формулы можно применять для выборок из генеральных совокупностей больших размеров, характерных для обществ, крупных социальных групп, рынков массовых потребительских товаров. Но в отдельных случаях генеральные совокупности не являются столь большими, например, для индивидов, поражённых редким психическим заболеванием или на специализированных рынках отдельных видов продукции производственного назначения.

Обычно, если выборка составляет менее 5% генеральной совокупности, то эта совокупность считается большой, и расчеты проводятся по вышеприведенным правилам.

Если же объём выборки превышает 5% совокупности, то последняя считается малой, потому что объём выборки уже может быть сравним с её объёмом. Тогда в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

Основные этапы формирования выборки - Инвестирование -  4 ,

где n1 – объем выборки для малой совокупности,

n – объем выборки (или для процентных мер или для средних), рассчитанный по приведенным выше формулам,

N – объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно строительства химического комбината в границах города Томска. Вследствие отсутствия информации о вариации принимается наихудший случай: 50:50. Исследователь вынес решение использовать уровень доверительности равный 95%. Заказчик исследования указал, что его устроит точность результатов плюс минус 5%. В этом случае используется следующая формула для процентной меры:

Основные этапы формирования выборки - Инвестирование -  5

Данный подход к формированию объёма выборки с определенными оговорками может быть использован и при расчете численности экспертной группы, которая никогда не бывает большой, а также панели, т.е. одной выборки, по которой проводится цикл или несколько волн однотипных исследований.

Приведенные формулы расчета выборки основаны на предположении, что все правила формирования выборки были соблюдены, и единственной ошибкой является ошибка, обусловленная ее объемом. На практике к ошибкам выборок приводят, конечно, и неточности, нечёткости в её реализации, связанные с так называемым человеческим фактором.

← Предыдущая страница | Следующая страница →