УСТАНОВЛЕНИЕ НЕОБХОДИМОГО ОБЪЕМА ВЫБОРКИ
После того как определены термины и рассмотрены процедуры выбора, остается обсудить последний вопрос: каким образом следует решать, сколько выбрать объектов. Ответ на этот вопрос в значительной степени требует привлечения сложных статистических понятий, которые мы не в состоянии обсуждать в рамках настоящей книги. По этой причине часть из того, о чем говорится в данном разделе, должна быть принята на веру, хотя в конце главы мы все-таки указываем некоторые книги, в которых эти проблемы обсуждаются. Спешим, однако, подчеркнуть, что большинство соображений, лежащих в основе определения необходимого объема выборки, понять достаточно просто и, прежде чем двигаться дальше, стоит уделить им немного внимания.
Чтобы установить необходимый объем выборки следует учесть несколько факторов. Один из наиболее важных – гомогенность – степень близости друг к другу членов данной совокупности с точки зрения изучаемых нами характеристик. Если каждый индивидуум в совокупности в точности такой же, как все остальные, то, выбрав всего лишь одного из них, мы получим действительно репрезентативную выборку. Напротив, если каждый индивидуум в совокупности абсолютно не похож ни на какой другой, то, прежде чем мы сможем утверждать, что у нас имеется репрезентативная выборка, нам потребуется провести перепись всей совокупности. В первом случае совокупность называют полностью гомогенной, во втором–полностью гетерогенной. Разумеется, в действительности большинство совокупностей располагается между этими двумя полюсами.
Чем гомогенное данная совокупность, т.е. чем меньше различий между ее членами, тем меньшая по объему выборка необходима для ее представления. Напротив, чем гетерогеннее совокупность, т.е. чем больше различий [c.175] между ее членами, тем большая выборка необходима для ее представления. Это особенно важно учитывать при стратифицированном формировании выборки, поскольку самим актом стратификации мы создаем подгруппы, более гомогенные, чем совокупность в целом. Таким образом, внутри уровней можно использовать, не теряя при этом репрезентативности, выборки меньшего объема, чем следовало бы для всей совокупности.
Сходным образом, чем больше категорий мы хотим исследовать, тем больше должна быть выборка. Это вполне естественно, поскольку, увеличивая разнообразие и тонкость наших измерений, мы подчеркиваем гетерогенность исследуемой совокупности. Иными словами, чем больше вопросов мы задаем и чем больше типов ответов допускаем, тем больше вероятность того, что мы обнаружим различия между исследуемыми объектами. Чем больше различий между объектами мы принимаем во внимание, тем больше объектов мы должны изучить, чтобы выборка получилась репрезентативной.
Еще одно важное соображение касается степени точности, которая нам требуется. Мы используем выборку для оценки характеристик больших совокупностей, однако любая оценка может содержать ошибку. Какую ошибку выборки мы готовы допустить? Ответ часто зависит от предполагаемого использования результатов. Если мы получаем деньги за то, что проводим опрос общественного мнения для предсказания результатов выборов, в которых участвуют кандидаты с близкими шансами, мы, скорее всего, захотим иметь минимальную величину ошибки. Если же мы политологи и пытаемся раскрыть основные тенденции в области отношений и поступков людей, мы, видимо, согласимся допустить существенно большую величину ошибки. Вообще, чем большая точность нам требуется, тем больше должна быть наша выборка.
С этой же проблемой связан и второй вопрос: насколько мы можем быть уверены в правильности нашей оценки величины ошибки выборки? Читателю, недостаточно искушенному в статистике, возможно, непросто понять приводимые в этом случае доводы, однако предлагаемый ниже пример может кое-что прояснить. Здесь существенны следующие моменты. Каждая выборка дает нам некоторую оценку характеристик совокупности, однако вследствие [c.176] того, что никакие две выборки не будут в точности одинаковы, эти оценки будут несколько отличаться одна от другой и от оценки совокупности в целом. Это последнее отличие и есть ошибка выборки. Большинство выборок данного объема, взятых из одних и тех же совокупностей, будут очень похожи друг на друга и на саму совокупность, однако может случиться и так, что сформированная выборка будет отличаться от прочих. Может оказаться, что входящие в ее состав женщины, пожилые люди, республиканцы, выпускники колледжей и т.п. включены в таком количестве, которое не отражает реальной доли этих групп в соответствующих совокупностях. Такая выборка, естественно, не будет репрезентативной: она выйдет за рамки допустимой величины ошибки.
Проблема заключается в том, что в реальной действительности мы не всегда знаем внутренние параметры совокупности, для оценки которых предназначена наша выборка (зачастую установление таких параметров и является целью исследования); кроме того, мы формируем не множество выборок, а всего лишь одну. И хотя мы сумеем проконтролировать очевидную валидность нашей выборки, проведя сравнение с другими исследованиями той же самой совокупности или совокупности, похожей на данную, мы не можем быть уверены, что наша выборка не случайное исключение, что она нерепрезентативна (это мало вероятно, но возможно). Однако из занятий статистикой нам известно, что вероятность вытащить из горы яблок гнилое, можно снизить, если увеличить объем выборки. Чем больше объектов мы включим, тем выше вероятность того, что будет получена истинно репрезентативная выборка, которая действительно не выйдет за рамки заданной нами величины ошибки.
Наши рассуждения можно сделать менее абстрактными, если рассмотреть краткие характеристики выборок разного объема, представленные в табл.5.1. Эти характеристики получены на основе более обширных сведений, содержащихся в табл. А.2 и А.3 приложения А. В табл.5.1 перечислены минимальные объемы выборок, соответствующие нескольким уровням ошибки выборки, и степени уверенности для случая простой случайной выборки при относительно гетерогенной совокупности объемом более 100 000 объектов. (Изучение таблиц приложения А, [c.177] послуживших источником для данной таблицы, показывает, что при формировании выборок для меньших совокупностей приводимые цифры могут быть несколько уменьшены, однако при возрастании объема совокупности приводимые значения задают предельный объем выборки.)
Таблица 5.1
Краткие характеристики выборок разного объема
Допустимый процент ошибки выборки |
Степень уверенности |
+ |
0,95 |
0,99* |
|
± 1 |
10 000 |
22 500 |
± 2 |
2 500 |
5 625 |
± 3 |
1 111 |
2 500 |
± 4 |
625 |
1 406 |
± 5 |
400 |
900 |
± 10 |
100 |
– |
*
Для большей наглядности имеющееся в исходной таблице значение 0,997 округлено до 0,99.
Возможно использовать эти три таблицы каждым из двух методов.
Мы, возможно, захотим задать определенный уровень ошибки выборки, который мы согласны допустить, и степень уверенности, с которой будем действовать. Предположим, что взяты, соответственно, числа ±4% и 0,99. Первое число означает, что любое измерение, которое мы могли бы произвести в нашей выборке, отклоняется не более чем на четыре процента вверх или вниз от истинного значения того же признака в более обширной совокупности. Если, например, мы устанавливаем, что в проводимом исследовании 43% респондентов сообщают о своей солидарности с демократической партией, мы будем считать, что в случае полной переписи населения реальное количество приверженцев демократической партии будет составлять 43% ± 4% или находиться в пределах приблизительно от 39 до 47%. В соответствии с таблицей (если посмотреть на пересечение строки ± 4% и столбца 0,99) для достижения данной степени точности с уверенностью 99% мы должны иметь выборку, состоящую по крайней мере из 1406 объектов. Если
мы хотим уменьшить величину ошибки (повысить точность) до, скажем, ± 2% [c.178] (т.е. оценить количество демократов более точно, в пределах от 41 до 45%), мы должны увеличить объем выборки по крайней мере до 5625 объектов. Из таблицы отчетливо видно, что при любой степени уверенности повышение точности требует увеличения выборки.Второе число, о котом мы говорили, обозначает вероятность того, что наша выборка действительно репрезентативна для более обширной совокупности в рамках заданной степени точности. В данном контексте 0,95 (95% уверенности) означает, что из 100 выборок данного объема, полученных из одной и той же совокупности, 95 выдержат тест на точность, а 0,99 (99% уверенности) означает, что 99 из 100 выборок данного объема, полученных из одной и той же совокупности, будут точны
настолько, насколько это было предсказано. Таким образом, вероятность того, что любая конкретная выборка будет давать желаемую точность, равна, соответственно, 95:5 (т.е. 19:1) и 99:1.Как и следовало ожидать, для каждого уровня ошибки выборки необходимый объем выборки значительно больше в том случае, когда мы хотим достичь 99, а не 95% уверенности. Так, в нашем примере с демократами видно, что при величине ошибки 4% выборка объемом 625 объектов позволяет с 95%-ной уверенностью утверждать, что доля демократов среди населения находится где-то между 39 и 47%, тогда как то же самое утверждение с 99%-ной уверенностью требует выборки объемом по меньшей мере 1406 объектов. Вообще говоря, чем ниже ошибка выборки и чем выше степень уверенности, тем лучше будет то исследование, которое мы проводим. Для политологического исследования степень уверенности 0,95 или 0,99 принято считать вполне приемлемой.
Таблицу такого вида можно использовать иначе. Если, к примеру, мы анализируем исследование, в котором используется выборка, состоящая из 2500 объектов, то тогда можно обратиться к таблице и установить ошибку выборки и степень уверенности. Посмотрев в табл.5.1, видим, что интерпретация может быть неоднозначной. Мы можем считать, что 2500 объектов дают ошибку выборки ± 3% с
уверенностью 0,99 или ошибка выборки ±2% с уверенностью 0,95. Каждая из этих интерпретаций в равной степени приемлема, а вместе они помогают прояснить взаимоотношения между точностью и [c.179] уверенностью. При одном и том же количестве объектов мы будем в состоянии располагать высокой степенью уверенности относительно менее точного результата или несколько меньшей степенью уверенности относительно более высокой точности. Однако нельзя одновременно и вкушать от пирога исследования, и оставлять его нетронутым.Конечно, в идеале мы всегда предпочитаем действовать с минимальными ошибками и с максимальной уверенностью. К сожалению, в дело часто вмешиваются практические соображения. Например, стоимость одного личного интервью в исследовательском проекте может равняться 50 долларам, включая собственно расходы на интервью, расходы на транспорт и пр. Это означает, что при 99%-ной уверенности стоимость снижения величины ошибки с ±3 до ±2% может составлять 130 000 долларов. Во многих случаях различие в качестве результатов не стоит производимых дополнительных затрат, а в гораздо большем числе случаев средств просто нет. Таким образом, важную '' роль в ограничении объема выборки играют ограничения на ресурсы. В большинстве наиболее значительных опросов общественного мнения, а также в большинстве наиболее значительных исследовательских проектов в области политологам используются выборки объемом приблизительно 1400–1600 респондентов. Такие исследования дают результаты с точностью 3–4% и со степенью уверенности 0,99 и считаются одновременно и возможными, и достаточно точными. Проекты, использующие контент-анализ или другие относительно менее дорогостоящие методы сбора данных, часто тяготеют к верхнему правому углу таблицы.
Прежде чем мы завершим обсуждение проблемы объема выборки, следует затронуть еще один вопрос, хотя он, несомненно, менее очевиден и интуитивно менее привлекателен, чем все то, о чем мы говорили ранее. Внимательное изучение табл.
А.2 и A.3 приложения А показывает, что, достигнув определенного предела, размер совокупности не влияет на объем выборки, которая должна ее представлять. В то время как доказательство этого утверждения выходит за рамки настоящей книги, вытекающие из него следствия касаются нас вплотную. Ведь, в сущности, наличие такого верхнего предела означает, что практически одна и та же выборка, если она должным образом [c.180] сформирована, может быть в равной степени репрезентативна для населения г.Роанока (штат Виргиния), г. Нью-Йорка, Соединенных Штатов и всего Западного полушария. Размер совокупности является важным фактором при определении объема выборки лишь в случае относительно небольших совокупностей.Итак, подводя итоги, следует подчеркнуть, что, формируя выборку, необходимо очень внимательно следить за тем, чтобы не только отобрать из данной совокупности достаточное количество объектов, но и взять такую группу, которая, как представляется, будет действительно репрезентативной с точки зрения распределения характеристик внутри данной совокупности. Должное внимание на этом этапе процесса исследования в дальнейшем окупится сторицей. Наоборот, небрежность при формировании выборки может нанести непоправимый вред любому исследованию.
[c.181]