ТЕСТИРОВАНИЕ
1. Тесты, их классификация.
2. Направления тестирования.
1. Тесты, их классификация.
Тесты – этоспециализированные методы психологического диагностического исследования,применяя которые можно получить точную количественную или качественнуюхарактеристику изучаемого явления.
От других методовисследования тесты отличаются тем, что: 1) предполагают стандартизованную,выверенную процедуру сбора и обработки данных, а также их интерпретации; 2) спомощью тестов можно изучать и сравнивать между собой людей, давать оценки ихпсихологии и поведению.
1. Тест-опросник основанна системе заранее отобранных и проверенных с точки зрения их валидности инадежности вопросов, по ответам испытуемых, на которые определенно можно судитьоб их психологических качествах.
2. Тест-заданиепредполагает оценку психологии и поведения человека не на основе того, что онговорит, а на базе того, что он делает. В тестах этого типа человеку даетсясерия специальных заданий, по итогам, выполнения которых судят об изучаемомкачестве.
Тесты-опросники итесты-задания – применимы к людям разного возраста, принадлежащим к различным культурам, имеющим разный уровеньобразования, разные профессии и неодинаковый жизненный опыт. Это положительнаячерта данных тестов.
Недостаток состоит в том,что при использовании их испытуемый при желании может сознательно повлиять наполучаемые результаты, особенно если он знает, как устроен тест и каким образомпо его результатам будут оценивать его психологию и поведение.
Тесты-опросники итесты-задания неприменимы в тех случаях, когда изучению подлежат свойства ихарактеристики, в существовании которых испытуемый не может быть полностьюуверен, не осознает или не хочет признавать их наличие у себя. Такимихарактеристиками являются, например, многие отрицательные качества и мотивыповедения, другие свойства, наличие которых осуждается.
3. Проективные тестыобычно предназначены как раз для изучения тех психологических и поведенческихособенностей человека, которые им слабо осознаются или вызывают к себе с егостороны крайне отрицательное отношение.
В основе проективныхтестов лежит механизм проекции, согласно которому не осознаваемые человекомположительные и особенно отрицательные характеристики он склонен приписывать несебе, а другим людям, “проецировать” их на других.
При применении тестовподобного рода об испытуемом судят на основе того, как он оценивает ситуации,других людей, какие свойства им приписывает.
Пользуясь проективнымитестами, психологи вводят испытуемых в неопределенную ситуацию, из которой онидолжны самостоятельно найти выход. Такими ситуациями могут быть: 1) поископределенного смысла в сюжетно-неопределенных картинах; 2) завершениенезаконченных предложений; 3) оценка поведения и поступков незнакомых людей внеясных ситуациях и т.п.
Тесты проективного типа:1) предъявляют повышенные требования к уровню образованности иинтеллектуального развития испытуемых, и в этом заключается их основнойнедостаток; 2) требуют при их применении высокой профессиональной квалификациипсихолога и большого опыта работы.
Все рассмотренные методыисследования можно использовать для сбора данных о психологии и поведении людейкак в реальной жизни, так и в специальных экспериментальных условиях. В силумножества причин, которые могут оказать влияние на психологию и поведениечеловека, и того, что в обычных условиях эти причины трудно контролировать,психологи в течение последних 40-50 лет чаще обращались к эксперименту каксамому надежному средству получения достоверной информации об изучаемыхявлениях.
2. Направлениятестирования
Идея квантования какотрезка различения была очень эвристичной. Ее восприняли и стали применять дляразработки объективных методов оценки практически во всех направленияхпсихологии.
В основе методаобъективной психологической оценки лежит тест (или проба), который можетпредставлять собой: 1) стимул определенной модальности[2], если этопсихофизическое исследование; 2) задачи разного уровня сложности, если этопедагогическая психология; 3) задания, связанные с исследованием внимания,памяти, сообразительности и т.д. в общей и возрастной психологии.
Для того, чтобы эти тесты(пробы) могли дать объективные и измеримые данные, они предварительнопроверяются на большом числе испытуемых. Например, в педагогической психологии– на детях одного возраста или людях одного уровня образования и т.д.
При этом из всехпредложенных задач отбираются те, которые успешно решаются значительным числомвсех испытуемых (например, двумя третями).
Эта процедура называетсянормированием, или определением “нормы”. С ней впоследствии сравниваютсярешения тех испытуемых, знания, умения и навыки которых измеряются.
Результаты этих измеренийоцениваются в условных баллах (или в ранговых оценках), объединенных в шкалупорядка и указывающих, какое место данный испытуемый мог бы занять по отношениюк соответствующей группе испытуемых (то есть к “норме”).
Задача психологическихтестов, таким образом, – измерить различия между индивидами или между реакциямиодного индивида в разных условиях. Решение этой задачи привело к развитиюдифференциальной психологии. Велико значение психологических тестов и длядругих направлений психологии.
Количество и разнообразиеразличного рода тестов, опросников и шкал в настоящее время огромно. Аначиналось тестирование с разработок Ф.Гальтона (1822-1911), который первым их:1) применил для измерения психических свойств; 2) разработал методыматематической статистики для анализа данных по индивидуальным различиям.
В дальнейшем заметныйвклад в развитие психологического тестирования внесли работы Джеймса Кеттела(1860-1944) с его “умственными тестами”, которые содержали измерение мышечнойсилы, скорости движения, чувствительности к боли, остроты зрения и слуха,времени реакции, памяти и т.д.
Измерением памяти ушкольников занимался Г.Эббингауз (1897).
Во Франции в 1908 г. свою первую шкалу умственного развития для детей создали А.Бине и Т.Симон.
Когда США вступили вПервую мировую войну, под руководством Р.М. Йеркса (1876-1956) были разработаныармейские так называемые “альфа и бета тесты”, позволяющие отобрать годных квоенной службе лиц. Впоследствии эти тесты неоднократно перерабатывались истали образцом для большинства групповых тестов интеллекта. Тестированиеполучило мощнейший стимул для своего развития, и вскоре были разработаныгрупповые тесты интеллекта для всех возрастов и уровней образованности (отдошкольников до аспирантов). Их начали широко использовать в школах, колледжах.Коэффициент интеллекта 10 (см. главу “Способности”) учитывался при приеме вучебные заведения и на работу. Однако вскоре стало ясно, что применяемые тестыявляются очень грубым инструментом и область их применения весьма ограничена.Тем не менее они широко распространены, продолжают совершенствоваться иприменяться для разных целей.
Наряду с тестамиинтеллекта в ответ на запросы практики возникли также тесты достижений. Их ещеназывают тестами объективного контроля успешности: школьной, профессиональной,спортивной и т.п. От разных типов контроля знаний и умений (устных и письменных)эти тесты отличаются своей формой. Учащимся предлагается вопрос, ответ накоторый в нескольких вариантах представлен на этом же бланке. Один из ответовверный, остальные – нет. Нужно отметить верный ответ. При подготовке тестовдостижений практикуется экспертная оценка знаний, которая проводитсяпараллельно с тестированием. Когда тест отработан и стандартизован,необходимость в этом отпадает. К сожалению, применение теста достиженийограничено только той областью знаний, которая поддается формализации.
Применение тестов. Какметодический инструмент тесты широко используются в современных исследованиях.Однако прежде чем решить, какой из сотен имеющихся тестов может быть применендля исследования, психолог задается вопросом:
1) какова цель теста?
2) для какой группы лицон лучше подходит?
3) чем он отличается отдругих методов изучения индивидуальности человека?
4) насколько ответственноон конструировался?
5) насколько он точен?
6) насколько адекватны идействительны его результаты?
От каждого измерительногоинструмента требуется, чтобы он был как можно более точным, чтобы на полученныерезультаты можно было положиться как на данные, близкие к “настоящей” величинеизмеряемого признака. Следовательно, точность можно понимать как мерудостоверности, с какой тест измеряет ее. Существует ряд источниковпогрешностей, которые снижают точность тестов и надежность результатов. К нимотносятся:
1) неблагоприятныеусловия тестирования;
2) недостаточное вниманиек состоянию испытуемых в момент испытания;
3) неверное поведениеэкспериментатора;
4) субъективность вистолковании результатов теста.
Кроме учета и устраненияисточников погрешностей, надежность теста (то есть его согласованность)повышают посредством повторного испытания с последующим вычислением коэффициентакорреляции между данными первого и второго тестирования. Подобная тщательная иобъективная проверка надежности теста необходима психологам, чтобы знать, длякаких целей и в каких пределах его можно применять.
Наряду с надежностью ктесту предъявляется требование валидности, или адекватности. Валидность – этостепень, в которой тест является инструментом, измеряющим то, для чего онпредназначен.
Для установлениявалидности обычно требуется независимый внешний критерий по отношению к тому,что тест должен измерить. Например, если тест предназначен для измерениясклонности к риску, то он может быть валидизирован проверкой этой склонности вгруппе мотогонщиков, каскадеров и т.д. Совокупность таких внешних показателейриска будет критерием, с которым следует соотнести исходные тестовые показателириска. Далее определяется коэффициент валидности с помощью коэффициентакорреляции. При конструировании тестов применяется еще целый ряд специальныхстатистических процедур, позволяющих сделать тест более чувствительным инадежным инструментом.
При работе с тестамиследует отметить также и этический аспект. Использование, проведение иинтерпретация психологических тестов обязательно должны идти под контролемквалифицированного психолога. В руках недобросовестного или некомпетентногоэкспериментатора тесты могут принести серьезный вред. Особенно это касаетсяличностных тестов или опросников, в связи с чем важно предотвратить доступностьих содержания для любого желающего.
Описанные выше базовыеметоды исследований, а также методы измерения и тестового оцениванияиндивидуальных различий лежат в основании многих современных объективныхметодов эмпирических исследований. К основным из них относятся методы опроса,проективный и отраженной субъективности. Тема 11. Технологиятестирования
1. Достоинства методатестов.
2. Недостаткитестирования.
3. Надежность тестов.
4. Валидность тестов.
5. Стандартизация тестов.
6. Достоверность теста.
Ключевые термины:оптимальная трудность, надежность теста, ошибка измерения, валидность теста,критерий валидности, прогностическая валидность, стандартизация теста, выборкастандартизации, линейная стандартизация, конверсионная таблица,репрезентативность тестовых норм, рестандартизация, критериальные нормы, достоверностьтеста, мотивационные искажения, шкала лжи, социальная желательность, ситуацияклиента, ситуация экспертизы.
Метод тестов являетсяодним из основных в современной психологии. По уровню популярности вобразовательной и профессиональной психодиагностике он прочно удерживает первоеместо в мировой психодиагностической практике уже фактически в течениестолетия.
Договоримся понимать подтестами в этом разделе технологии, которые состоят из серии заданий с выборомиз готовых вариантов ответа. При подсчете баллов по тесту выбранные ответыполучают однозначную количественную интерпретацию и суммируются. Суммарный баллсравнивается с количественными тестовыми нормами, и после этого сравниваютсястандартные диагностические заключения.
1. Достоинства методатестов
Популярность методатестов объясняется следующими главными его достоинствами.
1. Стандартизация условийи результатов
Тестовые методикиотносительно независимы от квалификации пользователя (исполнителя), на ролькоторого можно подготовить даже лаборанта со средним образованием. Это однаконе означает того, что для подготовки комплексного заключения по батарее тестовне надо привлекать квалифицированного специалиста с полноценным высшимпсихологическим образованием.
2. Оперативность иэкономичность
Типичный тест состоит изсерии кратких заданий, на выполнение каждого из которых требуется, как правило,не более полуминуты, а весь тест занимает не более часа (в школьной практикеэто один урок); тестированию одновременно подвергается сразу группа испытуемых,таким образом, происходит значительная экономия времени (человеко-часов) насбор данных.
3. Количественныйдифференцированный характер оценки
Дробность шкалы истандартизованность теста позволяют рассматривать его как “измерительныйинструмент”, дающий количественную оценку измеряемым свойствам (знаниям,умениям в данной области). Хороший тест позволяет различать не только трикатегории учеников – отличников, “середнячков” и “хвостистов”, но и хорошодифференцировать испытуемых на полюсах шкалы – отличать просто способных оточень способных и талантливых, а среди отстающих отличать небезнадежных от“безнадежных” (или совершенно неподготовленных). Кроме того, количественныйхарактер тестовых результатов дает возможность применить в случае тестов хорошоразработанный аппарат психометрии, позволяющий оценить, насколько хорошоработает данный тест на данной выборке испытуемых в данных условиях.
4. Оптимальная трудность
Профессионально сделанныйтест состоит из заданий оптимальной трудности. При этом средний испытуемыйнабирает примерно 50 процентов из максимально возможного количества баллов. Этодостигается за счет предварительных испытаний – психометрического эксперимента,или пилотажа. Если в ходе пилотажа становится известно, что с заданием справляетсяпримерно половина из обследуемого контингента, то такое задание признаетсяудачным и его оставляют в тесте.
5. Надежность
Это, может быть, самоеглавное достоинство тестов. “Лотерейный” характер современных экзаменов свытягиванием “счастливых” или “несчастливых” билетиков давно стал притчей воязыцех. Лотерейность для экзаменующегося здесь оборачивается низкой надежностьюдля экзаменатора – ответ на один фрагмент учебной программы, как правило, непоказателен для уровня усвоения всего материала. В отличие от этого любойграмотно построенный тест охватывает основные разделы учебной программы(тестируемой области знаний или проявлений какого-то умения или способности). Врезультате возможность для “хвостиков” выбиться в отличники, а для отличникавдруг “провалиться” резко сокращается.
Назовем также ряддостоинств, которые в логическом смысле являются следствиями, производными отперечисленных выше, но заслуживают самостоятельного упоминания.
6. Справедливость
Справедливость являетсяважнейшим социальным следствием перечисленных выше достоинств метода тестов. Ееследует понимать как защищенность от предвзятости экзаменатора. Хороший тестставит всех испытуемых в равные условия. Наиболее сильно субъективизмэкзаменаторов проявляется, как известно, не в трактовке уровня решенностизадачи (не так просто можно назвать черное белым, решенную задачу –нерешенной), а в тенденциозном подборе заданий: своим – полегче, чужим –труднее. Во введении к настоящему пособию уже говорилось, что именно тестыобеспечивают важнейшую функцию школы как социального фильтра, функцию“социально-профессиональной селекции”. То, насколько справедливой оказываетсяподобная селекция, имеет гигантское значение для развития общества. Поэтому такважно всем, кто имеет доступ к тестам и их результатам, учиться культуреграмотного и гуманного их применения. Ибо только добросовестное иквалифицированное отношение пользователей к тестам превращает их в инструмент,повышающий, а не понижающий уровень справедливости в обществе.
7. Возможность компьютеризации
В данном случае это непросто дополнительное удобство, сокращающее живой труд квалифицированныхисполнителей при массовом обследовании. В результате компьютеризации повышаютсявсе параметры тестирования (например, при адаптивном компьютерном тестированиирезко сокращается время тестирования). Специально подчеркнем, чтокомпьютеризация – это мощный инструмент обеспечения информационной безопасности(достоверности диагностики).Компьютерная организация тестирования,предполагающая создание мощных информационных “банков тестовых заданий”,позволяет технически предотвратить злоупотребления со стороны недобросовестныхэкзаменаторов. Выбор заданий, предлагаемых конкурентному испытуемому, можетпроизводить из такого банка сама компьютерная программа прямо в ходетестирования, и предъявление данному испытуемому определенного задания в этомслучае является таким же сюрпризом для экзаменатора, как и для испытуемого.
8. Психологическаяадекватность
Это важнейшеепсихологическое следствие оптимальной сложности. Наличие в тесте (по сравнениюс традиционными экзаменационными вариантами) большого количества краткихзаданий средней трудности дает многим испытуемым (особенно тревожным, неуверенным в себе) шанс “зацепиться”, поверить в себя, активизировать психологическиоптимальную установку “на преодоление”. Ведь когда такой испытуемый остаетсялицом к лицу с одной-двумя очень сложными и большими задачами и не видит, какможно с ними справиться вообще, то он падает духом и не раскрывает всех своихвозможностей. А если заданий много и часть из них явно начинает “поддаваться”(испытуемый уверен, что он с ними справится), человек в процессе тестированияободряется и начинает “бороться” за максимальный результат. Уже упомянутое намисвойство оптимальной сложности важно для теста тем, что оно обеспечивает нетолько измерительную (различающую) силу тесту, но и оптимальный психологическийнастрой испытуемых. Человек не является пассивным объектом измерений притестировании (подобно гире при взвешивании), а он всегда остро эмоциональнореагирует на тест. Тестовая ситуация оптимальной сложности является оптимальнымвозбудителем – люди испытывают нормальный уровень стресса (напряжения),необходимый для того, чтобы показать наивысший результат. Недостаток стресса (вслучае легкого теста), а тем более избыток (в случае трудного) искажаютрезультаты измерения. Этого, как правило, совершенно не понимают организаторынаших конкурсных экзаменов, пытающиеся в случае высокого конкурса датьабитуриентам задачки посложнее (“на засыпку”), что создает избыточный стресс,который не дает возможности проявить себя людям, подготовленным хорошо, нообладающим пониженной стрессоустойчивостью.
Во многих странахвнедрение методов тестирования (равно как и сопротивление этому внедрению)тесно связано с социально-политическими обстоятельствами. Внедрение техническихорошо оснащенных тестовых служб в образовании – важнейший инструмент в борьбес коррупцией, поражающей правящую элиту (номенклатуру) во многих странах. НаЗападе тестовые службы работают независимо от “выпускающих” (школы) и“принимающих” (вузы) организаций и снабжают абитуриента независимымсертификатом по результатам тестирования, с которым он может отправляться влюбое учреждение. Эта независимость службы тестирования от выпускающих ипринимающих организаций является дополнительным фактором демократизациипроцесса селекции профессиональных кадров в обществе, дающая талантливому ипросто работоспособному человеку лишний шанс проявить себя.
Однако все перечисленноевыше не означает, что метод тестов не обладает некоторыми весьма серьезныминедостатками, не позволяющими свести всю диагностику способностей и знанийисключительно к тестированию.
2. Недостаткитестирования
Как всегда, определенныенедостатки метода тестов являются продолжением его достоинств.
1. Опасность “слепых”(автоматических) ошибок
Слепая веранизкоквалифицированных исполнителей в то, что тест должен сработать правильноавтоматически, порождает иногда тяжелые ошибки и казусы: испытуемый не понялинструкцию и стал отвечать совсем не так, как требует стандартная инструкция,или по каким-то причинам применил искажающую тактику, возник “сдвиг” вприложении трафаретки-ключа к бланку ответов (при ручном, некомпьютерномподсчете баллов) и т.п. Мораль – пользователь не должен подходить к тесту с“магической установкой”, будто этот волшебный “черный ящик” должен всегдаработать исправно без всякого контроля со стороны человека.
2. Опасность профанации
Это эффект деятельности“профанов” в буквальном смысле слова. Не секрет, что внешняя легкостьпроведения тестов прельщает людей, непригодных к квалифицированному труду.Оснастившись тестами, им самим непонятного качества, но с громкими рекламныминазваниями, профаны от тестирования агрессивно предлагают свои услуги всем ився. В результате все проблемы предполагается решать с помощью 2-3 тестов – “навсе случаи жизни”.
К количественномутестовому баллу приклеивается новый ярлык – заключение, создающее видимостьсоответствия диагностической задаче. Ходовой пример – повальное использованиеклинического теста MMPI для отбора кадров в нашей стране. В этом случае высокийбалл по восьмой шкале “Шизофрения” интерпретируется как “оригинальностьмышления”, по четвертой шкале “Психопатия” – как “импульсивность” и т.п. Мысльо том, что нормальный здоровый испытуемый настораживается при виде многихвопросов MMPI, в которых откровенно называются психиатрические симптомы (“Ячасто слышу голоса”) и выдают чисто “защитный” профиль, профанов не тревожит[3].
Еще раз подчеркнем, чтонедобросовестная профанация и элементарное невежество идут в областитестирования рука об руку.
3. Потеря индивидуальногоподхода, “стрессогонность”
Тест – самая общая“гребенка”, под которую подгоняют всех людей. Возможность упустить уникальнуюиндивидуальность нестандартного человека (тем более ребенка), к сожалению,довольно вероятна. Это чувствуют сами испытуемые, и это их нервирует – особеннов ситуации аттестационного тестирования.
У людей с пониженнойстрессоустойчивостью возникает даже определенное нарушение саморегуляции – ониначинают волноваться и ошибаться в элементарных для себя вопросах (просто из-за“мандража”). Вовремя заметить такую реакцию на тест – задача, которая под силуквалифицированному исполнителю.
4. Потеря индивидуальногоподхода, “репродуктивность”
Тесты знаний апеллируют,прежде всего, к стандартному применению готовых знаний. Отсутствие возможностираскрыть свою индивидуальность при наличии стандартных, заданных ответов –ничем не восполнимый недостаток метода тестов. С точки зрения выявлениятворческого потенциала большинство тестов весьма ограничены именно тем, что онине апеллируют к творческой, конструктивной деятельности. Во всяком случае,отдельные стандартизированные творческие тесты имеют дело с весьма абстрактнымматериалом, а тесты достижений (знаний), адаптированные на жизненно важномматериале (профессионально релевантном), как правило, выполнены в форместандартного набора заданий с заданным ответом.
5. Отсутствиедоверительной обстановки
Бездушный иформализованный характер процедуры тестирования, конечно, оборачивается тем,что испытуемый лишается ощущения того, что психолог заинтересован в нем лично,в том, чтобы помочь ему. Диалогические методы (беседа, игра и т.п.) в этомплане имеют несомненные преимущества: непосредственно общаясь с испытуемым,квалифицированный психолог может установить доверительный контакт, проявитьперсональное участие, создать атмосферу, снимающую напряжение и защиту.
6. Потеря индивидуальногоподхода, неадекватная сложность
Иногданеквалифицированные “тестологи” обрушивают на ребенка тесты слишком трудные,сложные для его возраста. У него еще не сложились необходимые понятия ипонятийные навыки, чтобы адекватно осмыслить как общую инструкцию к тесту, таки смысл отдельных вопросов. Мы уже говорили о драматических казусах резкойнедооценки умственного развития детей при применении вербальных тестов. Номногие “невербальные” тесты также требуют развития речевого мышления хотя бы дляосмысления того, что говорит взрослый в своей инструкции. Альтернатива“взрослому” тестированию в детской психологии – игровой подход к тестированию,когда тест включается в контекст игры, и ребенок выполняет его как бы играя.
Таким образом, тесты нельзяделать единственным исчерпывающим методом любой диагностики (иобразовательно-профессиональной, и личной). Они требуют параллельногоиспользования свободных письменных работ (в личностной диагностике местосочинений занимают проективные тесты со свободным ответом), а также устногособеседования (интервью). То есть место тестов – дополнять указанные вышетрадиционные методы. В этом качестве тесты незаменимы, так как не имеют многихнедостатков, свойственных традиционным методам.
Спокойное рациональное осознаниедостоинств и недостатков метода тестирования освобождает всех (исполнителей,заказчиков, испытуемых) как от чрезмерных упований на метод тестов, так и отпренебрежения к нему.
Лучшая гарантия отпрофанов и профанации – серьезный и квалифицированный интерес к тому, какуюэкспериментально-научную работу проделали разработчики теста, как полно этаработа и ее результаты отражены в сопутствующей документации. Это прежде всеговопросы надежности, выносливости и репрезентативности.
3. Надежность теста
Надежность – одно из трехглавных психометрических свойств любой измерительной психодиагностическойметодики (теста). Надежность – это помехоустойчивость теста, независимость егорезультатов от действия всевозможных случайных факторов. К числу таких факторовследует отнести:
разнообразие внешнихматериальных условий тестирования, меняющихся от одного испытуемого к другому(время суток, освещенность, температура в помещении, наличие постороннихзвуков, отвлекающих внимание и т.п.);
динамичные внутренниефакторы, по-разному действующие на разных испытуемых в ходе тестирования (времятак называемой “вырабатываемости” – выхода на стабильные показатели темпа иточности действий после начала тестирования, скорость утомления и т.п.);
информационно-социальныеобстоятельства (различная динамика в установлении контакта с психологом илилаборантом, проводящим тестирование; возможное наличие других людей впомещении; наличие предыдущего опыта знакомства с данным тестом; наличиекакого-то знания и отношения к тестам и т.п.).
Разнообразие иизменчивость всех этих факторов так велики, что они обусловливают появление укаждого испытуемого непрогнозируемого по размерам и направлению отклонения –измеренного тестового балла от истинного тестового балла (который можно было быв принципе получать в идеальных условиях). Средняя относительная величина этогоотклонения определяется как “стандартная ошибка измерения” (Se). Величинаошибки измерения указывает на уровень неточности или ненадежности тестовойшкалы (специально подчеркнем, что в психометрической теории надежность иточность оказываются синонимами).
Ошибка измерения (Se) инадежность измерения (R), согласно общепринятой психометрической теории,связаны следующей формулой:
R= 1 – S e2/S x2, (1)
где Sх – дисперсиятестовых показателей Х.
Формула (1) являетсячисто теоретической, и на ее основе нельзя определить степень надежности теста,так как величина Se оказывается также неизвестной величиной. Поэтому напрактике применяют корреляционные методы. Самый известный из них – методперетестирования (тест-ретест), или метод измерения ретестовой надежности. Наодной и той же выборке испытуемых (не менее 30 человек, участвующих впилотажном психометрическом экспериментальном исследовании) проводят первоетестирование Х, а затем повторное тестирование Y. Интервал, как правило, – двенедели, что гарантирует забывание вопросов теста.
где SX, SY– стандартные отклонения Х и Y;
Cov (х, y) – ковариациядвух переменных Х и Y.
В этой книге мы не ставимцелью научить студентов-педагогов корреляционным методам и пытаемся изложитьлишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы ивычислительные примеры в любом учебнике по статистике, а также вспециализированных изданиях по психодиагностике и психометрике (“Общая психодиагностика”,1987; Клайн, 1994).
Что важно для сути теориинадежности тестов, так это возможность определить ошибку измерения после того,как подсчитана корреляция “тест-ретест” по формуле (3), полученной путемпростого преобразования формулы (1):
Se= Sх× V1 – R. (3)
Таким образом, еслистандартное отклонение в тесте составило 10 очков (среднее отклонение, котороев среднем допускают испытуемые от среднего балла для выборки), а корреляция“тест-ретест” оказалась равной лишь 1,5, то ошибка измерения оказывается оченьбольшой:
Se=10×V1-0,5»7,1.(4)
То есть оказывается, чтоошибка измерения перекрывает большую часть разброса тестовых показателей, таккак истинный балл по тесту может отклоняться от измеренного балла на целых 7очков! И если испытуемый набрал на 6 очков больше, чем “средний” испытуемый, мыне можем с достаточной уверенностью (статистической достоверностью) говорить отом, что он значимо превзошел среднего испытуемого, так как это отклонениеоказывается в пределах стандартной ошибки измерения.
Таким образом, низкаякорреляция результатов теста между первым и повторным тестированием говорит отом, что случайные факторы существенно искажают результаты теста. Это значит,что тест не обладает необходимой помехоустойчивостью и его нельзя использоватькак измерительный инструмент.
Показатель надежности R,который принято считать достаточно высоким, равен или превышает 0,95. Хотя вличностных тестах часто пользуются значительно менее надежными тестами споказателями 0,8-0,9.
Метод измерения “ретестовойнадежности” пригоден только для психических свойств, стабильных во времени.Надежность тестов на психические состояния и динамичные установки личностинельзя проверить таким образом. В этом случае применяют различные методы“расщепления” теста на отдельные пункты, освещение которых выходит за пределынастоящего пособия
4. Валидность теста
Соответствие тестаизмеряемому психическому свойству называется валидностью теста. Это, безпреувеличения, важнейшее психометрическое свойство теста. Если высокая надежностьтеста говорит нам о том, что тест действительно “что-то” измеряет, то высокаявалидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно,на валидность теста также негативно влияют случайные факторы. Поэтому впсихометрике принято следующее основное психометрическое неравенство:
ВАЛИДНОСТЬ
что означает, чтовалидность не может превышать надежности теста.
Но в отличие отнадежности, помимо случайных факторов, на валидность теста влияютсистематические факторы. Они привносят систематические искажения в результаты.Эти факторы есть другие психические свойства, которые мешают проявиться врезультатах теста тому свойству, на которое тест направлен.
Например, мы хотимизмерять “потенциал обучаемости” (важнейший компонент общих интеллектуальныхспособностей человека), но даем испытуемому тест с жестким ограничением времениисполнения и отсутствием возможности вернуться и исправить допущенную ошибку.Совершенно очевидно, что искомое психическое свойство оказывается смешанным втесте с ложным психическим свойством – “стрессоустойчивость”: испытуемые свысокими показателями стрессоустойчивости будут лучше выполнять тест. В этомпроявится эффект систематического искажения.
В современнойпсихометрике разработаны буквально десятки разнообразных теоретических иэкспериментальных методов проверки валидности тестов. Основным элементомпрактически всех этих методов является так называемый критерий валидности – этонезависимый от теста, внешний по отношению к тесту источник информации обизмеряемом психическом свойстве. Мы не можем судить о валидности теста до техпор, пока не сравним его результаты с источником истинной (или хотя бы заведомоболее валидной) информации об измеряемом свойстве – с критерием.
В научных исследованияхпреобладают специальные лабораторные критерии. Например, конструируетсякомпактный тест-опросник на тревожность. А в качестве критерия валидности длянего используется специальный трудоемкий объективный лабораторный эксперимент,в котором воспроизводится реальная ситуация тревожности(испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т.п.).
На практике очень часто вкачестве критерия валидности используются прагматические критерии – показателиэффективности той деятельности, ради прогнозирования которой предпринимаетсятестирование. В школе самый типичный критериальный показатель – этоуспеваемость. Но для социально-психологической адаптации ребенка внешнимкритериальным показателем может быть уровень популярности в классе.
Очень часто в качествекритерия валидности используется экспертная оценка. Например, мы хотимубедиться, что короткий тест на измерение уровня дисциплинированности валиден.Для этого опрашиваем учителей об уровне дисциплинированности хорошо известныхим учеников. И после этого сравниваем (коррелируем) результаты теста иэкспертный рейтинг учеников по дисциплинированности.
Остановимся чутьподробнее на этом последнем примере. Здесь мы имеем один из самих простых ипопулярных методов эмпирического (статистического) измерения валидности. Этометод “известных групп”. К участию в психометрическом эксперименте по проверкевалидности теста приглашаются испытуемые, про которых известно, к какой группепо критерию они относятся. В случае с тестом дисциплинированности подбираютсяученики, заведомо дисциплинированные, по данным экспертной оценки учителей(“высокая” группа по критерию), и заведомо недисциплинированные (“низкая”группа по критерию). Ученики со средними показателями по критерию втестировании не участвуют.
После проведения теста мырассчитываем, например, простейшую четырехклеточную корреляцию между тестом икритерием. Для этого заполняется следующая четерехклеточная таблица. ВЫС. КРИТ. НИЗ. КРИТ ВЫС. ТЕСТ A B ВЫС. ТЕСТ C D
Элемент “А” в этойтабличке – это число испытуемых, попавших в “высокую” группу по тесту и покритерию, элемент В – число испытуемых, попавших в высокую группу по тесту, нов низкую группу по критерию и т.д.
Очевидно, что при полнойвалидности теста элементы В и С таблички должны быть равны нулю. То есть тестне должен давать ошибок – говорить о том, что ученик низкодисциплинированный,когда учителя говорят о том, что ученик высокодисциплинированный (случай С).
Меру совпадения(корреляции) между крайними группами по тесту и по критерию оценивают с помощьюсамого простого Фи-коэффициента Гилфорда:
При численностипротестированной группы в 30 человек (это минимальная выборка для проверкивалидности) статистически значимую связь теста с критерием мы можемконстатировать, когда Phi>=0,36. Хотя это, конечно, невысокая валидность, новсе же тест в этом случае дает значительно лучшие результаты, чем случайноегадание. То есть, если в вашем учебном заведении есть конкурс и вы хотитеотобрать не только одаренных, но и дисциплинированных учащихся, вы можете использоватьтест, валидность которого вы проверили, и она оказалась значимой.
Но… Метод “известныхгрупп” обладает серьезным недостатком. Он не всегда позволяет использовать тестдля прогноза, ведь при формировании “известных групп” оценивается поведение впрошлом, а мы хотим сделать тест дня прогноза поведения в будущем. Многиетесты, используемые в образовательной психодиагностике, обладают указаннымнедостатком. Они прошли в лучшем случае проверку по методике “известных групп”и не обладают так называемой прогностической валидностью (или по крайней мереэта валидность строго экспериментально не доказана). Конечно, на местном уровнезадачу обеспечения прогностической валидности не решить. Это под силу толькокрупным научно-методическим центрам. Ведь к психометрическому исследованию попроверке прогностической валидности надо привлекать примерно на порядок большеиспытуемых – не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300попадет в будущем в крайние группы.
Например, мы хотимиспользовать тест для прогноза готовности школьников к обучению в вузах. Этотипичная прогностическая психодиагностическая задача. Кто-то должен взяться занелегкую многолетнюю программу проверки прогностического потенциала этоготеста. Нужно протестировать 300-500 школьников, а затем подождать, кто из нихпоступит в вуз и будет успешно там учиться. После двух-трехлетнего интерваламожно сформировать критериальные группы и подсчитать корреляцию группы спрежними тестовыми показателями этих бывших школьников. Только после реализациитакой схемы психометрического эксперимента можно5. Стандартизация тестов
Что, несомненно, должензнать и уметь делать каждый грамотный пользователь теста – это понимать, чтотакое тестовые нормы и как ими пользоваться.
Первоначальный суммарныйбалл, подсчитанный с помощью ключа, не является показателем, который можнодиагностически интерпретировать. Его называют в тестологии “сырым тестовымбаллом”. Применение тестовых норм в профессионально организованнойпсиходиагностике основывается на переводе тестовых баллов из “сырой” шкалы в“стандартную”. Эта процедура называется “стандартизацией тестового балла”.
Пусть мы провели тест из20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать,что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Длятакого вывода нужно сравнить балл 12 со средним баллом по представительнойвыборке испытуемых.
Выборка, на которойопределяются статистические тестовые нормы, называется выборкой стандартизации.Ее численность, как правило, не меньше 200 человек. Столько людей должнопринять участие в психометрическом эксперименте по определению тестовых норм –в эксперименте по стандартизации теста.
Если после стандартизациитеста выясняется, к примеру, что среднее арифметическое по сырой шкале тестаравно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотяиспытуемый и справился больше чем с половиной заданий). Просто в данном случаетест содержит слишком простые задания, несколько отклоняясь по этому параметруот оптимальной трудности.
Простейшая линейнаястандартизация тестового балла производится по формуле
где Z – стандартный баллна так называемой стандартной шкале Z (с центром 0 и отклонением 1);
Х – сырой балл по тесту;
– средний балл по выборкестандартизации,
Sх – стандартноеотклонение по выборке стандартизации.
После получениястандартного балла Z можно перевести тестовый балл в любую стандартную тестовуюшкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производитсяпо формуле
IQ=Z..15=100.
Напомним, что в шкале IQцентр равен 100, а отклонение – 15.
Если перевод требуется втак называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка),то формула пересчета из шкалы Z выглядит так:
Sten = Z..2 +5,5,
так как в шкале стеновцентр равен 5,5, а отклонение равно 2.
Обобщенная формулаперевода сырого балла в заданную стандартную шкалу имеет вид:
Y = Ss×Z+M, (7)
где Y – стандартный балл,по произвольной шкале, с центром М и отклонением Ss.
Для серьезныхпрофессиональных тестов вместо описанной здесь простейшей линейнойстандартизации используется более сложная процедура нелинейной нормализации(форсированный переход к нормальному распределению). В результате этой, болееточной процедуры разработчики снабжают пользователей теста так называемой конверсионнойтаблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В нейприводится полный перечень соответствий между интервалами сырой шкалы истандартной.
Ниже приведен примертого, как может выглядеть конверсионная таблица для некоторого тестаарифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов(за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.
Таблица 1
Пример фрагментаконверсионной таблицы для перевода сырых баллов в стеныСырой балл 0-6 7-8 8-9 10-13 14-16 17-19 20-22 23-24 Стены 1 2 3 4 5 6 7 8
Как пользовалисьтаблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), тоему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий,то получает балл 9.
После того, как балл потесту стандартизирован, можно выносить диагностическое заключение. Общееправило здесь таково: если стандартный балл Y превышает единицу “верхней” (или“высокой”) группы M+Ss, то данному испытуемому приписывается повышенноезначение измеренного психического свойства. Например, про ученика говорят, чтоон является определенно более дисциплинированным, чем средний ученик вроссийской школе (или московской, или иркутской – в зависимости от того, накакой выборке стандартизации получены нормы). Если же стандартный балл Y нижеграницы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируетсязаключение, соответствующее низкому полюсу измеряемого свойства. Еслистандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss,M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено всредней степени – как у большинства людей.
На шкале стенов граница“верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов ибольше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов именьше – в “нижнюю”.
Если мы имеем дело сбиполярным (двухполюсным) психическим свойством, например, “гибкость –ригидность”, то для “высокой” группы формулируется заключение как для “гибких”людей, а для “низкой” группы – как для ригидных людей. Соответственно средняягруппа из центрального интервала признается нейтральной, неполяризованной поданному тестовому параметру.
Любые тестовые заключенияпри использовании статистических тестовых норм являются относительными. Онизависят от той выборки, на которой производилась стандартизация теста. То,насколько выборка стандартизации позволяет применять тест на широкой популяции,называется репрезентативностью тестовых норм.[4] Репрезентативность – третьеважнейшее психометрическое свойство теста. Понимание смысла этого требования ктесту помогает правильно учитывать ограничения в сфере его применения.
Например, если тестпроходил стандартизацию на студентах, то перед его применением на школьникахследует вначале произвести рестандартизацию, то есть снова собрать тестовыенормы на представительной выборке, сформированной именно из школьников. Впротивном случае диагностические выводы, произведенные по неадекватным тестовымнормам, будут неточны и неверны.
Проверкарепрезентативности тестовых норм осуществляется с помощью анализа такназываемого распределения частот тестовых баллов. Одним из простейших методовявляется проверка нормальности этого распределения. Более сложный иуниверсальный подход предполагает сравнение двух распределений, построенных длядвух случайных половин выборки стандартизации. Если эти два распределенияоказываются практически тождественными, то можно говорить о репрезентативноститестовых норм.
Введение понятиярепрезентативности позволяет нам дать более строгое определение того, что такоестандартизация теста. О стандартизации теста в строгом смысле можно говорить,когда задана полная таблица соответствия сырой шкалы и стандартной шкалы исодержание этой таблицы обосновано статистической структурой распределениятестовых баллов на выборке стандартизации.
Кроме статистическихтестовых норм в современных тестах часто используются критериальные нормы. Ониособенно важны для сферы образования. Действительно, что дает нам знание о том,что Петров выполнил тест лучше среднего испытуемого, если средний испытуемыйтоже не справился с большинством заданий? Мы прогнозируем, что подавляющебольшинство испытуемых без специального дополнительного обучения не смогутпоказать требуемого уровня эффективности в будущей деятельности.
При построении такназываемого “теста по критерию” шкала сырых тестовых баллов калибруется особымиреперными точками, которые соответствуют уровням рассчитанной вероятностидостижения какого-то критерия (заданной эффективности деятельности). Например,если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и несоответствовать требуемому уровню критериальной “надежности оператора” (вданном случае “надежность” – измеряемое свойство), а вот если он был точен в47 из 48 заданий, то это может считаться достаточным уровнем “надежности”.Таким образом, при построении диагностических заключений по критериальнымтестам мы интересуемся не степенью отклонения балла от центра шкалы, адостижением или недостижением какого-то критического уровня на шкале.
6. Достоверность теста
Особой разновидностьювалидности является достоверность, которая не всегда выделяется в учебниках попсиходиагностике, хотя требует специальных усилий и процедур по обеспечению.Речь идет о сознательных или бессознательных искажениях, которые вносит втестовые результаты сам испытуемый, руководствуясь в ходе теста особоймотивацией, отличающейся от той, которая присуща ему в реальном поведении.Способность теста защищать информацию от мотивационных искажений и естьдостоверность теста. Особенно остро проблема достоверности стоит в случаетест-опросников, которые допускают больше свободы в выборе испытуемым любоговарианта ответа.
Типичный приемобеспечения достоверности – наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалыосновываются главным образом на феномене социальной желательности – стремлениииспытуемых давать в ходе тестирования социально одобряемую информацию.
Если испытуемый набрал пошкале лжи балл выше критического, то его протокол объявляется недостоверным иему предлагается либо выполнить данный тест еще раз более откровенно, либовыполнить другой тест. Многие более специфичные “ловушки”, направленные наизмерение достоверности, часто входят как компонент в структуру конкретноготеста, а иногда даже не подлежат разглашению как элемент “ноу-хау”(информационного изобретения) и профессиональной тайны, разделяемойразработчиками только с лицензированными пользователями методики, подписавшимиособое лицензированное соглашение при приобретении теста.
Достоверностьтестирования тесно связана со степенью доверительности общения, которуюпсихолог смог установить с данным испытуемым. Здесь полезно различать дведиагностические ситуации: консультативную (ситуация клиента) и аттестационную(ситуация экспертизы). В первом случае испытуемый участвует в тестировании надобровольной основе и сам заинтересован получить рекомендации по результатамтестирования (как, например, в профориентационной консультации). Во второмслучае тестирование проводится по инициативе педагога или администрации,психолога, родителей, то есть других лиц, и эти другие больше заинтересованы врезультатах, чем сам испытуемый.
Понятно, что в аттестационнойситуации вопрос о достоверности особенно актуален. И опросники, не снабженныешкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуацииклиента могут быть использованы такие методики, на которые испытуемый заведомобудет отвечать некорректно в ситуации экспертизы.
Вопросы достоверности истандартизации тесно связаны между собой. Очень часто даже объективные тестыдостижений, если они проходили стандартизацию на добровольцах (в ситуацииконсультации), должны быть рестандартизированы для того, чтобы их использовалив аттестационной ситуации.
утверждать, что тестпрошел проверку на прогностическую валидность. Без этого мы исходим просто издоверия к научной интуиции разработчика теста и не имеем независимыхдоказательств того, что тест можно использовать для прогноза.
Различие обычной дешевойсхемы валидизации теста (по “известным группам”) и дорогой прогностическойсхемы валидизации теста – важнейший элемент психодиагностической грамотности нетолько для психологов, но и для педагогов, как, впрочем, и для любых заказчиковпсиходиагностической информации.
Когда заказчик твердознает, каких доказательств эффективности предлагаемого теста можно потребоватьот тестолога, он будет надежно застрахован от профанации.
В заключение данной темыподчеркнем, что измерение психометрических характеристик теста, конечно,является прежде всего обязанностью разработчиков тестов. Но квалифицированныйшкольный психолог-методист с полным курсом университетского образования долженпо своей подготовке уметь самостоятельно провести простейший психометрическийэксперимент и пересчитать тестовые нормы, а также психометрические индексынадежности и валидности теста на своей собственной выборке (в своем регионе,обладающем определенной национально-культурной и социальной спецификой). Безэтой проверки никто не может гарантировать, что тест действительно работает вданных условиях.
На сегодня подобнаяпсихометрическая работа с тестами облегчается, так как от массы рутинныхвычислений специалиста освобождает компьютер. Научная фирма “Гуманитарныетехнологии” (МГУ) распространяет с 1993 года специализированный пакет программТЕСТАН (разработчик – А.Г. Шмелев) для психометрического АНализа ТЕСТов. Задачапользователя такой программы – не тратить время на вычисления, а толькосодержательно разбираться в том, что означает тот или иной коэффициент.