صفحه نخست » آموزش پژوهش » روایی و پایایی و هرآنچه که درموردش نمیدانید!

روایی و پایایی و هرآنچه که درموردش نمیدانید!

امروزه برای اینکه بتوانیم رفتار جامعه‌ی مورد مطالعه را کمی سازي کنیم بسیاري از پدیده‌ها را از طریق ابزارهایی مثل پرسشنامه، چک لیست و تست‌هاي آموزشی و یا ارزیابی‌هاي داوران مورد مطالعه قرار میدهیم. بنابراین بسیاري از پژوهش‌ها بر اساس ابزارهاي مذکور انجام میشوند. یک ابزار مناسب باید روایی (Validity) و پایایی (Reliability) داشته باشد. در غیر این صورت آن ابزار و در نهایت نتیجه ی آن پژوهش قابل اطمینان و معتبر نخواهد بود. از آنجا که نتایج یک پژوهش میتواند در مسیر علمی تأثیرگذار باشد و یا مورد استفاده‌ی سایر پژوهش‌ها قرار بگیرد، لازم است پژوهشگران حداکثر تلاش خود را برای رسیدن به نتایجی با دقت و صحت بالا انجام دهند.

روایی یا Validity

روایی به معنی این است که ابزار استفاده شده تا چه اندازه میتواند ویژگی مورد نظر را درست اندازه گیری کند. در واقع روایی درجه‌اي از صحت نتایج مطالعه است و مشخص میکند که مطالعه تا چه حدي، چیزي را که قصد اندازه‌گیريش را داشته، به درستی سنجیده است. مثلا پرسشنامه‌ای را فرض کنید که قرار است برای بررسی «میزان افسردگی» استفاده شود اما به نظر میرسد سوالات آن «میزان اضطراب» را بررسی میکند. نتایج به دست آمده از این پرسشنامه روایی ندارد؛ زیرا ویژگی مورد نظر که در اینجا «میزان افسردگی» بوده، ارزیابی نشده است. بنابراین وقتی گفته میشود ابزار جمع ‌آوری داده ها باید روایی داشته باشد، یعنی آن پرسشنامه، فرم مصاحبه، چک‌لیست مشاهده و… باید متناسب با هدف اصلی طراحی شده باشد و بتواند ویژگی مورد نظر را به طور مناسب بسنجد؛ در غیر این صورت نتیجه‌ی نهایی ارزشی نخواهد داشت.

ابزارهای سنجش محقق‌ساخته و ابزارهای سنجشی که اعتبار یا روایی آنها در فرهنگ‌ها و زبان‌هاي دیگر به تأیید رسیده باشد باید اعتبارسنجی شوند. زمانی که یک ابزار سنجش به زبان بیگانه نوشته شده است، ابتدا دو فرد ماهر یا بیشتر آن را به زبان فارسی ترجمه میکنند؛ سپس دو متن باهم مقایسه میشوند و مورد ارزیابی قرار میگیرند. در مواردي مشاوره با مترجم یا فردي انگلیسی زبان صورت میگیرد تا در نهایت مناسب ترین ترجمه براي عبارات اولیه انتخاب شود و در مورد یک نسخه ی فارسی مشترك توافق گردد. به این شکل پرسشنامه به یک ترجمه واحد تبدیل میشود. سپس نسخه ی نهایی ترجمه شده، جهت برگرداندن از زبان فارسی به زبان اصلی (ترجمه معکوس) در اختیار یک مترجم دیگر که متن اولیه انگلیسی را ندیده بود قرار میگیرد؛ هدف از این کار اطمینان بیشتر از صحت ترجمه میباشد. پس از تأیید نهایی نسخه ترجمه شده توسط متخصصان و در مورد ابزارهای محقق ساخته، پس از تهیه بانک سؤالات، پرسشنامه نهایی جهت تعیین روایی ابزار، روایی صوري، روایی محتوی و روایی سازه بررسی و ارزیابی می‌شود. لازم به ذکر است که در ابتدا روایی صوري بررسی میشود تا در صورت نیاز به تغییر پرسشنامه، کل روایی پرسشنامه تغییر نکند.

روش هاي تعيين روایی یا اعتبار

اعتبار صوری

ساده ترین روش برای بررسی روایی ابزار اندازه گیری میباشد. روایی صوري قضاوت عینی در مورد ساختار ابزار است و از نگاه گروه هدف به این سؤالات پاسخ میدهد که: آیا ابزار طراحی شده به صورت ظاهري با هدف مطالعه مرتبط است؟ آیا افرادي که قرار است به ابزار پاسخ دهند، با عبارات و جمله بندي آن موافق هستند؟ آیا برداشت افراد غیر متخصص (گروه هدف) همان برداشتی است که مد نظر محقق است؟ آیا اجزاء و کلیت ابزار قابل پذیرش پاسخ دهندگان میباشد؟

روایی محتوی

روایی محتوي بطور معمول به چنین سؤالاتی پاسخ میدهد که آیا ابزار طراحی شده همه جوانب مهم و اساسی مفهوم مورد اندازه گیري را شامل میشود؟ آیا سازه هاي ابزار همان چیزي را که باید ارزیابی میکنند؟ آیا اجزاء و کلیت ابزار از نظر متخصصان مربوطه قابل قبول است؟

روایی سازه

مفهوم مرکبی است که نیازمند بررسی چند مرحله میباشد و با روایی ضابطه که شامل روایی پیشگویی کننده، روایی همزمان، روایی همگرا و روایی تمایز است ارزیابی میشود.

روایی ضابطه یا Criterion-related validity

به معنای توافق بین یک تست با یک یا تعداد بیشتري تست معتبر دیگر در همان زمینه است، که معمولاً با استفاده از ضریب همبستگی بین آنها ارزیابی میشود. شامل چهار نوع میباشد:

روایی پیشگویی‌کننده یا Predictive validity: زمانی کاربرد دارد که معیار، در زمان آینده اتفاق میافتد و در حال حاضر وجود ندارد. هدف دانستن آن است که یک مقیاس یا ابزار تا چه اندازه میتواند پیامدي را در آینده پیشبینی کند، مثلا بر اساس نمره میانترم دانشجویان، قبولی و یا رد شدن آنها را در پایان ترم پیشبینی شود.

روایی همزمان یا Concurrent validity: زمانی بررسی میشود که معیار در حال حاضر وجود دارد. مثلا میتوان در یک بررسی از کارمندان میزان حقوق دریافتی را پرسید و به عنوان یک ضابطه از مدارك حسابداري استفاده نمود و همبستگی مقدار حقوق گزارش شده را با مقدار واقعی آن بر اساس مدارك موجود محاسبه کرد.

روایی همگرا: به میزان ارتباط و همبستگی میان سوال مربوط به یک حیطه با همان حیطه مربوط میشود. اعتبار همگرا همچنین میزان ارتباط نمرات در یک ابزار سنجش را با نمرات در ابزارهای دیگری که همان سازه یا سازه های مشابه را دارند اندازه گیری میکند. اگر همبستگی بین نمرات آزمون‌هایی که سازه‌ی یکسانی را اندازه میگیرند بالا باشد، آزمون دارای روایی همگرا است.

روایی تمایز یا Discriminant validity: این روش به همبستگی ضعیف بین سوالات مربوط به یک حیطه با حیطه های دیگر مربوط میشود. میتوان اینطور گفت که ضریب همبستگی یک سوال با حیطه های دیگر باید کمتر از ضریب همبستگی آن سوال با حیطه های مربوط به خودش باشد. در واقع با استفاده از یک ابزار باید بتوان میان سازه مورد اندازه گیری و دیگر سازه های نامرتبط تمایز قائل شد. پس اگر همبستگی بین آزمونهایی که سازه‌های متفاوتی را اندازه گیری میکنند پایین باشد، آزمون دارای اعتبار تشخیصی یا تمایزی است.

علاوه بر آن هرچند اعتبار همگرا لازم است اما کافی نیست و روایی تمایزی در حد روایی همگرا لازم است؛ زیرا به بررسی حساسیت ابزارها در سنجش پدیدهاي غیر مربوط میپردازد و میزان ابهام یا گسترده بودن مفهوم را نشان میدهند. بنابراین روایی سازه حاصل از روایی ترجمه و روایی ضابطه است که روایی ترجمه با تعیین روایی صوري و روایی محتوي به دست میآید و روایی ضابطه شامل چهار جنبه روایی همزمان، روایی همگرایی، روایی تمایز و روایی پیشگویی میباشد (شکل شماره‌ی 1).

شکل 1) روشهاي مختلف سنجش روایی سازه و ابعاد مختلف روایی ضابطه و ترجمه

پایایی یا Reliability

پایایی درجه‌اي از دقت و یکسان بودن نتایج در طول زمان معین، تحت شرایط مشابه و با روش کار یکسان است که با قابلیت تکرار یا Repeatability و قابلیت تکثیر یا Reproducibility نتایج ارزیابی میشود. یعنی اگر در چند زمان مختلف برای یک جمعیت از آن ابزار استفاده شود، در نتیجه به دست آمده اختلاف چندانی مشاهده نخواهد شد. برای اندازه گیری پایایی از شاخصی به نام ضریب پایایی استفاده میشود که دامنه‌ی آن از صفر تا +1 است. اگر ضریب صفر باشد به معنای عدم پایایی و اگر یک باشد به معنای پایایی کامل می‌باشد. هرچند پایایی کامل به ندرت دیده میشود و اغلب در صورت مشاهده، به نتایج به دست آمده شک میکنند.

به عبارتی میتوان گفت که پایایی شامل سه بخش مختلف است. ثبات که به معنی کسب نتایج یکسان در افراد مشابه در صورت تکرار آزمون است؛ هم ارزي یا تعادل (Equivalence) زمانی حاصل میشود که اگر آزمون توسط محققین مختلفی استفاده شود، همگی نتایج یکسانی را به دست آورند؛ و همگنی (Homogeneity) شاخصی است از این که تمام قسمت‌هاي آزمون مورد استفاده، داراي سازگاري درونی باشند. در ارزیابی‌هاي به کار رفته در علوم مختلف، در فعالیت‌هاي آموزشی و پژوهشی، تشخیص هاي پزشکی و… بر اساس آن که محقق بخواهد هر کدام از اجزاي پایایی شامل ثبات، هم ارزي و یا همگنی را اندازه گیري نماید، میتواند با استفاده از روش‌هاي مختلف پایایی را بسنجد. جهت بررسی پایایی ابزار، پرسشنامه و یا هر مقیاس سنجش دیگر میتوان از روش آزمون-باز آزمون و همچنین آزمون‌هاي مورد استفاده در تعیین پایایی از جمله ضریب آلفاي کرونباخ، روش دو نیمه کردن، کادر ریچارسون و یا فرم‌هاي موازي بر روي نمونه‌اي از گروه هدف استفاده کرد.

روش هاي سنجش پایایی

روش‌های سنجش پایایی یک ابزار (آزمون یا پرسشنامه) به دلایلی مثل عملکرد و طبیعت ابزار و چگونگی استفاده از آن در زمین هی مورد استفاده متفاوت میباشد. گاهی هدف تعیین ضریب پایایی به معناي تعیین توافق درونی است که در این صورت میتوان روش‌هاي آلفاي کرونباخ، کادر ریچارسون و دو نیمه کردن را به کار گرفت. اما چنانچه هدف ارزیابی ثبات ابزار باشد، میتوان از روش آزمون-بازآزمون و یا فرم‌هاي موازي استفاده نمود. همچنین، گاهی هدف از تعیین ضریب پایایی تعیین توافق بین مشاهده گران یا مصاحبه‌کنندگان و یا ارزیابان میباشد. بنابراین روش‌های سنجش پایایی به دو دسته‌ی عمده تقسیم می‌شوند: سنجش توافق درونی در پایایی و سنجش ثبات در پایایی.

سنجش توافق درونی در پایایی

روش آلفاي کرونباخ (Alpha Cronbach)

کرونباخ در سال 1951 در دانشگاه استنفورد برای حل مشکل تعیین پایایی آزمون‌های چند سوالی، روش آماری ضریب آلفا را ابداع کرد. این روش معمول‌ترین ضریب پایایی ثبات داخلی است که در بیشتر مطالعات از آن استفاده میشود که معرف میزان تناسب گروهی از آیتم‌هایی است که یک سازه را می‌سنجند. آلفا باید حداقل برابر با 7/0 و یا بیشتر باشد تا یک سؤال بتواند در یک ابزار باقی بماند. این روشی است که فقط به انجام یک بار آزمون نیاز دارد تا برآوردی از پایایی آزمون را حاصل شود. در کل، ضریب پایایی آلفای کرونباخ زمانی مفید است که سوالات به صورت صحیح-غلط طرح نشده باشند.

روش دونيمه کردن آزمون (half-Split)

در این روش یک آزمون به دو نیمه تقسیم شده و رابطه‌ی همبستگی بین دو نیمه آزمون سنجیده می‌شود. این آزمون معمولا براي متغیرهاي دو حالتی به کار میرود که کد صفر به پاسخهاي غلط و کد یک به پاسخهاي صحیح داده میشود. در این روش دو نیمه آزمون باید در محتوي و سختی سؤالات باهم مشابه باشند و چون تعداد سؤالات ابزار به دو قسمت تقسیم شده است، باید روش ضریب همبستگی به کار رود که با استفاده از ضریب اسپیرمن و گاتمن محاسبه میشود.

روش کودر-ریچاردسون(Richardson-Kuder)

این روش شامل دو آزمون KR20 و KR21 میباشد. این روش‌ها آزمونهاي همگنی (ثبات بین سؤالات) هستند که نسبت پاسخ‌هاي صحیح به غلط را در هر سؤال ابزار یا آزمون مد نظر قرار میدهند و براي آزمون‌هایی که پاسخ آنها به شکل صحیح و غلط است مفید میباشد؛ به این صورت که کد صفر به پاسخ‌هاي غلط و کد یک به پاسخ هاي صحیح داده میشود. از لحاظ ریاضی قابل اثبات است که ضریب پایایی کادر ریچاردسن برابر با میانگین ضرایب نیمه‌هاي آزمون به دست آمده از کل نیمه‌هاي ممکن یک آزمون میباشد، در اینگونه آزمون‌ها (دو حالتی) مقدار KR20با آلفاي کرونباخ برابر میشود. اما روش KR21 زمانی مفید است که کل سؤالات پرسشنامه از لحاظ سختی با هم برابر باشند. در این روش آزمون یا ابزار وقتی قابل قبول است که ضریب پایایی کادر ریچاردسن حداقل برابر با 64/0 باشد؛ در حالی که در آزمون‌هاي استاندارد این مقدار باید از 80/0 بالاتر باشد.

سنجش ثبات در پایایی

روش آزمون-بازآزمون (Retest-Test)

در این روش برای سنجش پایایی، سؤالات آزمون در دو نوبت به یک گروه واحد، تحت شرایط یکسان داده میشود و نمرات حاصل با هم مقایسه میشوند. در نهایت ضریب همبستگی بین نمرات حاصل از اجراي دو بار آزمون برآورد میشود تا چگونگی شباهت امتیازات مشخص گردد و به عنوان ضریب پایایی محسوب شود. رایج ترین روش براي یافتن همبستگی بین نمرات در این روش، محاسبه ضریب همبستگی اسپیرمن براون است. در روش آزمون- بازآزمون فرض میشود که متغیرها یا مفاهیم مورد اندازه گیري و همچنین خصوصیات آزمون شوندگان در طول دوره تغییر نخواهند کرد. این روش یکسری معایب دارد مثل آشنایی آزمون شوندگان با محتوي سؤالات، مشکل در تعیین فاصله‌ی زمانی مناسب براي اجراي دو نوبت آزمون و عدم علاقه آزمون‌شوندگان به اجراي نوبت دوم؛ که به این دلایل توسط بسیاري از پژوهشگران بی ارزش محسوب می‌شود. پژوهشگران معتقد هستند که سه نوع اثر متفاوت شامل اثر حافظ (Effect Memory) ، اثر خستگی (Effect Fatigue) و اثر ناشی از تغییرات واقعی(Effect Change Genuine) در مقدار پایایی آزمون-بازآزمون، تاثیرگذار خواهند بود. نکته‌ی مهم استفاده از این روش، فاصله زمانی بین دو آزمون است و گفته میشود که فاصله‌ی زمانی بین دو آزمون باید تا حدي باشد که از یکسو عبارات ابزار فراموش شود و از سوی دیگر تغییر در پدیده‌ی مورد اندازه گیري اتفاق نیفتد. برخی این فاصله را بین دو هفته تا یک ماه پیشنهاد کرده اند. قابل قبولترین آزمون جهت تعیین ثبات (آزمون پایایی) آزمون شاخص همبستگی درون خوشه‌اي (Interclass correlation coefficient) است. چنانچه این شاخص بالاتر از 8/0 باشد میزان ثبات مناسب خواهد بود.

فرمهای موازی (یکسان) و دقیقا یکسان (Parallel & strictly parallel forms reliability)

این دو مدل، روش‌هایی براي آزمون آماري تساوي میانگین ها و واریانس‌ها هستند. در روش دقیقاً یکسان فرض میشود که امتیازات سؤال میانگین و واریانس مشابهی دارند؛ در حالی که در مدل موازي فرض میشود که آنها واریانس مشابهی دارند اما لازم نیست که میانگین مشابهی داشته باشند. برآورد پایایی در روش موازي مساوي با آلفاي کرونباخ میباشد و در مدل دقیقاً موازي بر اساس آلفاي کرونباخ بوده ولی از تفاضل میانگین سؤالات حاصل میشود.

پایایی فرم‌هاي متعادل (Equivalent forms reliability)

در این روش دو فرم جداگانه در مورد یک موضوع به یک گروه مشابه داده میشود. هر فرم شامل تعدادي از سؤالات آزمون میشود. به عبارتی دو آزمون معادل در مورد یک مفهوم یا متغیر به خصوص فراهم شده و در فاصله‌ی کوتاهی به یک گروه واحد داده میشود. ضریب همبستگی بین نمرات حاصل از این دو فرم برابر با پایایی فرم‌هاي متعادل خواهد بود. این روش به دلایلی مثل مشکل در طراحی و ساخت دو فرم یا نمونه سؤال همسان و مساوي در مورد یک مفهوم، عدم علاقه آزمون شوندگان براي پر کردن فرم دوم، یادگیري ناشی از فرم اول و تأثیر آن در تکمیل فرم دوم کاربرد فراوانی ندارد.

پایایی بین مشاهده کنندگان (Inter rater or observer reliability)

این ضریب ثبات و همبستگی نمرات بین مشاهده کنندگان، داوران یا ارزیابان مختلف یک موضوع را مورد بررسی قرار میدهد. آن را ضریب توافق هم مینامند که با ضریب کاپا نشان داده میشود. این روش زمانی به کار میرود که یک ابزار یا پرسشنامه با سؤالات تشریحی، بر روي افراد مشابهی توسط دو یا چند مصاحبه‌گر یا پرسشگر استفاده شود تا یک توافق کلی در مورد ابزار حاصل گردد. دامنه‌ی ضریب کاپا بین صفر تا یک است و به صورت درصد بیان میشود. حداقل مقدار قابل قبول ضریب کاپا بیش از 6/0 میباشد و مقادیر بالاتر از 8/0 در توافق دو داور یا ارزیاب ایده آل در نظر گرفته شده است.

همانطور که گفته شد ضریب پایایی میتواند با یک آزمون و یا بیش از یک آزمون محاسبه شود و همچنین آزمون یا آزمون‌هاي مورد استفاده میتوانند در یک زمان یا بیش از یک زمان به کار روند. بر اساس شکل شماره دو نیز مشخص شده است که پایایی شامل دو جزء متفاوت ثبات و توافق درونی است؛ که ثبات با آزمون-بازآزمون مورد ارزیابی قرار میگیرد و توافق درونی را هم میتوان با یکی از روش‌هاي دو نیمه کردن، توافق بین داوران با استفاده از ضریب کاپا و یا آلفاي کرونباخ تعیین نمود.

شکل2) انواع مختلف سنجش پایایی و ارتباط آنها با یکدیگر

روش‌های افزایش روایی و پایایی

در تعیین پایایی میتوان گفت که افزایش تعداد سؤالات مشابه با سؤالات قبلی براي طولانی تر کردن آزمون، متجانس و همگون کردن سؤالات، افزودن سؤالات با ضریب دشواري متوسط، افزودن سؤالات با ضریب تمایز بالا، به کارگیري آزمون بر روي گروهی از افراد که توانایی کمی برای پاسخگویی به آزمون تجانس دارند و همچنین استفاده از آزمون سرعت، یعنی اجراي آزمون در یک زمان محدود، از عوامل مؤثر در افزایش پایایی ابزارهای سنجش میباشند. سنجش روایی نیز به آگاهی از علم آمار و روش‌هاي آماري نیاز دارد تا امکان دستیابی به مقدار واقعی پیامدها فراهم شود. بنابراین برنامه ریزي در طراحی و کاهش خطاهاي غیر تصادفی در اندازه گیري میتواند میزان پایایی و روایی ابزار را بالا برده و اعتبار نتایج مطالعه را افزایش دهد.

سخن پایانی

همانطور که اشاره شد، روایی به معنای صحت و پایایی به معنای دقت نتایج حاصل از ابزار میباشد. تعیین روایی و پایایی کاری آماری است و به دانش و تجربه ی کافی در این زمینه احتیاج دارد. در این مقاله سعی شد تا این روش‌ها به طور خلاصه، ساده و بدون ذکر فرمول‌ها ارائه شوند تا فهم مطالب آسانتر گردد. مطالب گفته شده برگرفته از مقاله ای با عنوان «روایی و پایایی ابزارها و روشهاي مختلف اندازه گیري آنها در پژوهش‌هاي کاربردي در سلامت» میباشد، که توسط محمدبیگی و همکاران در سال 1393 نوشته شده است (برای اطلاعات بیشتر میتوانید به این مقاله مراجعه فرمایید). ارائه ی نتایج و آمار دقیق و صحیح در گرو استفاده از ابزار سنجش دارای روایی و پایایی مناسب میباشد. بنابراین قبل از استفاده از یک ابزار برای پژوهش خود باید این دو مورد را چک کنید. همچنین اگر میخواهید ابزاری را بومی سازی یا ترجمه کنید یا ابزار جدیدی بسازید (که همانطور که در مقالات قبلی هم اشاره شد، این کار برای پژوهش‌های اول پیشنهاد نمیشود)، برای تعیین روایی و پایایی باید از یک آماریست باتجربه کمک بگیرید تا با توجه به نوع مطالعه و ابزار و همینطور جامعه‌ی مورد مطالعه ی شما و… بهترین روش‌ها انتخاب شوند. لازم به ذکر است که در دوره جامع آموزش پروپوزال نویسی ژیوارآموزان در دو بخش آشنایی با ابزارهای جمع آوری اطلاعات و نحوه نگارش روش اجرای پروپوزال به صورت کامل به توضیح روایی و پایایی پرداخته شده‌است.