امروز پنجشنبه 14 مهر 1401

آزمون‏های معناداری و اندازه ‏ی اثر

0

آزمون‏های معناداری و اندازه ‏ی اثر
نکته‏ی مهم در کشف DIF این است که: "آیا تفاوت میان میانگین‏ها به اندازه‏ی کافی بزرگ هست که بتوان از موجود DIF در یک سوال صحبتی میان آورد." روش‏های اولیه کشف DIF وسیله‏ای برای چک کردن این موضوع نداشتند، در حالی که روش‏های کنونی مانند روش‏های مبتنی بر IRT، روش MH و روش استاندارد شده برای بررسی این موضوع از ارزش Pو آماره‏ی x^2استفاده می‏کنند. استفاده از آزمون آماری معناداری از عدم کاربرد آن بهتر است ولی بیشتر محققان (هیوبرتی، 2002) بیان می‏کنند که آزمون‏های آماری از طریق حجم نمونه کنترل می‏شوند. علاوه بر این، کاربرد آزمون‏های آماری معناداری بخاطر ماهیت ذاتی مطالعات DIF که نیازمند نمونه‏هایی با حجم بالا است، خطای نوع اول را بشدت افزایش می‏دهد.
در دهه‏های اخیر نیاز به‏ یک روش جایگزین و یا مکمل آزمون‏های آماری بشدت احساس شده است(فیدلر، 2002). علی‏رغم کاربردهای عملی آزمون‏های آماری معناداری، انتقادات زیادی به این آزمون‏ها وارد شده است.
هارلو (1997) در مقاله ای تحت عنوان"چه می‏شد اگر آزمون‏های معناداری نبودند " هدف واقعی آزمون‏های معناداری را بیان کرده است. هارلو خاطرنشان ساخته که باید از زمان پیدایش این آزمون‏ها برای آنها مکملی نیز بوجود می آمده است:
"NHST یا همان فرض آزمایی معناداری قصد دارد تا روشی را برای قانونمند کردن شانس مهیا کند، بنابراین بیشتر سعی می‏کند تا فرضیه‏ یا فرضیات خلاف را اثبات کند."
کیرک(1996) انتقادات وارده بر فرض آزمایی معناداری را برشمرده است وی بیان می‏کند آزمون‏های معناداری آماری نشان نمی‏دهند که محقق بدنبال چیست. پژوهشگر می خواهد احتمال درستی فرض صفر در جامعه را بداند، اما در عوض آزمون‏ها، معناداری فرض صفر را از طریق نمونه و با فرض درستی آن در جامعه ارائه می‏دهند. تامپسون و کیفر (2000) آزمون‏های معناداری آماری را تکالیف کم مایه می دانند. آنها می گویند همیشه درجه‏ای از تفاوت بین گروه‏ها وجود دارد، با افزایش حجم نمونه می‏توان به معناداری این تفاوت دست یافت. هر چه حجم نمونه بیشتر باشد احتمال معناداری تفاوت بیشتر است(کرامول، 2001). بنابراین پژوهشگران بدنبال راهی بودند تا بتوانند از طریق آن خطای نوع اول را کنترل کنند. اندازه‏ی اثر یکی از این راهها بود.

“اندازه اثر”
“اندازه اثر” عنوانی است که به مجموعه‏ای از شاخص‏ها که بزرگی اثر آزمایش را می سنجد اطلاق می‏شود. برخلاف آزمون‏های معناداری، این شاخص مستقل از حجم نمونه است. حوزه‏ی وسیعی از فرمول‏های محاسبه “اندازه‏ی اثر” موجود است. به طورکلی‏”اندازه‏ی اثر” به دو طریق به دست می‏آید:
الف) به عنوان تفاوت استاندارد شده بین دو میانگین و ب) به صورت همبستگی بین متغیر طبقه ای مستقل و نمرات او در متغیر وابسته. این همبستگی ها به عنوان "همبستگی اندازه اثر " نامیده می‏شوند (روزنو و روزنتال، 1996).
“اندازه‏ی اثر” در آمار، مقداری است که رابطه‏ی بین دو متغیر را بیان می‏کند. در آزمایشات علمی علاوه براین که ما باید از معناداری آماری باخبر باشیم؛ باید از اثرات مشاهده شده نیز مقداری کمی داشته باشیم. برای تصمیم گیری در موقعیت های عملی‏”اندازه‏ی اثر”، شاخص بسیار مناسبی است(گریسوم و کیم، 2005). “اندازه اثر” همچنین در مطالعات فراتحلیلی گسترش یافته است که یافته های یک حوزه‏ی خاص مطالعاتی را خلاصه می‏کند(گریسوم و کیم، 2005).
معنی و مفهوم “اندازه‏ی اثر” در زبان عامیانه روزانه و در بین مردم استفاده می‏شود. در نظر بگیرید یک برنامه‏ی لاغری مدعی است به طور میانگین حدود 30 پوند از وزن افراد را کاهش می‏دهد؛ در اینجا 30 پوند شاخصی است که “اندازه‏ی اثر” نامیده می‏شود. یا معلمی که به طور خصوصی تدریس می‏کند مدعی است که میانگین نمرات فرد را 2 نمره افزایش می‏دهد، این افزایش نمره “اندازه‏ی اثر” نامیده می‏شود. یک مثال عالی از “اندازه‏ی اثر” در زیر ارائه می‏شود: اگر فردی هیچ آشنایی قبلی از انگلستان نداشته باشد، این فرد باید چند نفر انگلیسی ببیند تا متوجه شود که به طور متوسط قد مردان در این کشور بلندتر از قد زنان است. پاسخ به این سوال “اندازه‏ی اثر” تفاوت میانگین قد بین مردان و زنان است. هرچه “اندازه اثر” بزرگ تر باشد، بیانگر قد بلندتر مردان است. اگر “اندازه‏ی اثر” کوچک باشد، لازم است که قد بسیاری از زنان و مردان را داشته باشیم تا بتوانیم دریابیم که مردان بلندتر از زنان اند. در آمار استنباطی، “اندازه‏ی اثر” تعیین می‏کند که آیا تفاوت معنادار آماری با تفاوت‏های موقعیت های عملی مربوط است. “اندازه‏ی اثر”، حجم نمونه، سطح بحران معناداری(ά) و توان فرض آزمایی آماری به هم مربوط‏اند و با تعیین یکی از آنها بقیه تا حدودی مشخص می‏شوند. در مطالعات فراتحلیل “اندازه‏ی اثر” معمولا به عنوان مقداری در نظر گرفته می‏شود که برای مطالعات مختلف محاسبه می‏شود و سپس در تحلیل نهایی وارد می‏شود. ارائه‏ی‏”اندازه‏ی اثر” و فاصله‏ی اطمینان با هم، در مجلات زیست شناسی به شدت توصیه شده است. زیست شناسان به اهمیت “اندازه‏ی اثر” پی بردند. استفاده‏ی ترکیبی و همزمان “اندازه‏ی اثر” در کنار فاصله‏ی اطمینان منجر به سنجش موثرتر رابطه‏ی داده‏ها نسبت به زمانی می‏شود که تنها از فاصله‏ی اطمینان استفاده می‏شود(گریسوم و کیم، 2005).
انواع “اندازه‏ی اثر”
همبستگی r پیرسون
همبستگی r پیرسون که توسط کارل پیرسون معرفی شد یکی از اندازه های اثری است که به طور گسترده مورد استفاده قرار می‏گیرد. این همبستگی زمانی استفاده می‏شود که داده‏ها پیوسته و یا دوتایی‏اند. بنابراین همبستگی r پیرسون یک “اندازه‏ی اثر” همه کاره است. اولین “اندازه‏ی اثر” گسترش یافته در آمار همبستگی r پیرسون است. بزرگی این همبستگی از 1- تا 1+ است؛ که 1- اشاره به ‏یک رابطه‏ی خطی کامل منفی و 1+ اشاره به ‏یک رابطه‏ی خطی کامل مثبت دارد و صفر بیانگر عدم وجود رابطه‏ی خطی بین متغیرها است. کوهن(1990) برای علوم انسانی این ‏”اندازه‏ی اثر” را به صورت زیر طبقه‏بندی کرد:
0/ “اندازه‏ی اثر” کوچک، /3:”اندازه‏ی اثر” متوسط، /5:”اندازه‏ی اثر” بزرگ
یکی دیگر از اندازه هایی که قدرت رابطه‏ی بین دو متغیر را نشان می‏دهد؛ ضریب تعیین(مجذورr) است.
اندازه های اثر مبتنی بر میانگین‏ها
“اندازه‏ی اثر” θ مبتنی بر میانگین‏ها معمولا تفاوت میانگین استاندارد شده بین دو جامعه را مدنظر قرار می‏دهد.

1µ میانگین جامعه‏ی اول، 2µ میانگین جامعه‏ی دوم، σ انحراف استاندارد مربوط به جامعه‏ی ثانوی و یا انحراف یا انحراف استاندارد مشترک دو گروه است.
در موقعیت های عملی ارزش‏های جامعه ناشناخته‏اند و باید از طریق آماره‏های نمونه برآورده شوند. “اندازه‏ی اثر” بر مبنای میانگین، با توجه به آماره‏ی استفاده شده در آن به چند نوع تقسیم می‏شوند.
d کوهن
d کوهن به این صورت تعریف می‏شود: تفاوت بین دو میانگین تقسیم بر انحراف استاندارد داده‏ها

کوهن به جای σ، s قرار داده است ولی فرض می‏شود s با σ حدودا برابر است. دیگر متخصصان محاسبه‏ی انحراف استاندارد را براساس انحراف استاندارد مشترک تعریف کرده‏اند.



هدگس و الکین d کوهن را برآوردکننده‏ی بیشینه‏ی درستنمایی تعریف می‏کنند که با g هدگس ارتباط دارد.

∆ گلاس
در 1976 جین گلاس برآوردی را برای ‏”اندازه‏ی اثر” ارائه داد که فقط از انحراف استاندارد گروه ثانوی استفاده می کرد.

گروه ثانوی ممکن است گروه کنترل باشد. جین گلاس بیان کرد زمانی که چند گروه آزمایشی با یک گروه کنترل مقایسه می‏شود؛ بهتر است تنها از انحراف استاندارد گروه کنترل استفاده شود. بنابراین “اندازه‏ی اثر” گروه‏هایی که میانگین برابر و واریانس های نا برابر دارند؛ یکی می‏شود. با فرض واریانس‏های برابر برای جامعه، براورد مشترک برای σ دقیق تر است.
g هدگس
g هدگس توسط لاری هدگس در سال 1981 ارائه شد. این مقدار مانند سایر اندازه ها بر مبنای یک تفاوت استاندارد شده است.

با این تفاوت که انحراف استاندارد مشترک s قدری با d کوهن متفاوت است.

به عنوان یک برآورد از “اندازه‏ی اثر” جامعه θ این مقدار دچار سوگیری است ولی می‏توان از طریق عامل زیر آن را تصحیح کرد.

در کتاب سال 1985 هدگس و اولکین این g به عنوان d مطرح شد ولی با d کوهن متفاوت بود. تصحیح دقیق در برگیرنده‏ی تابع گاما است:


F2 کوهن
F2 کوهن “اندازه‏ی اثر” مناسبی برای کاربرد در زمینه‏ی آزمون F(تحلیل واریانس) یا رگرسیون چندگانه است. “اندازه‏ی اثر” F2 برای رگرسیون چندگانه به صورت زیر تعریف می‏شود:

R2 مجذور همبستگی چندگانه است
“اندازه‏ی اثر” f2 برای رگرسیون چندگانه‏ی سلسله مراتبی به صورت زیر تعریف می‏شود:

که در آن، واریانس محاسبه شده برای مجموعه‏ای از متغیرهای مستقل A است و واریانس ترکیبی محاسبه شده برای مجموعه متغیرهای مستقل A و متغیرهای مستقل B است.
اندازه های اثر f2 02/0، 15/0 و 35/0 به ترتیب مقادیر کوچک، متوسط و بزرگ‏اند(کوهن، 1990).
f2 کوهن برای تحلیل واریانس(آنووا) نیز به کار می‏رود.

در یک طرح متعادل آنووا که حجم نمونه‏ها برابر است، پارامترf2 منطبق بر آن، برابر است با

-، - کرامر یا ∆ کرامر
بهترین اندازه‏ی مربوط به آزمون خی دو، فی(فی کرامر یا V کرامر) است. فی با ضریب همبستگی دو رشته‏ای و d کوهن در ارتباط است و درجه‏ی رابطه‏ی بین دو متغیر(2×2) را نشان می‏دهد. فی کرامر می‏تواند با متغیرهایی که بیشتر از دو سطح دارند، نیز استفاده شود. فی از طریق تقسیم جذر خی دو بر حجم نمونه بدست می‏آید. به طور مشابه فی کرامر از طریق تقسیم جذر خی دو بر حجم نمونه و طول بعد کوچک‏تر (k مقدار سطح(r) یا ستون(c) کوچک تر می‏باشد) بدست می‏آید.
c- همبستگی درونی دو متغیر گسسته است و ممکن است از طریق ارزش‏های r یاc برآورد شود. هر چه تفاوت بین rو cافزایش یابد، احتمال اینکه c- به یک نزدیک شود بیشتر است؛ بدون اینکه مقدار همبستگی واقعی تغییری کند. فی کرامر ممکن است همچنین برای نیکویی برازش مدل های خی دو به کار رود. در این شرایط فی کرامر به عنوان تابعی از اندازه‏ی گرایش به نتایج واحد شمرده می‏شود.
نسبت شانس
یکی دیگر از شاخص های اندازه‏ اثر مناسب، نسبت شانس است. این شاخص زمانی مناسب است که متغیرهای ما هر دو به صورت باینری یا دو حالتی هستند. به عنوان مثال به یک امتحان املاء دقت کنید. در گروه کنترل در برابر هر دو نفر که در آزمون موفق می‏شوند؛ یک نفر شکست می خورد. یعنی شانس 2 به 1 است(/2). در گروه آزمایشی در برابر هر 6 نفر که در آزمون موفق می‏شوند یک نفر شکست می خورد. یعنی شانس 6 به 1(/6) است. اندازه‏ اثر می‏تواند از طریق محاسبه‏ی شانس موفقیت گروه آزمایش نسبت به گروه کنترل بدست آید که این مقدار برابر 3 (/6) است. بنابراین نسبت شانس 3 می‏شود. مقیاس نسبت شانس با مقیاس d کوهن یکی نیست؛ بنابراین 3 بدست آمده در اینجا قابل مقایسه با 3 d کوهن نیست.
خطر نسبی
خطر نسبی که نسبت خطر نیز نامیده می‏شود؛ به عنوان خطر(احتمال) روی دادن یک اتفاق در کنار متغیرهای مستقل است. این اندازه‏ اثر از آنجایی که به جای استفاده از شانس از احتمال استفاده می‏کند؛ با اندازه‏ی اثرنسبت شانس متفاوت است. اگر مثال مطرح شده در نسبت شانس را در نظر بگیریم داریم: احتمال این که گروه کنترل در آزمون املاء موفق شود 3/2 یا 67 درصد است و احتمال موفقیت گروه آزمایش 7/6 یا 86 درصد است. بنابراین خطر نسبی برابر 28/1 است. در می‏یابیم که مقادیر به دست آمده از این دو روش متفاوت است. کاربردهای آماری این دو روش نیز متفاوت است. به عنوان مثال در پژوهش‏های پزشکی، کاربرد نسبت شانس برای مطالعات کنترل موردی و مطالعات معطوف به اسبق مورد استفاده قرار می‏گیرد. در حالی که خطر نسبی در آزمایش های کنترل شده‏ی تصادفی و مطالعات پیرو استفاده می‏شود(گریسوم و کیم، 2005).
مقادیر اندازه‏ی اثر
در زمینه‏هایی که اندازه‏ی اثراستفاده می‏شود به مقادیر کوچک، متوسط و بزرگ آن اشاره می‏شود. این مقادیر وابسته به زمینه و تعریف عملیاتی آن موقعیت است. مقادیر کوچک، متوسط و بزرگ کوهن(1990) تقریبا در همه‏ی حوزه ها استفاده می‏شود. تحلیل توان و طرح ویژه‏ی حجم نمونه نیازمند برآوردی از پارامتر اندازه‏ی اثر می‏باشد. بسیاری از پژوهشگران استانداردهای کوهن را به عنوان پیش‏فرض در فرضیات خلاف می پذیرند.
راسل لنت () به آنها انتقاد کرده و بیان می‏کند:
"این روش که در گذشته در مطالعات علوم اجتماعی بکار می رفته با اندازه‏ی اثر کوچک، متوسط و بزرگ به حجم نمونه یکسان منتهی می‏شود. در این روش یک اندازه‏ی اثر استاندارد شده به عنوان هدف در نظر گرفته می‏شود. به عنوان مثال برای اندازه‏ی اثر"متوسط" بدون توجه به درستی پایایی ابزار، کوچکی یا تنوع آزمودنی‏ها، حجم نمونه انتخاب می‏شود. در اینجا عوامل مهمی فراموش می‏شوند. بنابراین متوسط بودن اندازه‏ی اثر چیزی را تعیین نمی‏کند."
برای d کوهن اندازه‏ی اثر 2/0 تا 3/0 کوچک در نظر گرفته می‏شود، اندازه‏ای در حدود 5/0 متوسط است و اندازه‏ی اثر 8/0 تا بی نهایت بزرگ تلقی می‏شود. کوهن(1988) انتقاد لنت را پیش‏بینی کرده بود:
Mj میانگین جامعه‏ی j ام از بین k گروه است و δ انحراف استاندارد برابر درون هر گروه است. ss مجموع مجذورات در آنووا است.