לדלג לתוכן

מבחנים פסיכולוגיים

מבחנים הם כלי יקר ערך בפסיכולוגיה, ולכן עלינו להבין אותם ולדעת לאפיין מתי הם תקינים, ומתי הם בלתי תקינים. מבחנים פסיכולוגיים מאופיינים כמעט תמיד בכך ש: - מטלה המורכבת פריטים - יש דרך לתרגם את הביצוע בפריט לציון - הסכום (או הממוצע) של ציוני הפריטים מהווה את הציון במבחן

מה בודקים מבחנים פסיכולוגיים?

מבחנים פסיכולוגיים בודקים דברים כמו: - תכונות ומצבים. תכונות (דוגמת אופי) מאופיינות בשינויים איטיים, ומצבים (דוגמת מצב רוח) בשינויים מהירים. - ביצוע מירבי (מקסימלי) וביצוע אופייני. מבחנים כמו שאנו חושבים עליהם (דוגמת מבחן באריתמטיקה) הם מבחני ביצוע מירבי - אנו מנסים לפתור אותם כמיטב יכולתנו. לעומתם, מבחני ביצוע אופייני לא מחפשים תשובה מסויימת, אלא איפיון של דברים שהרמות השונות שלהם לא בהכרח טובות או גרועות יותר - כמו חרדה. ביצועים מירביים נבדלים בכאלו הבודקים הישג, ויכולת (דוגמת מבחני מילים). יכולת היא הכישורים שנרכשים במהלך החיים, בלא הכשרה מסוימת. לעומתם, מבחני הישג כרוכים בהכשרה מסוימת (כמו מבחנים בקורס הזה ממש!) שאת טיבה הם מבקשים לבדוק.

התנהגויות הן תופעה סטטיסטית

כמעט כל התופעות שנמדדות הן סטטיסטיות בטבען: למשל, גם אם אתם שולטים במיומנות מסוימת, תמיד ישנו סיכוי שתטעו. המבחן מבטא את הסיכוי להצליח. בדומה לכך, גם אנשים ללא דיכאון סובלים לעיתים מחוויות דיכאוניות. מה שמגדיר את הדיכאון הוא הסבירות להתרחשותן. יעילותו של טיפול פסיכולוגי נמדדת בהורדת הסבירות למחשבות אלה.

לאור זאת, אנו נדרשים לדגום מספיק דגימות (ולדגום את ההתנהגויות הנכונות) כדי לתת אומדן טוב לתופעות האלו (sampling adequacy).

אי-תלות במתן הציון

חשוב לוודא מהימנות בין השופטים במבחן נתון. כל מדד נבדק באמצעות בדיקת מידת ההסכמה של שניים או יותר נותני ציונים. מידת ההסכמה נבדקת באמצעות מדדים שונים דוגמת אחוז הסכמה ומדד ICC (Intra-Class Correlation).

הבעיה הזו לא קיימת במדדים סגורים, דוגמת שאלות אמריקאיות או מדדים ללא מימד התרשמות (גובה, ותק, זמן).

גורמים לשונות בציונים

הסכמה בין שופטים אינה תנאי מספק לקבלת ציונים אחידים - דגימה בלתי-מספקת, התרשמות מגורמים בלתי רלוונטית והמצב של השופטים ושל הנבדקים (עייפות, מצב רוח, מוטיבציה), למשל, כולם משפיעים על הציונים בלי קשר ליכולת שמפגינים הנבדקים.

למשל, מבחן אוצר מילים הניתן לאנשים שאינם דוברי עברית כשפת אם אינו בודק דווקא יכולת - הוא גם מדד לרמת מוטיבציה, מספר שנים בארץ, וכישרון טבעי ברכישת שפות.

טעות אמדן דגימה

מבחן המבוסס על דגימה של התנהגויות\מדידות. המבחן בסוף הקורס, למשל, הוא אינו אלא חתך צר של דגימות, שמושפע מגורמים רבים: אולי במקרה נשאלתי על נושא שאני מכיר יותר, אולי במקרה קמתי טוב (או רע!) בבוקר, וכדומה. לעומת זאת, מבחן ארוך יותר (למשל על משך כמה ימים) מאפשר יותר דגימות של יותר התנהגויות וכך משקף נאמנה יותר את המדדים הנבדקים.

כיצד ניתן לעמוד על מהימנות אומדן הדגימה?

שיטות להערכת איכון דגימה-אמדן

ניתן, לפיכך, להעריך מהימנות של נוסחים מקבילים על ידי מדידת המתאם יבן ציונים שהתקבלו בנוסחים שונים של המבחן - שמהווים מדגמים שונים של התנהגויות.

ניתן גם למדוד את המהימנות הפנימית לפי המתאם בין ציונים שחושבו על שתי מחציות של כל הפריטים (למשל מדידת הציון בשאלות זוגיות ואי זוגיות). ערך מתחת ל0.8 נחשב כבעייתי.

טעות התקן (SEM - Standard Error of Measurement) של האומדן עולה בהתאמה עם ירידה במהימנות המבחן - עובדה קריטית במיוחד כשמודדים אדם בודד, וקריטית פחות כשבודקים קבוצות גדולות (ישנם כלים סטטיסטיים להתמודד עם חוסר מהימנות במצבים אלו).

SEM = SD√(1 - Reliability)

^(השורש^ ^על^ ^כל^ ^הדבר^ ^הזה)^

הדגמה במונחים של ציון פסיכומטרי (סטיית תקן=100) - 568-632 SEM=32 (מהימנות פנימית 0.9) - 555-645 SEM=45 (מהימנות פנימית 0.8) - 545-655 SEM=55 (מהימנות פנימית 0.7) - 537-663 SEM=63 (מהימנות פנימית 0.6) {.is-info}

הבעיה הזו ניכרת בעיקר במבחנים מעשיים (פסיכומטרי, קבלה לעבודה וכדומה).

מה משפיע על מהימנות פנימית?

טעות התקן נובעת מגודל המדגם ומההטרוגניות של המדד הנבדק. מדדי חרדה, למשל, הטרוגניים בהרבה (אחידים פחות) ממדדי כישורים מתמטיים ההומוגניים בהרבה (אחידה יותר). ככל שהתכונה הטרוגנית יותר, אנו נדרשים ליותר פריטים על מנת להגיע למהימנות סבירה.

בדיקת תכונה מול בדיקת מצב

אפילו בהינתן שהמבחן שלנו מתהדר במהימנות פנימית גבוהה, ייתכן שהוא בודק מצב - דוגמת מצב רוח - ולא תכונה.

ניתן לעמוד על ההבדל באמצעות מהימנות1 חוזרת (test-retest reliabilty) - בדיקה חוזרת (באמצעות אותו מבחן) של אותה קבוצת אנשים לאחר כמה זמן - לפחות כמה ימים, ורצוי יותר.

קבלת תוצאות שונות דרמטית אינה בעיה במבחן - אלא ממצא מחקרי תקף. לתוצאה כזו יש השלכות: היא מעידה כי לא ניתן לנבא (טוב) התנהגויות עתידיות. מבחן כזה מתאים במיוחד למדידת השפעות מצביות (תוצאות תהליך כזה או אחר, מצבי רוח...). מדדים מעל 0.75 נחשבים כטובים.

תוקף - מה המבחן בודק?

ישנם כמה סוגים של תוקף - להלן:

תוקף נראה

באיזו מידה המבחן נראה (נדמה) בעיניי האדם ו\או הבודק כבודק X? למשל: מבחן זיהוי צורות דוגמת בנדר-גשטלט כמבחן אישיות - האם הוא נדמה כמבחן אישיות? האם זה דבר טוב? (האם כדאי לך להגיד לנבדק מה בודק הנבחן הזה?). לעומתו, השאלה 'האם אני אדם יציב' בעלת תוקף נראה גבוה (מה שמאפשר לחוקר בדיקה טובה יותר, אך גם לנבדק לזייף את התוצאות). במבחן פריימינג, למשל, התוקף הנראה לנבדק נמוך מאוד (נדמה שבודק יכולות קריאה), וגבוה מאוד לבודק (לו ברור כי המבחן בודק זיכרון).

תוקף תוכן

האם התוכן של המבחן רלוונטי, והאם כל התוכן הרלוונטי במבחן? האם הייצוג שלהם פרופורציונלי?

במבחן יידע, למשל, תוקף התוכן ייתבטא בייצוג הולם ובקנה מידה לפרקים בחומר למבחן. במבחן שבודק תכונה, תוקף התוכן ייתבטא בכיסוי לכל ההיבטים הרלוונטיים של התכונה הנבדקת.

דוגמא: מבחן MSCEIT לאינטילגנציה רגשית מודד באופן שווה את ארבעת המאפיינים הרלוונטיים לפי התיאוריה: זיהוי רגשות, שימוש ברגשות, הבנת רגשות וידע לגבי ויסות הרגשות.

תוקף תלוי קריטריון

המתאם הסטטיסטי בין הציון במבחן לבין הציון בקריטריון. למשל, המבחן הפסיכומטרי מתיימר לנבא את הקשר בין הציון הפסיכומטרי להצלחה בשנה א' בלימודים.

במצבים בהם הקריטריון הוא הצלחה בתפקיד כלשהו, מדובר בתוקף ניבוי. לעומת זאת, אם הקריטריון הוא מדד אחר בעל משמעות תיאורטית, מדובר בתוקף מתכנס, או תוקף בו-זמני (למשל: מתאם בין ציון באינטיליגנציה למעמד כלכלי-חברתי, מתאם בין אינטיליגנציה רגשית לפופולריות בבית הספר).

תוקף מבנה

כל המידע שיש לנו אודות המבחן שמעיד על מה המבחן בודק. - מהימנות חוזרת - האם המבחן בודק תכונה יציבה או מצב? - תוקף מתכנס (מיצוי) - מתאם גבוה יחסית בין ציון במבחן לציון במבחנים שבודקים תכנים קרובים או רלונטיים (למשל: בין דיכאון לחרדה סביר שיהיה תוקף מתכנס). - תוקף מבחין (בלבדיות) - האם המבחן בודק רק את מה שהוא מתיימר לבדוק? (למשל, בין חרדה למידת נעליים נרצה תוקף מבחין - אלו שני דברים לא קשורים!)


  1. המילה מהימנות כאן היא 'ירושה מהספרות' ומבלבלת - אין קשר אמיתי בין מהימנות חוזרת למהימנות פנימית