אוצר מילים פסיבי הוא מספר המילים שהמשיב מבין. כמעט בלתי אפשרי לספור אותו בדיוק. כדי לעשות זאת, היינו צרכים לקחת מילון די עבה ולסמן את כל המילים שהמשיב יודע-וזה אלפי מילים או אפילו עשרות אלפי מילים. למרבה המזל, עדיין ניתן לפתור את הבעיה על ידי שימוש בתכונות הסטטיסטיות הידועות של אוצר המילים, המנגנון המתמטי של תורת המבחנים המודרנית Item Response Theory – IRT. כמו גם בתוספת שלו Computerized Adaptive Testing – CAT.
אכן, אם המשיב יודע הרבה מילים מאתגרות ונדירות – יש לו אוצר מילים טוב, וסביר להניח שהוא מכיר גם מילים פשוטות. גם ההפך הוא הנכון. אם המשיב מתבלבל במילים פשוטות, המשמשות לעתים קרובות – יש לו אוצר מילים קטן, אין טעם לשאול אותו על מילים מאתגרות. כלומר, עלינו להבין כמה מילים מאתגרות מתחילות לגרום לבעיות עבור המשיב (למשל, מתוך 10 מילים בעלות רמת הקושי שווה, המשיב יודע רק מחצית). אז אפשר לחשב באופן פשטני שהמשיב יודע מילים פשוטות יותר מהמדגם, בעוד שאת המילים הקשות מהמדגם – לא יודע. מספר המילים הפשוטות הללו הינו אוצר המילים.
המבחן שלנו עובד כך. המשיב מקבל מילה ראשונה לבדיקה ומסמן אותה כמוכרת או לא מוכרת. לאחר מכן, אלגוריתם הבדיקה מעריך את אוצר המילים של המשיב. הציון יהיה גבוה אם מילת הבדיקה מוכרת ונמוכה אם לא. הדיוק של הערכה כזו הוא כמובן נמוך מאוד. לאחר מכן המשיב מקבל מילת בדיקה שנייה. זאת תהיה קשה יותר אם המשיב סימן את המילה הראשונה כמוכרת, או קלה יותר אם המילה הראשונה לא הייתה מוכרת. המשיב שוב מסמן אותה כמוכרת או לא מוכרת. האלגוריתם שוב מעריך את אוצר המילים, אך כבר לפי שתי מילות בדיקה. ההערכה נהיית קצת יותר מדויקת. האלגוריתם בוחר מילה שלישית לבדיקה שמתאימה בערך לאוצר המילים של המשיב והמבחן ממשיך. הבדיקה נעצרת כאשר דיוק ההערכה מגיע לרמה גבוה מספיק.
כך המבחן הינו אדפטיבי – כל משיב מקבל מילים שונות המתאימות בערך לאוצר המילים שלו. בזכות זה, יכולים לעבור את המבחן גם אלה שרק התחילו ללמוד את השפה וגם דוברי שפת אם.
מתעוררת שאלה לגיטימית – כיצד לברר את רמת הקושי של המילים? בדרך כלל, כדי לעשות זאת, לוקחים קבוצה גדולה מאוד של טקסטים שונים בנושאים, ומחשבים באיזו תדירות כל מילה מופיעה בהם. מילים פשוטות ונפוצות מופיעות פעמים רבות. מילים מאתגרות ונדירות מופיעות להיפך, לעיתים רחוקות. השתמשנו בקורפוס ובמילון התדרים של כתוביות לסרטים וסדרות.
לברר את המספר המדויק של מילים בשפה כלשהי זאת משימה אכן קשה מאוד, מכיוון שההערכה תלויה באיזו מילה בדיוק נחשבת כמילה בפני עצמה ואיזו מילה – כנגזרת. אנו עוקבים אחר המקור בעל סמכות גבוהה ביותר – האקדמיה ללשון העברית, ולפיה יש כ-80,000 מילים בשפה העברית.
כדי לזהות מקרים של ביצוע המבחן מרושל, הכנסנו למבחן שני שלבים של הגנה. השלב הראשון הוא מילות מלכודת. מילים כאלה נשמעות כמו אמיתיות, אך אינן מציינות דבר. הן לא נמצאות בשום מילון, אפילו מנועי חיפוש לא מוצאים אותן באינטרנט. השלב השני הוא בקשה להבהיר את המשמעויות של כמה מילים שהמשיב ציין כמוכרות. עם זאת, יש לו ארבע אפשרויות לבחירה, כאשר מתוכן רק אחת נכונה. בסוף הבדיקה מחושב המקדם של תשומת הלב. לשם כך אנו משתמשים בנוסחה פשוטה (x + y) / (ax+ay). ובנוסחה:
x – הוא מספר מילות המלכודת שהמשיב לא ציין כמוכרות (כלומר "המשיב לא נלכד").
ax – הוא המספר המלא של מילות המלכודת במבחן.
y – הוא מספר המילים שהמשמעויות שלהן הובהרו נכון על ידי המשיב.
ay – הוא המספר המלא של המילים שיש להבהיר את משמעותן.
אם המשיב לא סימן שום מילת מלכודת כמוכרת וציין נכון את המשמעויות של כל מילות האימות – המקדם של תשומת הלב יהיה 100%.
תודה רבה לאיוואן באלדין על הדחף הראשוני ליצור את הגרסה העברית של המבחן.