Read in English | Читать по-русски
אנו מציגים תוצאות ראשוניות של מבחן אוצר מילים בעברית, שתוכנן עבור דוברים ילידיים ולומדי עברית. מידע מפורט על שיטת המבחן זמין בעמוד תיאור המבחן.
עד כה, 1,064 משתתפים השלימו את המבחן, כולל 386 דוברים ילידיים ו-678 לומדי עברית. להלן חלוקת הגילים שלהם:
בקרב דוברים ילידיים, רוב המשתתפים הם צעירים, עם שיא מפתיע בקבוצת הגיל 15-20. לעומת זאת, בקרב לומדים, רוב המשתתפים מבוגרים יותר, עם ריכוז קל בקבוצת הגיל 40-50. נראה את ההשפעות של שתי הקבוצות בנתונים.
כעת נבחן את גודל אוצר המילים של דוברים ילידיים ולומדים.
אוצר המילים של דוברים ילידיים נע בטווח של 0 עד 70,000 מילים. לפי האקדמיה ללשון העברית, יש כ-80,000 מילים בעברית. ההיסטוגרמה מראה שלושה רכיבים עיקריים:
להלן הנתונים המספריים לדוברים ילידיים:
נתונים אלו כוללים דוברים ילידיים מכל הגילים. נבדוק את התלות בין גודל אוצר המילים לגיל בהמשך.
כעת נבחן את הלומדים.
נראה כי קיימות שתי קבוצות עיקריות של לומדים שהשתתפו במבחן. הקבוצה הראשונה גדולה בהרבה ושולטת בתוצאות שמתחת ל-13,000 מילים. הקבוצה השנייה קטנה יותר, אך מציגה תוצאות גבוהות בהרבה, סביב 25,000 מילים, ואף דומה לדוברים ילידיים.
להלן הנתונים המספריים ללומדים:
נתונים אלו מתייחסים ללומדים מכל הגילים.
להלן השוואה בין דוברים ילידיים ללומדים באותו גרף:
כעת נעמיק ונבחן את הקשר בין גודל אוצר המילים לגיל. בגרף הבא, כל נקודה מייצגת משתתף בודד:
הנתונים נראים מעט מבלבלים. בואו נקבץ את המשתתפים לפי גיל ונבצע כמה ניתוחים סטטיסטיים כדי לזהות מגמות. נתחיל עם דוברי שפת אם.
זהו תרשים תיבות (Box Plot), שבו כל תיבה מייצגת קבוצה של משתתפים בגיל מסוים (10-14, 15-19, 20-24, וכו'). הקו האמצעי של כל תיבה מציין את החציון עבור הקבוצה, הקו התחתון מציין את האחוזון ה-25, והקו העליון מציין את האחוזון ה-75. "הקווים" (whiskers) מראים פי 1.5 מטווח האינטרקווארטילים (IQR). נתונים מחוץ לטווח זה נחשבים לעיתים קרובות כנקודות קצה (outliers). תצפיות בודדות מוצגות כנקודות.
הצגת הנתונים בדרך זו מאפשרת לנו לראות מגמה מיידית. עבור דוברי שפת אם, גודל אוצר המילים גדל עם הגיל. הוא גדל במהירות עד גיל 25 בערך (התקופה של חינוך פורמלי), לאחר מכן גדל באיטיות ומגיע לרוויה סביב גיל 55. אין לנו הרבה נתונים לאחר גיל 55, ולכן איננו יכולים לקבוע מה קורה לאחר מכן. להלן הנתונים:
נעבור כעת ללומדים.
גודל אוצר המילים של לומד לא אמור להיות תלוי בגילו. הוא תלוי במשך הזמן שהאדם לומד, במידת המאמץ שהוא משקיע בלמידת השפה, האם הוא מוקף בדוברי שפת אם, או האם הוא משתמש בשפה החדשה בעבודתו. מה שאנו רואים בתרשים התיבות הוא מאפיין ייחודי של קבוצת המשתתפים שלנו. כלומר, ניתן לראות שתי קבוצות של משתתפים. הקבוצה הראשונה, שהיא הרוב, משתרעת על פני כל טווח הגילים ויש לה אוצר מילים קטן יותר. משתתפים אלה דומיננטיים בגילאים מתחת ל-40, ובממוצע יש להם אוצר מילים של 2,400 מילים. הקבוצה השנייה מתחילה להיות דומיננטית בגילאים מעל 40, ויש לה אוצר מילים גדול בהרבה. זו הסיבה שבתרשים רואים שינוי דרמטי בגודל אוצר המילים סביב גיל 40. ראינו כבר יתר של משתתפים בגילאי 40 ומעלה בתרשים הגילים, שהיה סימן לאותה קבוצה של משתתפים.
למרבה הצער, לא. בלתי אפשרי להשוות בין תוצאות של שני מבחנים שונים לאוצר מילים. ראשית, כל מבחן משתמש במתודולוגיות שונות, ולכן הם מודדים היבטים שונים במעט של אוצר המילים. שנית, כל מבחן מגדיר בצורה שונה מה נחשב "מילה". לדוגמה, חלק מהמבחנים סופרים מילים נגזרות, ואחרים לא. שלישית, כל מבחן משתמש בהגדרה שונה למה פירושו "לדעת" מילה. לבסוף, לא כל המבחנים באינטרנט שווים באיכותם. רק חלק קטן מהמבחנים המקוונים מבוססים על שיטות מדעיות מחמירות.
השוואת גודלי אוצר מילים בין שפות היא כמעט בלתי אפשרית.
לפי האקדמיה ללשון העברית, יש כיום כ-80,000 מילים בשפה העברית, ומספר זה ממשיך לגדול.
עודכן לאחרונה: 25 בינואר 2025