Słownictwo bierne to liczba słów, które respondent rozumie. Jego dokładne policzenie jest prawie niemożliwe. Aby to zrobić, musielibyśmy wziąć grubszy słownik i zaznaczyć wszystkie słowa, które respondent zna, co stanowi tysiące lub nawet dziesiątki tysięcy słów. Na szczęście, problem ten może zostać rozwiązany, jeśli wykorzystamy dobrze znane cechy statystyczne słownictwa, aparat matematyczny Item Response Theory (IRT) i jej nadbudowę Computerized Adaptive Testing (CAT).
Rzeczywiście, jeśli respondent zna wiele złożonych, rzadkich słów, ma dobry zasób słownictwa i prawdopodobnie zna również proste słowa. Odwrotna sytuacja jest również prawdziwa. Jeśli respondent jest zdezorientowany co do prostych, często używanych słów - ma mały zasób słownictwa, nie ma sensu pytać go o złożone słowa. Oznacza to, że musimy zrozumieć złożoność słów, które zaczynają sprawiać problemy respondentowi (na przykład, z 10 słów o tej samej złożoności, respondent zna tylko połowę z nich). Następnie możemy w uproszczeniu założyć, że respondent zna prostsze słowa, ale nie te trudniejsze. Liczba tych prostszych słów to słownictwo.
Nasz test działa w następujący sposób. Respondent otrzymuje pierwsze słowo testowe i zaznacza je jako znane lub nieznane. Następnie algorytm testu szacuje zasób słownictwa respondenta. Wynik jest wysoki, jeśli słowo testowe jest znane, a niski, jeśli nie jest. Dokładność takiego oszacowania jest oczywiście bardzo niska. Następnie respondent otrzymuje drugie słowo testowe. Będzie ono trudniejsze, jeśli respondent zaznaczył pierwsze słowo jako znajome, lub łatwiejsze, jeśli pierwsze słowo było nieznane. Respondent ponownie zaznacza je jako znane lub nieznane. Algorytm ponownie dokonuje oszacowania słownictwa, ale w odniesieniu do dwóch słów testowych. Oszacowanie staje się nieco dokładniejsze. Algorytm wybiera trzecie słowo testowe, które z grubsza odpowiada słownictwu respondenta, i test jest kontynuowany. Test kończy się, gdy dokładność oszacowania jest wystarczająco wysoka.
W ten sposób test jest adaptacyjny - każdy respondent otrzymuje różne słowa, które w przybliżeniu pasują do jego słownictwa. Dzięki temu w teście mogą brać udział zarówno osoby uczące się języka od podstaw, jak i rodzimi użytkownicy języka.
Słownictwo częstotliwościowe
Pojawia się naturalne pytanie - jak określić złożoność słów? Zwykle robi się to, biorąc bardzo duży zestaw różnych tekstów i obliczając, jak często występuje w nich każde słowo. Proste i powszechnie używane słowa występują często. Złożone i rzadko używane słowa są rzadkie. Użyliśmy korpusu opartego na usłudze Sketch Engine.
Ile jest słów w języku polskim?
Określenie dokładnej liczby słów w jakimkolwiek języku jest bardzo trudne, ponieważ szacunki silnie zależą od tego, co jest uważane za słowo niezależne, a co za pochodne. Korzystamy ze Słownika języka polskiego PWN, który zawiera 140 000 słów.
Ochrona przed niechlujnym podawaniem
Aby rozpoznać przypadki niechlujnego zdawania, wprowadziliśmy do testu dwa etapy ochrony. Pierwszym etapem obrony są słowa pułapki. Słowa te brzmią jak prawdziwe, ale nic nie znaczą. Nie ma ich w żadnym słowniku, nawet wyszukiwarki nie znajdują ich w Internecie. Drugim etapem obrony jest prośba o wyjaśnienie znaczenia niektórych słów, które respondent zaznaczył jako znajome. Jednocześnie proponuje mu się cztery opcje do wyboru, z których tylko jedna jest poprawna. Na koniec testu obliczany jest współczynnik uwagi. W tym celu stosuje się prosty wzór (x+y)/(ax+ay), gdzie x to liczba słów-pułapek, których respondent nie zaznaczył jako znanych (tj. "nie dał się złapać"), ax to pełna liczba słów-pułapek w teście, y to liczba słów, których znaczenie respondent określił poprawnie, ay to pełna liczba słów, których znaczenie należało określić. Jeśli respondent nie zaznaczył żadnego słowa pułapki jako znanego i poprawnie wyjaśnił znaczenie wszystkich słów testowych - współczynnik uważności będzie równy 100%.