Тест словникового запасу: методика

Завдання тесту — визначити ваш пасивний словниковий запас (тобто кількість слів, які ви впізнаєте при читанні та на слух). Єдиний спосіб зробити це точно — взяти словник якомога товще (тисяч на сто слів), відзначити всі слова, які ви знаєте, і порахувати їх. Навряд чи знайдеться бажаючий піти на подібне випробування. На щастя, сучасна теорія тестів (IRT, Item Response Theory) пропонує альтернативний підхід. Відповідно до цього підходу, словниковий запас можна вважати певною здатністю, яка може бути виражена числом і виміряна. Вимірювання — це серія тестових слів, які респондент зазначає як знайомі або незнайомі. Кожне тестове слово має свою складність (наприклад, «кішка» — просте, «амбівалентність» — складне), також виражену числами. Знаючи складності тестових слів і відповіді респондента, можна розрахувати його здатність, тобто словниковий запас.

Для того, щоб зробити тест точним, але максимально коротким, була використана надбудова над сучасною теорією тестів — CAT (Computerized Adaptive Testing). За цією методикою, здатність респондента оцінюється після кожного питання, на яке він відповідає. Наступне питання підбирається виходячи з цієї оцінки — якщо респондент зазначає складне слово як знайоме, швидше за все, у нього великий словниковий запас, тому у наступному питанні він отримує слово з високою складністю, та навпаки. Таким чином, кожне тестове слово приносить в тест максимум інформації. З кожним питанням оцінка словникового запасу стає все точніше; тест припиняється, коли вона досягає заданого порогу.

Частотний словник

Для того щоб отримати оцінку словникового запасу не в абстрактних «папугах», а в словах, потрібно також висловити складність тестових слів в словах. Це можна зробити, якщо відсортувати всі слова української мови за складністю, тоді порядковий номер тестового слова в цьому словнику і буде його складністю. Такі словники називаються частотними. Ми використовували частотний словник Володимира Влада, який містить 98931 слів.

Що вважалося словом?

При визначенні словникового запасу завжди постає питання — що вважати словом? Чи вважати слова «білий», «білити» і «відбілювач» різними (адже всі вони абсолютно точно мають різне значення) або все ж одним (адже знаючи слово «білий» і маючи деякий лінгвістичне чуття, про сенс інших слів можна здогадатися)? Чи включати до словникового запасу тільки базові слова, або їх похідні теж? Загальноприйнятої відповіді на це питання немає, тому ми вирішили враховувати всі слова, включаючи похідні форми.

Захист від недбалого проходження

Тест будується на припущенні, що респондент чесно і уважно відзначає знайомі слова. На жаль, це не завжди так. Щоб розпізнавати випадки недбалого проходження, ми упровадили у тест дві ступені захисту. Перша — це слова-пастки. Такі слова звучать, як справжні, але нічого не означають. Їх немає в жодному словнику української мови; більш того, навіть пошукові системи не знаходять їх в інтернеті. Друга — це прохання уточнити значення деяких слів, які респондент зазначив як знайомі. При цьому на вибір йому пропонується чотири варіанти, з яких тільки один правильний. В кінці тесту розраховується коефіцієнт уважності. Для цього використовується проста формула (x+y)/(ax+ay), де x — число слів-пасток, які респондент не відзначив як знайомі (тобто «не попався»), ax — повне число слів-пасток у тесті, y — число слів, значення яких респондент уточнив правильно, ay — повне число слів, значення яких потрібно було уточнити.

Якщо коефіцієнт уважності дорівнює 100% — результати тесту зберігаються в базі даних для подальших досліджень. Якщо менше — ми не вважаємо їх достовірними і не використовуємо в дослідженнях. При цьому оцінка словникового запасу, яку отримує респондент, ніяк не модифікується, але видається словесне попередження про недостовірність результатів.

Технології

Тест сконструйований по методикам Item Response Theory (однопараметрична модель) та Computerized Adaptive Testing. Для оцінювання здатності респондента на кожному кроці тесту використовується баєсова оцінка, вона ж Expected a Posteriori. Для розрахунку складності тестових слів використовувався метод Joint Maximum Likelihood. Бекенд сайту написаний на Python з використанням фреймворка Flask. Фронтенд написаний на Vanilla JS i Bulma.

Last but not least - тест не містить підсилювачів смаку, консервантів та ГМО.

Методика

Частотний словник

Що вважалося словом?

Захист від недбалого проходження

Технології