Тест словарного запаса: блог

Тест словарного запаса


Переезд

18 сентября, 2017

Сегодня сайт переехал на новый хостинг (Google Cloud Platform). Перебоев в работе должно стать меньше. Также, сайт теперь должен лучше справляться с наплывами посетителей.

Пресса

26 мая, 2016

О тесте и результатах написала газета "Вечерняя Москва". Вот pdf всего выпуска (заметка на стр. 7).

Новый опросник №4

10 апреля, 2016

Обновился опросник, который предлагается заполнить после теста. Пробуем понять, как знание иностранных языков влияет на словарный запас.

Новый опросник №3

21 февраля, 2016

Обновился опросник, который предлагается заполнить после теста. Результаты первых двух опросников совсем скоро будут опубликованы.

Первые результаты

3 августа, 2014

Встречайте — первые статистические данные по словарному запасу носителей русского языка. Обработаны результаты более 150 тысяч респондентов.

Больше статистики, хорошей и разной

22 июля, 2014

Исследования словарного запаса — потенциальный клондайк не только для филологов, лингвистов и преподавателей русского языка, но и для социологов. Сколько всего интересного можно узнать! Новая анкета, которую предлагается заполнить после прохождения теста, позволит выявить влияние наших привычек — чтения книг, общения, зависания в интернете и просмотра телевизора — на словарный запас.

Новый алгоритм определения словарного запаса

22 июля, 2014

Сегодня в глубинах сайта произошло очень серьёзное изменение, совершенно незаметное снаружи — изменился алгоритм определения словарного запаса. Новый алгоритм уникален — ни один из известных мне тестов его не использует. Суть его в следующем. Расположим все слова в порядке уменьшения их частотности (от простых до самых редких). Каждому слову тогда будет соответствовать его порядковый номер, или ранг. Словарный запас человека можно описать функцией вероятности "знания" слова в зависимости от его ранга. Вид такой функции следует из общих соображений: для простых слов — единица, для сложных — ноль, посредине — плавный спад. Каждый вопрос в тесте — измерение этой функции. Если есть достаточное количество измерений, их можно аппроксимировать этой функцией и оценить ее параметры (для каждого тестируемого они, очевидно, будут отличаться). Чтобы оценить словарный запас, полученную функцию нужно проинтегрировать.

Новый алгоритм привел к следующим улучшениям. Во-первых, тестовые слова теперь значительно реже повторяются (то есть при многократном прохождении теста вероятность получить два раза одно и тоже слово ниже). Во-вторых, повторяемость оценки словарного запаса, наоборот, увеличилась — стандартное отклонение оценки упало примерно с 6% до 4%.

Сбор статистики и слова-ловушки

1 июня, 2014

Как быстро растет словарный запас у детей? Останавливается ли рост когда-нибудь? Насколько сильно образование влияет на словарный запас? Ответить на эти вопросы позволит статистика, которую собирает этот сайт. Для этого после прохождения теста теперь предлагается заполнить небольшую форму, указав свой родной язык, возраст и уровень образования.

Чтобы результаты исследования были более надежными, нужно выявлять людей, проходящих тест не совсем внимательно или не до конца честно. Для этого в тест были добавлены слова-ловушки, которых нет в русском языке. Если человек отмечает такое слово, как знакомое, его результат не будет учтен в итоговом исследовании.

Болезни роста

16 мая, 2014

Сегодня произошло то, чего я совершенно не ожидал — вместо обычных 20-30 человек в день тест прошли около 80000 человек! Объем полученных данных колоссален, и совсем скоро я представлю первые результаты. К сожалению, хостинг не был рассчитан на такой поток посетителей, поэтому целый день сайт находился в состоянии шока. Бригада трудолюбивых гномов всю ночь строила новый дата-центр, куда сайт сегодня успешно переехал. Я надеюсь, что мощностей теперь хватит на всех, кто хочет пройти тест.

Словарные гнёзда

12 мая, 2014

Если вы знаете слово "решительный", то, очень вероятно, вы также поймете слова "решительность" и "решительно". Можно сказать, что эти слова образуют "словарное гнездо". В общем случае, в гнездо входят слова, которые можно образовать друг от друга по простым правилам с помощью приставок и суффиксов, и при этом не происходит неожиданного изменения смысла слов. Другими словами, зная любое слово из гнезда и обладая некоторым лингвистическим чутьем, можно догадаться о значении всех остальных слов этого гнезда.

Сегодня частотный словарь, который используется в тесте, был перегруппирован с учетом принципа словарных гнезд. Это позволит определять словарный запас точнее, так как теперь низкочастотные производные автоматически включаются в оценку, если основное (наиболее высокочастотное) слово из соответствующего гнезда было помечено как знакомое.

Также, был расширен (до 1200) список тестовых слов. Благодаря такому внушительному числу тест можно проходить много раз, и тестовые слова будут повторяться довольно редко.

На старт!

13 апреля, 2014

Итак, сайт работает, тест дает оценку словарного запаса. Впереди еще много изменений — будет постепенно улучшаться алгоритм оценки, расти количество тестовых слов, однако главное уже позади. Самое время ответить на вопрос — для чего нужен тест и зачем он был сделан?

Во-первых, это первый тест на словарный запас русского языка с адекватной научно-обоснованной методикой. Для английского и других языков существует несколько подобных тестов, для русского — ни одного. Это как-то неправильно. Словарный запас всегда интересует тех, кто учит язык; скучающие на работе носители языка тоже не прочь помериться словарным запасом с коллегой. И тем, и другим поможет этот сайт.

Во-вторых, мне не известно ни одного серьезного исследования по оценке среднего словарного запаса носителя русского языка. Чтобы провести такое исследование, нужно две вещи — определиться с методикой и набрать большую статистику. Онлайн-тест — это лучший способ собрать такую статистику. На каждого посетителя заводится свой файл, куда записываются все вопросы (тестовые слова) и полученные ответы, а также паспортные данные. Даже если алгоритм подсчета изменится (а это вполне может произойти), сохраненные вопросы-ответы позволят пересчитать оценку словарного запаса для каждого испытуемого, и, соответственно, уточнить оценку среднего словарного запаса носителя языка.

Оставайтесь на связи!