Б/лог

Język polski

Test jest już dostępny w języku polskim.

Illustrations

A big change in design. Illustrations with an joyful, elderly professor now guide a user through the test.

Hebrew

The test is now available in Hebrew.

Татарский язык

Совместно с Илдар Әюпов и Татарским Национальным Корпусом Туган тел разработан тест на словарный запас татарского языка.

Deutsche Version

Der Test funktioniert jetzt für die deutsche Sprache.

Новая статья

Вышла большая статья с данными и анализом того, как различные факторы биографии и образ жизни влияют на словарный запас. Опубликовано в журнале Вестник общественного мнения, который издается Аналитическим Центром Юрия Левады.

Редизайн

Полный редизайн сайта. Вместо Bootstrap теперь Bulma (чтобы выглядеть чуть более уникально), десктопная версия сайта наконец выглядит как десктопная, выбор языка теперь может делаться дропбоксом прямо в шапке сайта, множество мелких улучшений here and there. Появился логотип сайта. Вместо виджета от Яндекса, расшаривание теперь делается обычными ссылками (для пользователей это экономия нескольких реквестов). При расшаривании в Фейсбук и ВК результат в виде картинки теперь постится туда.

Українська версія

Тест на словниковий запас тепер працює для української мови.

English version

The test now works for English. Since it's adaptive, it's good for both native and non-native speakers. The results shown at the end of the test are very preliminary so far, but with more people taking the test they will become more robust.

Полная смена алгоритма и дизайна

Встречайте — самое большое измение теста с момента его создания! Тест полностью переделан, теперь он работает по методикам IRT (Item Response Theory) и CAT (Computerized Adaptive Testing). Это позволило сделать тест по настоящему адаптивным — каждый вопрос задается исходя из оценки словарного запаса, сделанной по результатам ответов на все предыдущие вопросы. Это позволяет максимизировать информацию, которую тест получает от каждого ответа респондента. Вместо 120 вопросов старой версии, новый тест позволяет обойтись всего лишь 40, при этом точность осталась на прежнем уровне (или даже выросла). К тому же, введен новый тип вопросов — с множественными вариантами ответа. Такие вопросы помогают контролировать аккуратность прохождения теста (вдобавок к словам-ловушкам). Они также должны снижать тенденцию к переоценке словарного запаса, свойственную тестам с вопросами типа "знаю/не знаю".

Код сайта переписан с нуля сообразно методологии Single Page Application. Теперь вся работа делается на клиенте, сервер только собирает, хранит и обрабатывает результаты.

Переезд

Сегодня сайт переехал на новый хостинг (Google Cloud Platform). Перебоев в работе должно стать меньше. Также, сайт теперь должен лучше справляться с наплывами посетителей.

Пресса

О тесте и результатах написала газета "Вечерняя Москва". Вот pdf всего выпуска (заметка на стр. 7).

Новый опросник №4

Обновился опросник, который предлагается заполнить после теста. Пробуем понять, как знание иностранных языков влияет на словарный запас.

Новый опросник №3

Обновился опросник, который предлагается заполнить после теста. Результаты первых двух опросников совсем скоро будут опубликованы.

Первая статья

Для журнала "Социо- и психолингвистические исследования" подготовлена большая статья про методику, валидацию и исследование точности теста

Первые результаты

Встречайте — первые статистические данные по словарному запасу носителей русского языка. Обработаны результаты более 150 тысяч респондентов.

Больше статистики, хорошей и разной

Исследования словарного запаса — потенциальный клондайк не только для филологов, лингвистов и преподавателей русского языка, но и для социологов. Сколько всего интересного можно узнать! Новая анкета, которую предлагается заполнить после прохождения теста, позволит выявить влияние наших привычек — чтения книг, общения, зависания в интернете и просмотра телевизора — на словарный запас.

Новый алгоритм определения словарного запаса

Сегодня в глубинах сайта произошло очень серьёзное изменение, совершенно незаметное снаружи — изменился алгоритм определения словарного запаса. Новый алгоритм уникален — ни один из известных мне тестов его не использует. Суть его в следующем. Расположим все слова в порядке уменьшения их частотности (от простых до самых редких). Каждому слову тогда будет соответствовать его порядковый номер, или ранг. Словарный запас человека можно описать функцией вероятности "знания" слова в зависимости от его ранга. Вид такой функции следует из общих соображений: для простых слов — единица, для сложных — ноль, посредине — плавный спад. Каждый вопрос в тесте — измерение этой функции. Если есть достаточное количество измерений, их можно аппроксимировать этой функцией и оценить ее параметры (для каждого тестируемого они, очевидно, будут отличаться). Чтобы оценить словарный запас, полученную функцию нужно проинтегрировать.

Новый алгоритм привел к следующим улучшениям. Во-первых, тестовые слова теперь значительно реже повторяются (то есть при многократном прохождении теста вероятность получить два раза одно и тоже слово ниже). Во-вторых, повторяемость оценки словарного запаса, наоборот, увеличилась — стандартное отклонение оценки упало примерно с 6% до 4%.

Сбор статистики и слова-ловушки

Как быстро растет словарный запас у детей? Останавливается ли рост когда-нибудь? Насколько сильно образование влияет на словарный запас? Ответить на эти вопросы позволит статистика, которую собирает этот сайт. Для этого после прохождения теста теперь предлагается заполнить небольшую форму, указав свой родной язык, возраст и уровень образования.

Чтобы результаты исследования были более надежными, нужно выявлять людей, проходящих тест не совсем внимательно или не до конца честно. Для этого в тест были добавлены слова-ловушки, которых нет в русском языке. Если человек отмечает такое слово, как знакомое, его результат не будет учтен в итоговом исследовании.

Болезни роста

Сегодня произошло то, чего я совершенно не ожидал — вместо обычных 20-30 человек в день тест прошли около 80000 человек! Объем полученных данных колоссален, и совсем скоро я представлю первые результаты. К сожалению, хостинг не был рассчитан на такой поток посетителей, поэтому целый день сайт находился в состоянии шока. Бригада трудолюбивых гномов всю ночь строила новый дата-центр, куда сайт сегодня успешно переехал. Я надеюсь, что мощностей теперь хватит на всех, кто хочет пройти тест.

Словарные гнёзда

Если вы знаете слово "решительный", то, очень вероятно, вы также поймете слова "решительность" и "решительно". Можно сказать, что эти слова образуют "словарное гнездо". В общем случае, в гнездо входят слова, которые можно образовать друг от друга по простым правилам с помощью приставок и суффиксов, и при этом не происходит неожиданного изменения смысла слов. Другими словами, зная любое слово из гнезда и обладая некоторым лингвистическим чутьем, можно догадаться о значении всех остальных слов этого гнезда.

Сегодня частотный словарь, который используется в тесте, был перегруппирован с учетом принципа словарных гнезд. Это позволит определять словарный запас точнее, так как теперь низкочастотные производные автоматически включаются в оценку, если основное (наиболее высокочастотное) слово из соответствующего гнезда было помечено как знакомое.

Также, был расширен (до 1200) список тестовых слов. Благодаря такому внушительному числу тест можно проходить много раз, и тестовые слова будут повторяться довольно редко.

На старт!

Итак, сайт работает, тест дает оценку словарного запаса. Впереди еще много изменений — будет постепенно улучшаться алгоритм оценки, расти количество тестовых слов, однако главное уже позади. Самое время ответить на вопрос — для чего нужен тест и зачем он был сделан?

Во-первых, это первый тест на словарный запас русского языка с адекватной научно-обоснованной методикой. Для английского и других языков существует несколько подобных тестов, для русского — ни одного. Это как-то неправильно. Словарный запас всегда интересует тех, кто учит язык; скучающие на работе носители языка тоже не прочь помериться словарным запасом с коллегой. И тем, и другим поможет этот сайт.

Во-вторых, мне не известно ни одного серьезного исследования по оценке среднего словарного запаса носителя русского языка. Чтобы провести такое исследование, нужно две вещи — определиться с методикой и набрать большую статистику. Онлайн-тест — это лучший способ собрать такую статистику. На каждого посетителя заводится свой файл, куда записываются все вопросы (тестовые слова) и полученные ответы, а также паспортные данные. Даже если алгоритм подсчета изменится (а это вполне может произойти), сохраненные вопросы-ответы позволят пересчитать оценку словарного запаса для каждого испытуемого, и, соответственно, уточнить оценку среднего словарного запаса носителя языка.

Оставайтесь на связи!