Мы всегда очень чётко отслеживаем все процессы, связанные с взаимодействием будущих участников мероприятия с нашей платформой для онлайн-мероприятий. Это включает в себя не только активности непосредственно в дни ивента, но и всё, что происходит на этапе подготовки. И сегодня нам хотелось бы поговорить о регистрации участников. «А что тут сложного и сверхъестественного?» – скажете вы. Дело в том, что постоянный анализ и сбор данных показал следующее: примерно на каждом первом онлайн-мероприятии мы сталкиваемся с так называемыми дублями. То есть один и тот же человек по ошибке, забывчивости или даже из хитрого умысла регистрируется несколько раз. Количество дублей на некоторых мероприятиях может достигать 20-30%.
Казалось бы, что может быть проще: алгоритмов проверки "похожих" строк существует множество. Но, во-первых, участник может - намеренно или случайно – исказить свои данные (латиница-кириллица, полное-неполное имя, "русификация" тюркских имён, "латинизация" славянских, в конце концов, добавление прозвищ), а во-вторых, на мероприятии с числом регистрантов более тысячи неизбежно появление полных однофамильцев. И, если организаторы не собирают с них дополнительные регистрационные данные (город, место работы, специальность), есть риск записать в "дубли" подлинного регистранта.
Некоторые забавные примеры заполнения регистрационных данных поистине способны поднять боевой дух проектной команды! Ведь люди склонны не только случайно поменять местами фамилию, имя и отчество или сделать ошибку в электронном адресе. Бывали удивительные истории, придумать которые нарочно вообще вряд ли возможно: когда вычислять, чьим дублем является «Александровна Здравствуйте Александровна» (а может быть, это всё же уникальный регистрант?) помогала только детальная проверка конкретных действий на платформе онлайн мероприятий.
Опережая новую порцию вопросов, скажем: дублирование профилей не только позволяет некоторым персонам играть в обход правил (например, получить более высокий балл по тестированию, пройдя его несколько раз), но и существенно влияет на качество статистики и данных по результатам проекта.
Вне зависимости от того, регистрируем мы участников сами или получаем от организаторов или партнёров готовую базу регистраций, мы отдаём заказчику вычищенную статистику. Понимая, что не все этапы опознания и "чистки" дублирующихся данных можно автоматизировать, мы используем ручную проверку для нескольких процентов базы. Это не значит, что мы не проверяем остальное множество записей: как раз наоборот. Другие случаи слишком просты, и уникальность либо дублирование в данной ситуации легко распознаёт и робот.
Наш робот учится, алгоритм постоянно совершенствуется. Пополняется база "регистрационных хитростей", словари различных написаний имён, связей между полями. Важную роль играет и визуализация "подозрительных" записей: кандидаты на ручную проверку подсвечиваются различными цветами – так, чтобы оператор тратил минимум времени на принятие решения по данной паре-тройке (а иногда и дюжине!) схожих регистраций.