Система интеллектуального поиска государственных данных

Описание

Данная система позволяет пользователю на основе его запроса — найти необходимые государственные данные.

Решение делится на две принципиальные части:

  1. Интерфейс для государственного служащего
  2. Расширенный интерфейс для аналитика

В интерфейсе для государственного служащего есть поисковая строка в которую он должен ввести свой запрос. Чтобы ему было проще, при вводе всплывают различные варианты ключевых слов. После ввода уже первого слова, на экране появится карта релевантности таблиц запросу, а также общая таблица соответствия для экспорта. Чем выше процент релевантности тем крупнее будет отображена соответствующая таблица на карте. При дальнейшем вводе ключевых слов в запросе, релевантность будет пересчитываться с этим учетом. После того, как результат устроит пользователя он может сохранить получившийся набор в виде таблицы, для дальнейшей работы. Также можно ограничить набор таблиц, участвующих в поиске, с помощью фильтрации по типу или держателю данных.

Интерфейс для аналитика включает в себя дополнительные инструменты для работы с имеющимися данными.

Для решения была обучена последовательная нейросеть, предсказывающая вес каждого каждого ключевого слова в описании таблицы.

Исходными данными для системы являются таблицы с описанием от различных ведомств. Описание разбивается на леммы, которые в дальнейшем используются нейросетью как ключевые слова. Для улучшения работы системы, держатели данных, помимо описания таблицы, также могут дополнительно заполнять мета-слова, которые будут также использованы как ключевые слова (это опциональная возможность).

Для данного решения в качестве тестового набора данных использовались мета-данные из портала открытых данных России — https://data.gov.ru/.

Уникальностью данного решения является то, что система может работать с обычным человеческим описанием таблицы и какая-то особенная маркировка на стороне держателей данных не требуется. А также, за счет постоянного обучения нейросети добавление новых данных с каждым новым набором будет проще и точнее.

О проекте

Данный проект разрабатывался в рамках финала онлайн-хакатона «Цифровой прорыв 2020».

Наша команда

  • Екатерина Проньшина — капитан
  • Александр Хозяинов — разработчик
  • Алексей Федорищев — специалист по BI
  • Сергей Стрельников — разработчик
  • Сергей Ронжин — дизайнер

Ссылка на гитхаб

https://github.com/q-stat-ru/lod2020_final