Arenadata Catalog
ADC это масштабируемая отказоустойчивая система, предназначенная для удобного и простого формирования базы знаний о ландшафте данных и управления ей. Система реализована на базе технологии opensource решения Open-Metadata. Значимыми преимуществами Arenadata Catalog являются расширенный функционал Бизнес-глоссария, а также интеграция с другими компонентами платформы Arenadata EDP.
Бизнес-глоссарий
Бизнес-глоссарий — это словарь терминов, связанных с цифровыми данными, которыми оперирует организация, описанный на понятном языке.

Применение Бизнес-глоссария гарантирует, что сотрудники организации говорят на одном языке, используют продуманные и точно документированные термины, устраняя двусмысленность в бизнес-терминологии.

Обзор бизнес-глоссария

Иерархия бизнес-глоссария
Функционал бизнес-глоссария предусматривает ведение нескольких глоссариев для разных подразделений компании или для любых других нужд.

Глоссарий наполняется сущностью «Предметная область». Предметная область не является частью организационной структуры и может использоваться гибко по любым назначениям. Реализовано ведение родительских и дочерних предметных областей.

Основным элементом глоссария являются термины. Термины имеют различный набор атрибутов, в зависимости от типа термина. Создание термина возможно как в ручном режиме в интерфейсе системы, так и массовым импортом, используя шаблон для загрузки.

Карточка термина глоссария

Кастомизация терминов
Arenadata Catalog предлагает более 10 предопределенных типов терминов, которые могут закрыть большинство задач. Данные типы терминов имеют базовый неизменяемый набор атрибут, который можно расширять по необходимости.

Для уникальных требований реализован функционал по созданию пользовательских типов терминов с полным управлением набором атрибутов. У кастомных атрибутов можно настроить необходимый тип данных, регулярные выражения и другие ограничения на вводимые значения.
Логические объекты глоссария
Логические объекты глоссария — это метод группировки существующих физических объектов каталога данных и других логических объектов. В ADC существуют два типа логических объектов: Витрина данных, ИТ-система.

Основным предназначением является представление информации обо всех источниках данных, используемых для отчета или дашборда в рамках предметной области. Логические объекты позволяют устанавливать связи не только с источниками данных, но и с объектами бизнес-глоссария.
В дальнейших релизах будет реализован функционал создания пользовательских типов логических объектов.
Рабочие процессы и запросы на изменения
Для корректного и согласованного управления данными бизнес-глоссария в ADC предусмотрено использование рабочих процессов и ЗнИ.

Пользователь с ролью Администратор осуществляет настройку конфигураций рабочих процессов. Согласно этой настройке автоматически создаются задачи на ответственного пользователя для отклонения/согласования изменений данных.

В рабочем процессе настраиваются условия для его запуска: глоссарий, предметная область, тип объекта глоссария, тип события. Для каждого шага рабочего процесса указывается ответственные роли и пользователи.

Управление конфигурациями рабочих процессов

Назначенному в конфигурации рабочего процесса пользователю приходит уведомление о создании задачи на утверждение действий в глоссарии. Задачи отображаются в личном кабинете, пользователь при выполнении задачи может согласовать изменения, отклонить или делегировать. Опционально доступно дополнение к решению в виде комментария.

Задача пользователя на утверждение термина

Управление метаданными
Способы подключения и дополнительные возможности по управлению источниками данных.
Интеграция источников метаданных
Поддержка широкого набора баз данных, систем отчетности и дашбордов, служб обмена сообщениями и конвейерных служб.

ADC обеспечивает интеграцию пользовательского интерфейса с Apache Airflow в качестве механизма рабочих процессов для выполнения загрузки метаданных, профилирования и происхождения данных, контроля качества данных и других задач автоматизации.

Возможно настроить и добавить расписание загрузки метаданных для автоматического запуска заданий непосредственно из пользовательского интерфейса Arenadata Catalog.
Актуальный перечень коннекторов Arenadata Catalog можно изучить на нашем сайте.
Уведомления о событиях
Возможность настройки уведомлений об изменениях в ADC. Получайте только полезные оповещения, Arenadata Catalog предлагает выполнить пользовательскую настройку уведомлений с указанием триггера (тип сущности, тип событий) и способа получения уведомления. Доступны 4 способа получения оповещений: Email, MS Teams, Slack, Webhook.

Интерфейс Webhook позволяет создавать приложения, которые получают все изменения данных, происходящие в вашей организации, через API
Интеграция DBT
Модель DBT предоставляет логику преобразования, которая создает таблицу из необработанных данных. ADC включает интеграцию с DBT, позволяя видеть, какие модели используются для создания таблиц и их происхождение.
Дополнительные атрибуты для источников данных
Добавление дополнительных свойств для любого источника данных. Доступны типы атрибута: integer, string, markdown.

Добавление дополнительного атрибута для источника данных

Анализ метаданных
Arenadata Catalog предлагает широкий набор инструментов для комфортного обзора и поиска необходимых данных. Функционал профилирования, отслеживания происхождения и возможность создания пользовательских проверок позволит уверенно оценить качество данных компании.
Обзор данных
ADC позволяет находить данные различными способами, включая поиск по ключевым словам, ассоциации данных (например, часто объединяемые таблицы, происхождение) и сложных запросов. Используя открытые метаданные, возможно выполнять поиск по таблицам, топикам, информационным панелям, конвейерам и службам. ADC поддерживает подробные метаданные для ресурсов и их компонентов (например, столбцов, диаграмм), включая поддержку сложных типов данных, таких как массивы и структуры.

Обзор источников данных

Поиск по ключевым словам
Поиск ресурсов на основе имени, описания, метаданных компонента (например, для столбцов, диаграмм).

Поиск по ключевым словам

Обнаружение данных с помощью ассоциации
Поиск ресурсов с помощью информации о часто присоединяемых таблицах и столбцах, полученной при профилировании данных. Также возможно находить ресурсы с помощью связей, основанных на информации о происхождении данных.
Расширенный поиск
Возможность использования строгих критериев и логических операторов для поиска ресурсов. Дополняется функционалом фасетного поиска- возможность установки нескольких фильтров с постепенным сужением количества результатов поиска.

Дополнительные условия поиска

Добавление описательных метаданных
Добавление описания и тегов к таблицам, столбцам и другим ресурсам.
Arenadata Catalog индексирует ресурсы на основе описаний, тегов, имен и других метаданных, позволяя находить данные используя все характеристики.

С помощью тегов можно связать объекты каталога данных с терминами бизнес-глоссария для получения полной информации о метаданных.

Также возможно добавление описания и тегов к вложенным полям в сложных типах данных, таких как массивы и структуры.
Метаданные удаленных объектов
Ресурсы ADC содержат множество пользовательских метаданных, таких как описания, теги, права владения, уровни. Также есть метаданные, получаемые ADC с помощью профилировщика данных, данных об использовании, происхождении, результатов тестов. Когда объект удаляется, вся эта богатая информация теряется, и воссоздать ее нелегко. Arenadata Catalog поддерживает мягкое удаление в пользовательском интерфейсе и мягкое и полное удаление в API, позволяя выбирать, следует ли сохранять метаданные для удаленных объектов.

При поиске метаданных можно установить фильтр для отображения результата из удаленных ресурсов.
Происхождение данных
Прослеживание происхождения данных по таблицам, конвейерам и информационным панелям для понимания взаимоотношений между объектами данных. Граф происхождения данных создается автоматически из метаданных и/или описывается стюардом в интерфейсе.

Редактор происхождения данных ADC предоставляет интерфейс перетаскивания линий сопряжения данных без использования программного кода. Возможно добавлять таблицы, конвейеры и информационные панели.

Управление происхождением источников данных

Профилирование и качество данных
Качество данных подразумевает собой целесообразность их использования. Хранение ошибочных информации не просто неэффективно, а несет за собой ряд рисков, например, ошибочный расчет показателей по ведению бизнеса.
Пользовательские тесты источников данных
Использование тестов для контроля полноты, свежести и точности данных.
Тесты качества данных построены на метриках таблицы, метриках колонки, например:

1. Соответствие значения регулярному выражению
2. Значение из справочника
3. Длина значения

Пользовательские тесты качества данных

Профилировщик данных
Профилировщик данных позволяет произвести сбор статистики использования таблиц за определенный период времени. Профили данных позволяют проверять наличие нулевых значений в ненулевых столбцах, наличие дубликатов в уникальном столбце и т. д.

Arenadata Catalog представляет возможность для аналитиков просмотреть небольшой фрагмент данных из профиля таблиц. С помощью примера данных можно лучше понять состояние данных, их структуру и способы работы с ними.
Отображает распределение данных по столбцам с помощью описательной статистики.

Прфилирование и пример данных из таблицы

Дашборд Arenadata Catalog
Общий обзор источников данных, подключенных к Arenadata Catalog, поможет использовать каталог данных более эффективно. Доступна информация о просмотрах метаданных пользователями и активности пользователей, добавление пользовательских KPI (ключевые показатели эффективности), которые накладываются на источники данных. Сводная статистика по количество источников в зависимости от их типа и характеристик.

Для контроля наполнения ADC в дашборде отображаются диаграммы, демонстрирующие информацию о проценте источников данных с заполненным описанием и указанным владельцем.

Дашборд Arenadata Catalog

Совместная работа
Описание возможностей Arenadata Catalog помогающих сделать командную работу в системе более эффективной.
Лента активности
На начальном экране ADC отображается лента событий, которая позволяет просматривать сводку событий изменения объектов. В этой ленте отображаются все изменения в объектах каталога, отсортированные по последним изменениям. Объекты в ленте активности доступны для просмотра, включая таблицы, информационные панели, названия команд и т. д. Существующие каналы активности для просмотра:
  • Всех данных
  • Данных, владельцем которых вы являетесь
  • Данных, за которыми вы следите
Вы можете настроить свою ленту активности: исключить или добавить события, происходящие с определенными типами объектов.

Лента активности и задач

Уровень критичности
Теги «Уровень» позволяют аннотировать ресурсы и отражать уровень важности данных для бизнеса. Пользовательский интерфейс «Обзор» позволяет фильтровать ресурсы по степени критичности.
Также доступно создание пользовательских категорий тегов и тегов, как для группировки данных по какому-либо признаку, так и для индексации.
Управление доступом
Arenadata Catalog поддерживает политики управления доступом на основе ролей (RBAC) для операций с метаданными. Каждому пользователю может быть назначена одна или несколько ролей. Каждая роль имеет определенную политику. Политики состоят из набора правил. Правила разрешают/запрещают доступ к операциям с метаданными, таким как обновление описаний, тегов, владельцев и происхождения.

ADC поддерживает кастомизацию ролей и политик, возможность создавать дополнительные настройки доступа для уникальных потребностей.
Версионность сущностей
Arenadata Catalog фиксирует изменения в технических метаданных (например, схемах таблиц), бизнес-метаданных (например, тегах, владельцах, описаниях), в сущностях глоссария (например, терминах, типах терминов) в виде новых версий объекта. Изменения метаданных генерируют события, указывающие, какая сущность изменилась, кто ее изменил, как и когда она изменилась.

События возможно использовать для интеграции метаданных в другие инструменты или запуска действий.
Комментарии и объявления
Объявления служат оповещением пользователей о важных событиях, которые могут повлиять на их работу или работу определенных сервисов. Объявления задаются любым пользователем с правами стюарда, указывается период события и описание. Управлять объявлениями можно в карточке объекта метаданных.

Комментарии можно оставлять к любым объектам ADC. Уточнить информацию, задать вопрос, поделиться мнением или обратить внимание конкретного пользователя с помощью упоминания, теперь можно в карточке конкретного объекта.
Владельцы данных и стюарды
Указание Владельца сущности каталога данных, как точки контакта, для получения помощи по любым вопросам.

Для артефактов бизнес-глоссария возможно указание не только владельца, а также стюарда данных.

Стюард данных — это пользователь, который отвечает за ежедневное управление контентом, обработку запросов и выполнение большинства действий рабочего процесса.
Архитектура
Архитектура ADC основана на следующих компонентах:

  • Nginx. (Опционально) Обеспечивает доступность ADC (например, если подключается много пользователей), распределяя нагрузку перед веб-интерфейсом. Главное назначение Nginx в архитектуре ADC — выступать в роли прокси, перенаправляющего запросы от пользователя в веб-интерфейс.
  • Сервер приложения Http|API ADC.
  • Принимает запросы пользователя, перенаправленные от Nginx.
  • Служебная база данных PostgreSQL. Используется для хранения метаданных, и других данных ADC.
  • BPM-платформа Camunda 7.
  • Используется для реализации управления рабочими процессами (Workflow).
  • Arenadata IF & Airflow.
  • Сервисы для захвата метаданных.
  • Elasticsearch | Arenadata LS.
  • Поисковые системы Arenadata Catalog.

Архитектура Arenadata Catalog