Обзор каталога
Каталог данных единое хранилище метаданных о всех информационных активах организации. Arenadata Catalog позволяет не только обозревать метаданные, а также проводить проверки данных, отслеживать происхождение, запускать профилирование, устанавливать связи между объектами каталога и глоссарием и многое другое.

Чтобы открыть обзор каталога данных, достаточно кликнуть Обзор в хедере приложения.
В обзоре отображаются 5 вкладок, согласно 5 типам, поддерживаемых сервисов: Таблицы, Очереди сообщений, Дашборды, Конвейеры, ML модели. При переходе на одну из вкладок будет открыт список соответствующих источников.

В левом боковом меню предложены быстрые фильтры. Здесь вы можете отфильтровать перечень объектов по структуре сервисов или тегам. В правой части экрана отображается краткий обзор выбранного источника, чтобы перейти в подробный обзор, кликните по наименованию объекта данных.

Обзор каталога данных

Поиск по каталогу данных
ADC предоставляет широкие возможности поиска и фильтрации.
В центральной части хедера приложения расположен основной поиск по каталогу данных. В нем вы можете искать по наименованию и описанию сервиса, наименованию элементов схемы и их описанию. Для уточнения поиска можно использовать специальные символы.

Как использовать основной поиск

Быстрые фильтры по элементам объекта данных, владельцам тегам и источникам можно настроить над списком объектов.

Как использовать стандартные фильтры

Для усложненных запросов воспользуйтесь кнопкой Расширенный поиск, в ней возможен указать значение полей с выбранными условиями включения, исключения, четкого совпадения и т. д.

Как использовать расширенный поиск

Управление объектами данных
В карточке объекта данных отображается подробная информация об объекте. Для перехода в карточку необходимо кликнуть по Наименованию объекта, находясь в разделе Обзор.

Как открыть карточку объекта данных

Атрибуты объекта данных
Для каждого источника данных в Arenadata Catalog можно указать Владельца. Владелец- пользователь ответственный за управление объектом. На основе владельцев можно настраивать ролевую модель: запрещать или разрешать редактирование и просмотр сущностей.

Для изменения владельца объекта необходимо иметь определенные полномочия в системе. Чтобы назначить владельца необходимо перейти в карточку объекта и кликнуть под ее наименованием на иконку редактирования. После клика разворачивается поиск по пользователям и командам, где необходимо указать нужного владельца. Удалить или изменить владельца также можно в этом окне.

Как назначить владельца объекта данных

Объекту может быть назначен только один владелец.
В карточке можно указать описание объекта- поясняющую информацию для упрощение ориентирования пользователей. Также можно указать описание к элементам объекта. Например, к столбцам таблицы или диаграммам дашбордов. Для изменения описания кликните на иконку редактирования.

Как изменить описание объекта данных

В Arenadata Catalog существует предопределенный набор классификаторов Tier, описывающий уровень критичности данных для организации.
Чтобы указать этот классификатор, кликните на иконку редактирования под наименованием объекта данных.

Как указать уровень критичности объекта данных

Объекту можно присвоить только один из уровней критичности. Если в вашей организации, используется другая детализация бизнес-критичности, вы можете изменить наполнение этой категории тегов в разделе Классификаторы.
Помимо уровня критичности вы можете указать настроенные пользователями классификаторы в неограниченном количестве как для самого объекта данных, так и для его элементов.

Как присвоить классификаторы объекту

История версий объекта
Любые изменения объекта фиксируются в истории версий. Обратно совместимые изменения (изменения тегов, описания и т. д.) обновляют минорную версию объекта 0.1, 0.2 и т. д. Необратимые изменения (например, изменение схемы таблицы) обновляют мажорную версию объекта (с 1.1 на 2.0)

При просмотре истории версий, вы можете кликнуть на предыдущие версии для визуального просмотра изменений, внесенные изменения выделяются цветом.

Таким образом, можно легко отследить все обновления объекта как в каталоге данных, так и на исходной системе.

Вы можете открыть историю версий, кликнув по кнопке Версии в карточке объекта.

Как просмотреть историю версий объекта

По умолчанию объект создается с версией 0.1.
Если вы хотите отслеживать изменения определенного источника данных, то вам стоит подписаться на объект. Подписка позволяет вам получать уведомления в системе о событиях, произошедших с важными ресурсами.

Просмотреть ресурсы, на которые вы подписаны, можно в личном кабинете пользователя.

Чтобы подписаться на объект, необходимо в карточке объекта нажать кнопку Подписаться.

Как подписаться на объект данных

Функции для совместной работы
В карточке каждого объекта доступен функционал для взаимодействия между пользователями:

  1. Объявления- вы можете создавать объявления для объекта. Например, о планируемых технических работах и недоступности определенного ресурса.
  2. Обсуждения- возможность оставлять комментарии с любой целью. В обсуждениях доступно использования упоминаний (mention) пользователей или источников данных, а также прикрепление ссылок и разметка текста.
  3. Запросы на изменение- при обнаружении необходимости внесения правок в атрибуты объекта, вы можете создать задачу для ответственного пользователя (по умолчанию владелец объекта) на обновление необходимой информации.
  4. Лента активности и задач- информация о всех произошедших действиях с объектом: кто, когда и что сделал. Помимо изменений объекта, отображается информация о подписках пользователей, обсуждениях, запросах на изменения и объявлениях.
Создать объявление можно в карточке объекта, развернув меню дополнительных действий и кликнув на кнопку Объявления. При создании объявления укажите заголовок, период действия события и описание.

Как создать объявление

Для использования обсуждений вы можете кликнуть на иконку диалога возле необходимого атрибута или на вкладке Лента активности и задач отвечать на произошедшие события.

Как оставить комментарий к объекту данных

Чтобы запросить обновления поля, вы можете кликнуть на иконку вопроса возле необходимой характеристики объекта. При создании запроса на изменение (ЗнИ) требуется указание заголовка задачи, выбор ответственного пользователя, и по желанию можно предложить новое значение поля.

Как создать запрос на изменение объекта

Связь с терминами глоссария
Связь физических объектов с бизнес-терминологией обеспечивает возможность пользователям видеть полную картину о том, что это за ресурс, какие данные он хранит и как его можно использовать. Для любого объекта данных с помощью тегов можно создать связь с термином из глоссария.

Термины в тегах записаны как: {Наименование_глоссария.Наименование_термина}. Для быстрого выбора нужного термина можно воспользоваться поиском по наименованию.

При создании связей между каталогом данных и глоссарием используется тип «многие-ко-многим», количество связей для одного объекта не ограничено.

Связь с термином можно создать как с объектом данных, так и с элементом данных. Например, термин «Код аэропорта» можно указать не к таблице с информацией о перелетах, а к конкретному столбцу, хранящему значения кода аэропорта.

Как создать связь термина с объектом каталога данных

Начиная с версии Arenadata Catalog v 0.4.0 связи с терминами бизнес-глоссария отображаются в отдельном столбце.
ER-диаграммы
Просмотр ограничений таблиц, включая уникальность, первичные, внешние ключи и др. доступен в карточке таблицы в текстовом виде. Также вы можете отследить в графическом представлении список сущностей и связей между ними.

Чтобы открыть ERD перейдите в карточку схемы базы данных и откройте вкладку ER-диаграмма

Просмотр ER-диаграммы

Происхождение данных
Data lineage- информация, помогающая отследить путь формирования данных, точки использования, обработки и применения. В Arenadata Catalog есть 2 способа формирования происхождения данных: автоматическое и ручное.

Например, при добавлении загрузки метаданных из сервиса BI, вы можете указать какие сервисы баз данных использует этот инструмент (например, PostgreSQL) и Arenadata Catalog создаст связи происхождения между диаграммами/дашбордами сервиса с таблицами, на основе которых строятся инструменты.

Если признаки для автоматического связывания отсутствуют, пользователь может выстроить связи самостоятельно используя графический редактор происхождения данных.
Чтобы открыть графический редактор для просмотра или редактирования, перейдите на вкладку Происхождение в карточке объекта.

Как просмотреть и редактировать происхождение данных

При просмотре происхождения данных вы можете регулировать глубину отображаемых потоков и количество узлов на слой.

Как настроить отображение происхождения данных

Цветовое разделение потоков Data Lineage
Для того чтобы сократить время изучения диаграммы потоков происхождения данных мы предоставляем возможность явно разделить потоки по типу создания. Всего выделяется три типа создания:
  • Ручное— если поток был создан пользователем в интерфейсе редактирования
  • Импорт— если поток был создан через импорт Source-to-Target файлов
  • Авто— если поток был автоматически построен системой Arenadata Catalog

Цветовое разделение потоков происхождения

По клику на поток происхождения данных вы можете дополнительно посмотреть информацию о дате создания потока и пользователе, создавшем поток.
Импорт потоков данных (S2T-файлы)
Для массового обновления всех потоков данных вы можете воспользоваться функционалом импорта Source-to-Target файлов. ADC поддерживает 2 формата файлов для импорта: xlsx и csv. С помощью импорта вы можете не только создавать и обновлять потоки данных, но и удалять их из системы.

Перейдите в раздел "Настройки"— "Импорт данных", чтобы скачать шаблон и загрузить файл для импорта.

Процесс импорта S2T

Управляйте вашим файлом согласно правилам, описанным в таблице ниже. Заметьте, что обязательные столбцы только "Источник" и "Цель", для удобства вы можете удалить из файла столбцы, которыми не планируете пользоваться.
Использование и примеры данных
Информация об использовании данных, показывает какие запросы используются чаще всего к таблицам. Для этого необходимо настроить рабочий процесс загрузки данных типа Usage. Подробную информацию о настройке вы можете узнать в разделе Интеграция метаданных.

Рабочий процесс типа Usage доступен только для следующих сервисов:

  • BigQuery
  • Snowflake
  • MSSQL
  • Redshift
  • Clickhouse
  • Postgres
  • Databricks
  • Greenplum (ADB)
Для того чтобы просмотреть информацию об использовании перейдите на вкладку Запросы в карточке объекта.
Начиная с версии ADC v 0.4.0 для запросов к таблицам доступна система рейтинга. где вы можете оценить насколько вам был полезен конкретный запрос. Также запросу можно присвоить владельца, описание, классификаторы и отследить какие пользователи брали его для своей работы.

Как просмотреть информацию об использовании данных после версии ADC v 0.4.0

Также вы можете создавать новые запросы к таблицам и редактировать существующие
Примеры данных
Примеры данных для объектов баз данных опционально включаются в настройках пайплайна профилирования. Просмотреть пример данных можно на одноименной вкладке. Это реальные строки из объекта, которые хранятся на стороне каталога данных.
Вы можете ограничивать доступ к примеру данных двумя способами:
  • Полностью запрещать просмотр примеров данных для определенных ролей с помощью операции "ViewSampleData" в настройках ролевой модели
  • Включать маскирование данных, чтобы скрывать значений определенных столбцов или все таблицы целиком.

Просмотр примеров данных и маскирование

Чтобы включить маскирование данных необходимо создать набор классификаторов с наименованием PII. И добавить в него два классификатора Sensitive и NonSensitive.
Те таблицы/столбцы, которым присвоен классификатор PII.Sensitive буду маскировать свои значения в примерах данных. Просмотр маскированных значений доступен только владельцу таблицы и администраторам системы.
Импорт и экспорт данных — beta
В каталоге данных Arenadata Catalog доступен импорт и экспорт метаданных СУБД через XLSX-файлы. Вы можете использовать этот функционал для массового обновления объектов или для загрузки метаданных источников, к которым невозможно подключиться напрямую через коннектор. С помощью импорта экспорта можно обновлять 4 типа сущностей:
  1. Базы данных
  2. Схемы баз данных
  3. Таблицы
  4. Столбцы таблиц
В XLSX-файле для загрузки/выгрузки для каждого типа сущностей создается отдельный лист.
Загрузка и выгрузка данных реализуется через функционал коннекторов, для того чтобы вы могли автоматизировать данный процесс.
Для создания инстанса импорта/экспорта определенного источника необходимо создать новый сервис "Базы данных" типа "ExportImportDatabase". При создании сервиса вы можете указать наименование и описание, чтобы все пользователи понимали зачем был создан данный тип сервиса.
После этого необходимо заполнить 3 поля:
  1. Target Database Service Name—Сервис баз данных, в который/из которого будут загружены метаданные. Наименование сервиса баз данных в Arenadata Catalog.
  2. Metadata Ingestion Source File— Путь к Excel файлу с данными для загрузки Метаданных.
  3. Metadata Ingestion Destination File— Путь к Excel файлу для сохранения Выгрузки Метаданных.
Для загрузки и выгрузки метаданных вы можете использовать любые директории доступные контейнеру adc-server.

Настройка процесса загрузки и выгрузки метаданных
После того как вы создали сервис необходимо настроить процессы загрузки и выгрузки метаданных. Настройка бывает двух типов:
  • Загрузка метаданных— Импорт XLSX-файла с метаданными в Arenadata Catalog.
  • Выгрузка метаданных— Экспорт XLSX-файла с метаданными из Arenadata Catalog.
Настройка загрузки идентична прямому подключению к источнику. В процессе настройки следуйте вложенным в продукт инструкциям.
Формат файла импорта/экспорта
Лист 1. «Базы данных» Строка = БД. Перечень столбцов:
1. Наименование базы данных
2. Полное наименование базы данных
3. Описание базы данных
4. Пользовательское описание
5. Владелец базы данных
6. Классификаторы
7. Объекты глоссария
8. Сервис базы данных
Лист 2. «Схемы» Строка = Схема базы данных. Перечень столбцов:
1. Наименование схемы
2. Полное наименование схемы
3. Наименование базы данных (FQN)
4. Описание схемы
5. Пользовательское описание
6. Владелец схемы
7. Классификаторы
8. Объекты глоссария
Лист 3. «Таблицы» Строка = Таблица. Перечень столбцов:
1. Наименование таблицы (FQN)
2. Полное наименование таблицы
3. Описание таблицы
4. Пользовательское описание
5. Владелец таблицы
6. Классификаторы
7. Объекты глоссария
8. Тип таблицы
9. Отдельные столбцы для кастомных полей
Лист 4. «Столбцы» Строка = Столбец. Перечень столбцов
1. Наименование таблицы (FQN)
2. Наименование столбца (name)
3. Тип данных столбца
4. Длина значения (dataLength)
5. Ограничения ("NULL";"NOT_NULL"; "UNIQUE"; "PRIMARY_KEY")
6. Описание
7. Пользовательское описание
8. Классификаторы
9. Объекты глоссария
10. Позиция столбца

Можно обновлять элементы раздельно. Например для существующих таблиц обновить столбцы, не заполняя лист «Таблицы».
Обязательность заполнения полей = обязательности в схеме API /docs#operation/createTable