Процесс загрузки данных в ХД можно описывать с разных сторон. В данной статье я хотел бы рассмотреть две такие характеристики, как количество источников данных и периодичность. Рассмотреть не с точки зрения общих принципов построения ХД, а с точки зрения того, как, используя Oracle Data Integrator как инструмент ETL, немного упростить работу по разработке и сопровождению процесса ежедневной загрузки данных в хранилище данных.
Фактически, keywords-ы похожи на облако тэгов, или ярлыков, используя которые можно выбирать из всего множества запущенных сессий только определенные.
Для добавления тэгов к запускаемым сценариям необходимо выполнить следующие шаги:
1. Добавляем перечисление ключевых слов при запуске дочернего сценария из пакета.
Небольшое дополнение. Ключевые слова регистрозависимые. Если в Session Folder указаны несколько ключевых слов - отображаться будут только те сессии, у которых присутствуют все перечисленные ключевые слова при запуске сценария.
2. Создаем необходимое количество фильтров (Session Folder) в Операторе.
Небольшое дополнение 2. Содержимое папки Keywords для закладок с простым списком сессий (Session List) и с иерархическим - одно. Таким образом, если мы назначаем ключевые слова для одиночных сценариев смотреть их нужно на закладке Session List.
Список прост, сложнее разработать правильную схему keywords-ов и, затем, поддерживать ее в актуальном состоянии. Здесь я вернусь к описанной в начале поста характеристике количества источников данных. Один из вариантов создания своей схемы ключевых слов может заключаться в введении кодов систем источников.
Код системы источника назначается как ключевое слово каждому сценарию, загружающему данные из этой системы в ХД.
Второй важный момент, не всегда одна таблица ХД загружается только одним интерфейсом или пакетом. Таким образом, можно к каждому запускаемому сценарию записывать в качестве ключевого слова еще и целевую таблицу, на которую этот сценарий оказывает влияние.
Третий момент, возможно, в ХД есть особые отчеты, именно те, на которые в первую очередь обращает внимание топ - менеджмент. Имеет смысл выбрать ключевые сценарии, правильность работы которых непосредственно влияет на правильность отчета. В этом случае и тестировщику и менеджеру по качеству данных будет значительно проще в поисках ошибок анализировать выполнение только выбранных сценариев загрузки данных.
Ну и еще одним признаком может служить периодичность загрузки данных. Для ежедневных или еженедельных загрузок можно выделить отдельное ключевое слово.
Для администратора ETL процесса или других технических специалистов, следящих за загрузкой данных в ХД можно выбрать несколько ключевых сценариев (возможно, даже не затрагивающих данные в ХД), которым будет назначено свое ключевое слово, по которому они смогут отдельно следить за работой ETL по загрузке данных.
При этом использования ключевых слов более предпочтительно, чем использование фильтра Оператора, потому что при изменениях в процессе загрузки достаточно добавить ключевое слово к новому сценарию, и на работу этого сценария будет обращаться внимание.
Комментариев нет:
Отправить комментарий
Примечание. Отправлять комментарии могут только участники этого блога.