Сегодня публикую перевод одного из обсуждений, проходившего в группе Data Warehousing (Business Intelligence, ETL) Professional's... в Линкед Ин.
Тема, начатая Mohammed, собрала 15 комментариев.
Mohammed:
Пожалуйста, насчет ETL, могли бы вы помочь? Мы должны выбрать один из следующих инструментов:
1. ODI (Oracle Data Integrator).
2. BODI (Business Object Data Integrator).
Начальные условия:
- 6 Oracle БД на трех серверах.
- Разные используемые ОС (операционные системы), Unix и Windows.
- Нам необходимо собрать/интегрировать большинство данных из всех 6 баз для построения отчетности.
- Для отчетности используется Crystal report.
- Совсем небольшие и несложные преобразования данных.
- Некоторые из отчетов должны показывать как можно более свежие данные. Максимальная задержка для этих отчетов - 8 часов.
Lior:
Так как вы клиент Oracle (6 баз данных от Oracle) я рекомендую использовать ODI - таким образом не задействуя несколько разных поставщиков ПО.
Mohammed:
Спасибо, Lior, я согласен с вами.
Но есть и другие критерии, которые необходимо принять во внимание. Стоимость, время разработки, обученный персонал и т.п.
Lior:
Всегда есть другие критерии :)
Разве есть только два возможных инструмента, ODI и BODI?
OWB бесплатен в составе Oracle DB 11g и его вполне может быть достаточно.
Также полно бесплатных ETL инструментов с открытым кодом.
Mohammed:
Привет, Lior.
По некоторым причинам, OWB нас не устраивает.
Открытый код... как насчет поддержки и исправления багов... и т.п. Это для нашего клиента... договор... сроки сдачи... можно ли опираться на открытый код... есть ли у вас похожий опыт с такими инструментами?
Mohammed:
Привет, Lior.
Как ODI (из вашего опыта) с точки зрения удобства использования и изучения (быстрое изучение и легкость использования)? Подходит ли для новичков в этой области?
Спасибо большое.
Lior:
Изначально вы указывали, что требования к ETL относительно просты, так что я не совсем понимаю, почему OWB не подходит в вашем случае. Возможно, вам лучше проконсультироваться с какими-то экспертами из Oracle.
Что касается ODI - то он намного больше чем просто ETL и он имеет очень много разных возможностей. Однако, как мне кажется, изучение основ не займет больше нескольких дней. Далее необходимо будет изучать что именно нужно вашему клиенту и, заодно, получить более обширные знания об ODI.
Moez:
Привет всем.
Я согласен, что ODI относительно несложен в изучении, по сравнению с большими игроками, такими как Informatica, или инструментами с открытым кодом как Pentaho. В дополнение, ODI имеет преимущество в производительности, так как использует ELT подход, когда данные выгружаются из источников, загружаются, а уже затем преобразовываются.
ODI также поставляется с модулями знаний, которые могут быть доработаны, если вам это нужно, для реализации необходимой функциональности, даже если эта функциональность вам нужна не слишком часто.
В отличие от OWB, он поддерживает множество серверов источников и серверов приемников данных, что позволяет использовать ODI не только для построения хранилища данных. То есть вы, также, можете использовать этот инструмент для репликации или интеграции данных так как ODI поддерживает работу с веб-сервисами.
Я работал с Informatica, которая тоже замечательна, но вот список причин, по которым я рекомендую ODI для тех, кто является клиентами Oracle:
- Data Integrator Suite (ODIEE) поставляется с ПО для проверки качества данных и профилирования данных, в дополнение к Oracle Warehouse Builder.
- ELT архитектура существенно увеличивает производительность как OWB так и ODI.
- ELT архитектура не нуждается в отдельном сервере для хранения репозитория (что является общепринятым подходом для Informatica.)
- предоставляет удобные инструменты для автоматизации миграции или репликации данных.
- поставляется с настраиваемыми и расширяемыми модулями знаний, что позволяет разработчикам создавать и повторно использовать свои собственные стратегии загрузки и интеграции данных.
- хорошо работает с механизмами слежения за изменениями данных (CDC) для баз данных Oracle, что позволяет построить интеграцию данных в реальном времени.
- Кривая обучения для ODI имеет более пологий вид, чем для Informatica.
- Имеет меньшую стоимость, так как Oracle может сделать скидку для существующих клиентов.
Надеюсь, это будет полезным.
Phoenix:
Мое впечатление от использования BODI - отстой. С другой стороны, я не пользовалась ODI, так что я не могу сравнить, кто из них лучше.
Edmund:
У меня трехлетний опыт использования BODI, и все зашибись, хехе. Его можно быстро выучить, легок в использовании и достаточно быстр, если ты достаточно хорошо его знаешь.
Ahmed:
Mohammed,
Есть несколько вещей, о которых стоит подумать, прежде чем выбирать инструментарий. Выбор ETL инструмента для построения прямого, физического преобразования данных, заставит тебя фокусироваться на необходимости думать о том, как решить некие проблемы еще до того, как ты поймешь эти проблемы полностью. Это основная причина, по которой большинство (дорогостоящих) проектов по BI терпят неудачу.
Смысл тут в том, что тебе необходимо иметь логическое понимание того, как твои ETL процессы решат проблемы бизнеса, а уже затем выбирать правильный инструмент для их физического воплощения.
Moshe:
Привет Mohammed, я использовал оба инструмента много лет и хочу внести свои пять копеек.
Коротко:
Я бы использовал BODI для гетерогенных данных, т.е. читаем из SAP, csv файлов, взаимодействуем с веб-сервисами и т.п. Также я бы рекомендовал выделить под DS сервер отдельную физическую или виртуальную машину с достаточным количеством ресурсов для всех ETL процессов.
Если же посмотреть на ваши требования, особенно 1 и 5, ODI будет самым очевидным выбором. Он хорошо работает с Oracle, ELT архитектура значит, что он передает работу по преобразованию данных на СУБД, и модули знаний, поставляемые в составе продукта, превосходны.
Удачи.
Nita:
BODI самый легкий в изучении. ODI сложный, его архитектура тоже. У BODI есть проблемы с производительностью, так что не рекомендую его для работы с источниками больших данных. Не уверена насчет производительности ODI.
Datastage, чувствую, самый производительный. Описание ошибок более понятно в BODI чем в ODI.
Строить преобразования проще в BODI.
Но зато поддержка у ODI (Oracle) лучше, чем у BODI (SAP).
Andrew:
Мы используем BODI около 6 лет. Это хороший инструмент, и обучаться ему не слишком сложно. Мы используем его для получения данных из внешних источников (веб-сервисы, получение файлов через ftp и т.п.), обмена данными между базами Oracle, Sybase и SQL Server и для преобразования данных при их загрузке в хранилище данных.
Сильные стороны этого инструмента - достаточно интуитивный механизм для построения задач (пакетов/флоу?), хороший набор доступных трансформаций и легкость в запуске задач по расписанию.
Наибольшая трудность - начальная инсталляция Business Object Data Integrator. Поддержка от SAP может совсем не оправдать ваших ожиданий; мы учились на наших собственных ошибках. Дополнительной проблемой могут стать попытки расшифровки сообщений об ошибках при аварийном завершении задач.
Все эти инструменты имеют свои особенности и оба они несовершенны, но в общем мы очень довольны BODI и я бы рекомендовал именно его.
Fidel:
Многие годы ETL-ем для хранилищ на Oracle был OWB (Oracle Warehouse Builder). Но в 2007 году Oracle представил новый ETL инструмент под названием ODI. Oracle Data Integrator (не спутайте с BODI, Business Object Data Integrator). ODI изначально был разработан компанией Sunopsis, которая имела свой собственный ETL продукт называемый Data Conductor, который был известен своим ELT подходом. Заключается этот подход в изначальной загрузке данных на целевой сервер, затем использование СУБД для преобразования и добавления/обновления данных в целевые таблицы. Такой подход понравился Oracle, так что Oracle купил Sunopsis и назвал Data Conductor новым именем ODI.Список ниже получен полностью из опыта.
Oracle (OWB and ODI):
Преимущества:
- Оба инструмента достаточно мощные в качестве ETL инструментов.
- Плотная интеграция со всеми приложениями от Oracle для ХД.
- Продолжающаяся интеграция инструментов для ETL в единое приложение.
Недостатки:
- Фокус только на ETL решении, а не на общем решении для управления данными.
- Инструменты используются в основном для пакетной обработки данных, а не для преобразований в реальном времени или федерации данных.
- Долгожданное объединение OWB и ODI все еще остается обещаниями. Клиенты путаются где лучше применять какой из инструментов и будущее туманно.
SAP BusinessObjects (Data Integrator / Data Services)
Преимущества:
- Интеграция с SAP.
- Хорошие средства моделирования данных и поддержка управления данными.
- SAP Business Objects может предоставить средства для добывания знаний, управления качеством данных и их профилирования, так как поглотил большое количество других компаний.
- Быстрое обучение и легкость в использовании.
Недостатки:
- SAP Business Objects выглядит двумя разными компаниями.
- Неопределенное будущее. Споры относительно того, какой подход к интеграции данных использовать. (SAP BW или BODI)
- BusinessObjects Data Integrator (Data Services) может не восприниматься некоторыми организациями как приложение, способное работать без остальных компонентов BO.
Mohammed:
Привет
Спасибо всем вам за ваши мнения и предоставленную информацию.
Комментариев нет:
Отправить комментарий
Примечание. Отправлять комментарии могут только участники этого блога.