34 Subsistemas ETL de Kimball
Enviado por jcurtod el Vie, 07/17/2009 - 09:48.
Estoy seguro que ya los conocéis pero no esta de más recordarlos por su vigencia aún. Kimball identificó los siguientes subsistemas ETL que se clasifican en cuatro grupos:
- Extracción: extraer la información de la fuente de origen.
- Limpieza y conformación: consiste en acciones que permiten validar y aumentar la calidad de la información.
- Entrega: consiste en la preparación de la información para su posterior entrega.
- Gestión.
Vamos a detallar cada uno de los grupos.
Extracción
- Data profiling (subsistema 1): consiste en la exploración de los datos para verificar su calidad y si cumple los estándares conforme los requerimientos.
- Change Data Capture (subsistema 2): detecta los cambios para refinar los procesos ETL y mejorar su rendimiento.
- Sistema de extracción (subsistema 3): permite la extracción de datos desde la fuente de origen a la fuente destino.
Limpieza y conformación
- Data Cleansing (subsistema 4): implementa los procesos de calidad de datos que permite detectar las incoherencias de calidad.
- Rastreo de eventos de errores (subsistema 5): captura todos los errores que proporcionan información valiosa sobre la calidad de datos y permiten la mejora de los mismos.
- Creación de dimensiones de auditoría (subsistema 6): permite crear metadatos asociados a cada tabla. Estos metadatos permiten validar la evolución de la calidad de los datos.
- Deduplicación (subsistema 7): eliminar información redundante de tablas importantes como cliente o producto. Requiere cruzar múltiples tablas en múltiples sistemas de información para detectar el patrón que permite identificar cuando una fila está duplicada.
- Conformación: permite identificar elementos equivalentes que permiten compartir información entre tablas relacionadas.
Entrega
- Slowly Changing Dimension (SCD) (subsistema 9): implementa la lógica para crear atributos de variabilidad lenta a lo largo del tiempo.
- Surrogate Key (subsistema 10): permite crear claves subrogadas independientes para cada tabla.
- Jerarquías (subsistema 11): permite hacer inserciones en estructuras jerárquicas de tablas.
- Dimensiones especiales (subsistema 12): permite crear dimensiones especiales como junk, mini o de etiquetas.
- Tablas de hecho (subsistema 13): permite crear tablas de hecho.
- Pipeline de claves subrogadas (subsistema 14): permite remplazar las claves operacionales por las claves subrogadas.
- Contructor de tablas multivaluadas (subsistema 15): permite construir tablas puente para soportar las relaciones N:M.
- Gestión para información tardía (subsistema 16): permite aplicar modificaciones a los procesos en caso que los datos tarden en llegar.
- Gerente de dimensión (subsistema 17): autoridad central que permite crear y publicar dimensiones conformadas.
- Provider de tablas de hecho (susbsistema 18): permite la gestión de las tablas de hecho.
- Creador de agregadas (subsistemas 19): permite gestionar agregadas.
- Creador de cubos OLAP (susbsistema 20): permite alimentar de datos a esquemas OLAP desde esquema dimensionales relacionales.
- Propagador de datos (subsistema 21): permite preparar información conformada para ser entregada para cualquier propósito especial.
Gestión
- Programador de trabajos (subsistema 22): permite gestionar ETL de la categoría de trabajos.
- Sistema de backup (subsistema 23): realiza copias de respaldo de los procesos ETL.
- Reinicio y recuperación (subsistema 24): permite reiniciar un proceso ETL en el caso de error.
- Control de versiones (subsistema 25): permite hacer control de versiones de un proyecto ETL y de los metadatos asociados.
- Migración de versiones (subsistema 26): permite pasar proyectos en fase test a producción mediante versionado.
- Monitorización de workflow (subsistema 27): dado que un proceso de ETL es un workflow, es necesario monitorizarlos para medir su rendimiento.
- Ordenación (subsistema 28): permite calibrar los procesos ETL para mejorar su rendimiento.
- Linealidad y dependencia (subsistema 29): identifica elementos dependientes. Permite identificar las transformaciones en las que participa o ha participado. Permite la trazabilidad del dato.
- Escalado de problemas (subsistemas 30): suporta la gestión de incidencias.
- Paralelismo / Clustering (susbsitema 31): permite el uso de procesos en paralelo, grid computing y clustering para mejorar el renidmiento y reducir tiempo del proceso.
- Seguridad (subsistemas 32): gestiona el acceso a ETL y metadatos.
- Compliance Manager (subsistema 33): permite soportar la legislación vigente respecto la custodia y responsabilidad de datos que debe aplicarse a la organización.
- Repositorio de metadatos (subsistema 34): captura los metados de los procesos ETL, de los datos de negocio y de los aspectos técnicos.
- blog de jcurtod
- Inicie sesión para enviar comentarios