34 Subsistemas ETL de Kimball

Estoy seguro que ya los conocéis pero no esta de más recordarlos por su vigencia aún. Kimball identificó los siguientes subsistemas ETL que se clasifican en cuatro grupos:

  • Extracción: extraer la información de la fuente de origen.
  • Limpieza y conformación: consiste en acciones que permiten validar y aumentar la calidad de la información.
  • Entrega: consiste en la preparación de la información para su posterior entrega.
  • Gestión.

Vamos a detallar cada uno de los grupos.

Extracción

  • Data profiling (subsistema 1): consiste en la exploración de los datos para verificar su calidad y si cumple los estándares conforme los requerimientos.
  • Change Data Capture (subsistema 2): detecta los cambios para refinar los procesos ETL y mejorar su rendimiento.
  • Sistema de extracción (subsistema 3): permite la extracción de datos desde la fuente de origen a la fuente destino.

Limpieza y conformación

  • Data Cleansing (subsistema 4): implementa los procesos de calidad de datos que permite detectar las incoherencias de calidad.
  • Rastreo de eventos de errores (subsistema 5): captura todos los errores que proporcionan información valiosa sobre la calidad de datos y permiten la mejora de los mismos.
  • Creación de dimensiones de auditoría (subsistema 6): permite crear metadatos asociados a cada tabla. Estos metadatos permiten validar la evolución de la calidad de los datos.
  • Deduplicación (subsistema 7): eliminar información redundante de tablas importantes como cliente o producto. Requiere cruzar múltiples tablas en múltiples sistemas de información para detectar el patrón que permite identificar cuando una fila está duplicada.
  • Conformación: permite identificar elementos equivalentes que permiten compartir información entre tablas relacionadas.

Entrega

  • Slowly Changing Dimension (SCD) (subsistema 9): implementa la lógica para crear atributos de variabilidad lenta a lo largo del tiempo.
  • Surrogate Key (subsistema 10): permite crear claves subrogadas independientes para cada tabla.
  • Jerarquías (subsistema 11): permite hacer inserciones en estructuras jerárquicas de tablas.
  • Dimensiones especiales (subsistema 12): permite crear dimensiones especiales como junk, mini o de etiquetas.
  • Tablas de hecho (subsistema 13): permite crear tablas de hecho. 
  • Pipeline de claves subrogadas (subsistema 14): permite remplazar las claves operacionales por las claves subrogadas.
  • Contructor de tablas multivaluadas (subsistema 15): permite construir tablas puente para soportar las relaciones N:M.
  • Gestión para información tardía (subsistema 16): permite aplicar modificaciones a los procesos en caso que los datos tarden en llegar.
  • Gerente de dimensión (subsistema 17): autoridad central que permite crear y publicar dimensiones conformadas.
  • Provider de tablas de hecho (susbsistema 18): permite la gestión de las tablas de hecho.
  • Creador de agregadas (subsistemas 19): permite gestionar agregadas.
  • Creador de cubos OLAP (susbsistema 20): permite alimentar de datos a esquemas OLAP desde esquema dimensionales relacionales.
  • Propagador de datos (subsistema 21): permite preparar información conformada para ser entregada para cualquier propósito especial.

Gestión

  • Programador de trabajos (subsistema 22): permite gestionar ETL de la categoría de trabajos.
  • Sistema de backup (subsistema 23): realiza copias de respaldo de los procesos ETL.
  • Reinicio y recuperación (subsistema 24): permite reiniciar un proceso ETL en el caso de error.
  • Control de versiones (subsistema 25): permite hacer control de versiones de un proyecto ETL y de los metadatos asociados.
  • Migración de versiones (subsistema 26): permite pasar proyectos en fase test a producción mediante versionado.
  • Monitorización de workflow (subsistema 27): dado que un proceso de ETL es un workflow, es necesario monitorizarlos para medir su rendimiento.
  • Ordenación (subsistema 28): permite calibrar los procesos ETL para mejorar su rendimiento.
  • Linealidad y dependencia (subsistema 29): identifica elementos dependientes. Permite identificar las transformaciones en las que participa o ha participado. Permite la trazabilidad del dato.
  • Escalado de problemas (subsistemas 30): suporta la gestión de incidencias.
  • Paralelismo / Clustering (susbsitema 31): permite el uso de procesos en paralelo, grid computing y clustering para mejorar el renidmiento y reducir tiempo del proceso.
  • Seguridad (subsistemas 32): gestiona el acceso a ETL y metadatos.
  • Compliance Manager (subsistema 33): permite soportar la legislación vigente respecto la custodia y responsabilidad de datos que debe aplicarse a la organización.
  • Repositorio de metadatos (subsistema 34): captura los metados de los procesos ETL, de los datos de negocio y de los aspectos técnicos.