Data-Profiling

Data-Profiling

Data-Profiling bezeichnet den weitgehend automatisierten Prozess zur Analyse vorhandener Datenbestände (z. B. in einer Datenbank) durch unterschiedliche Analysetechniken. Durch das Data Profiling werden die existierenden Metadaten zu den Echtdaten validiert und neue Metadaten identifiziert. Zusätzlich werden bestehende Datenqualitätsprobleme validiert, die verursachenden Daten identifiziert und die Informationsqualität der analysierten Daten gemessen. Durch das Data Profiling werden keine Qualitätsprobleme in den Daten behoben, sondern nur die zugehörigen Metadaten korrigiert.

Der Data-Profiling-Prozess

Die Data-Profiling-Analyse ist ein iterativer Prozess, der in folgenden vier Einzelschritten (vgl. DA2009, S. 109) abläuft:

  1. Daten integrieren,
  2. integrierte Daten analysieren,
  3. Ergebnisse darstellen und
  4. fachlich bewerten.

Data-Profiling-Verfahren

Die verschiedenen Data-Profiling-Verfahren lassen sich in Attribut-, Datensatz- und Tabellen-Analyse einteilen. Bei der Attribut-Analyse werden alle Werte in einer Tabellen-Spalte (= Attribut) sowie die Eigenschaften der Attribute einer Tabelle untersucht, in der Datensatz-Analyse alle Datensätze einer Tabelle und in der Tabellen-Analyse alle Beziehungen zwischen verschiedenen Tabellen. Für jede dieser drei Analysearten existieren viele unterschiedliche Data-Profiling-Verfahren.

Literatur

  • DA2009: Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi. Datenqualität erfolgreich steuern. 2009, Hanser Fachbuch, ISBN 978-3446420564.

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Data profiling — is the process of examining the data available in an existing data source (e.g. a database or a file) and collecting statistics and information about that data. The purpose of these statistics may be to: Find out whether existing data can easily… …   Wikipedia

  • Data profiling — Le data profiling est le processus qui consiste à examiner les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C est ainsi très… …   Wikipédia en Français

  • Data quality — Data are of high quality if they are fit for their intended uses in operations, decision making and planning (J. M. Juran). Alternatively, the data are deemed of high quality if they correctly represent the real world construct to which they… …   Wikipedia

  • Data presentation architecture — (DPA) is a skill set that seeks to identify, locate, manipulate, format and present data in such a way as to optimally communicate meaning and proffer knowledge. Contents 1 Origin and context 2 Objectives 3 Scope 4 …   Wikipedia

  • Data governance — is an emerging discipline with an evolving definition. The discipline embodies a convergence of data quality, data management, data policies, business process management, and risk management surrounding the handling of data in an organization.… …   Wikipedia

  • Data quality assurance — is the process of profiling the data to discover inconsistencies, and other anomalies in the data and performing data cleansing activities (e.g. removing outliers, missing data interpolation) to improve the data quality . These activities can be… …   Wikipedia

  • Data auditing — is the process of conducting a data audit to assess how company s data is fit for given purpose. This involves profiling the data and assessing the impact of poor quality data on the organization s performance and profits. Categories: Data… …   Wikipedia

  • Data Analysis Techniques for Fraud Detection — Fraud is a million dollar business and it is increasing every year. The PwC global economic crime survey of 2009 suggests that close to 30% of companies worldwide reported fallen victim to fraud in the past year[1] Fraud involves one or more… …   Wikipedia

  • Profiling (computer programming) — In software engineering, profiling ( program profiling , software profiling ) is a form of dynamic program analysis that measures, for example, the usage of memory, the usage of particular instructions, or frequency and duration of function calls …   Wikipedia

  • Data mining — Not to be confused with analytics, information extraction, or data analysis. Data mining (the analysis step of the knowledge discovery in databases process,[1] or KDD), a relatively young and interdisciplinary field of computer science[2][3] is… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”