Data & Analytics

Obwohl essenziell für die kontinuierliche Optimierung und Validierung von Geschäftsmodellen, ist das Data Engineering eine vergleichsweise junge und wenig standardisierte Disziplin. Umso mehr bedarf es erfahrener, smarter und aufgeschlossener Expertise und einer Unterstützung, die neben “Konzeption und Entwicklung” stets auch “Enablement und Sich-überflüssig-Machen” mit Begeisterung praktiziert.

Data Engineering!

Obwohl essenziell für die kontinuierliche Optimierung und Validierung von Geschäftsmodellen, ist das Data Engineering eine vergleichsweise junge und wenig standardisierte Disziplin.

Umso mehr bedarf es erfahrener, smarter und aufgeschlossener Expertise und einer Unterstützung, die neben “Konzeption und Entwicklung” stets auch “Enablement und Sich-überflüssig-Machen” mit Begeisterung praktiziert.

Für uns ist es eine absolute Selbstverständlichkeit, immer ein umfassendes Werkverständnis von dem aufzubauen, woran wir mitwirken. Um das auch wirklich leisten zu können, bündeln wir unsere Kräfte als Unternehmen im Bereich “Data” in drei speziellen Projekttypen – unseren Service Offerings (s. u.).

Was nicht heißt, dass wir nicht auch zu allen anderen Formen der Kooperation und Einbringung unserer Kompetenzen grundsätzlich bereit sind. Wenn es passt und zielführend ist.

Immer AWS

kreuzwerker – das heißt für den Engineering-Teil unseres Unternehmens seit der Gründung 2010 “AWS only”. Unser Fokus liegt auch beim Data Engineering mithin auf AWS als Zielplattform.

Naturgemäß verfügen wir über eine fundierte Kenntnis des AWS Ökosystems. Und “wir” bedeutet hier wirklich: jede und jeder kreuzwerker! Darauf fußend verfügen wir über eine für unsere Größe von rund 120 Mitarbeitenden wahrlich “untypische” Reputation und Sichtbarkeit auf dem Markt.

Unsere konkreten AWS Data Service Offerings

Migration Ihrer Data Analytics Umgebung (DWHs, Pipelines, Dashboards) nach AWS – gerne auch im Ganzen

Wer nach AWS migriert, hat Gründe. Die Kosten allein sind es selten, und wenn doch, vergibt man sich mit dieser Stoßrichtung möglicherweise Chancen? Man sollte es prüfen. Selbst eine grundlegende Ablösung der bestehenden Data Analytics Umgebung (z. B. Oracle, SQL Server) ergibt in diesem Zusammenhang vielfach durchaus Sinn. In jedem Fall ist die Entwicklung einer präzisen, individuellen und ganzheitlichen Migrationsstrategie als erster Baustein unerlässlich: von Lift & Shift über die “Modernisierung” bis zum vollständigen Re-Architecting, von “noch dieses Geschäftsjahr” bis zum Fünf-Jahres-Plan. Und immer entlang der Best Practises von AWS.

Wir betrachten den dabei entstandenen Plan am liebsten gleich als abgestimmtes Rezept, um es auch selbst zu erledigen – gerne auch als Werk, zum Festpreis.

Data Analytics Plattformen – systematisieren Sie ihren analytischen Umgang mit Daten

Eine Data Analytics Plattform: Das ist für uns ganz konkret eine Sammlung von Services und Features, die es Ihren Stakeholdern erlaubt, auch überaus komplexe Fragestellungen hinsichtlich sehr großer Datenmengen zu formulieren und mit einer Antwort rechnen zu dürfen. Spätestens nachdem Ihre Data Engineers unkompliziert die erforderlichen Erweiterungen vorgenommen haben. Die Ergebnisse werden dann wie gewohnt kombiniert, analysiert, untersucht und visualisiert. Data Analytics Plattformen kombinieren dabei in der Regel gleich mehrere Big Data Tools und kümmern sich um Skalierung, Verfügbarkeit, Sicherheit und Performance hinter den Kulissen. Nicht zu vergessen Blueprints, APIs und weitere “Standardkomponenten”, die in einem großen, verteilten Kontext die Erhaltung der Wartbarkeit vereinfachen und dafür sorgen, sich keinen Resource-Hit-by-Truck-Ärger einzufangen.

Eine Data Analytics Plattform ist Data Engineering 2.0 – und kann einem in die Cloud migrierten DWH als nächste Evolutionsstufe nachfolgen.

  • Beratung zur Konzeption einer Data Platform
  • Ausarbeitung von Zugriffs- und Governancekonzepten
  • Bereitstellung von Self-Service-Angeboten und Templates für interne Stakeholder
  • Coaching and Enablement für die internen Data Engineers in Bezug auf Cloud und für Data Analysts zur Verwendung der Plattform
  • ständige Entwicklung der Data Platform (z. B. Optimierung der Pipelines, Anbindung von weiteren Datenquellen)

Wir erstellen und optimieren Data Pipelines

Wer als Dienstleister zielführend nach AWS migrieren kann und ganze Data Analytics Plattformen entwirft und umsetzt, kann notwendigerweise auch Pipelines. Dennoch sind sie ein ganz besonderes Steckenpferd von uns: Ihr smartes, last- und zukunftsfestes, dabei gleichzeitig zielgerichtetes (Kosten!-)Design ist eine intellektuelle Herausforderung.

Wir erstellen für Sie die Architektur der notwendigen Data Pipelines, entwerfen die ETL-Prozesse, designen das Zielschema. Bedenken erforderliche Bereinigungs- und Anonymisierungsverfahren zur Gewährleistung der DSGVO-Konformität. Haben den Durchsatz im Blick und können Echtzeit und Batch.

Bei Visualisierung und Bereitstellung an die verschiedenen Stakeholder machen wir noch mit, treten aber allmählich vornehm in den technischen Hintergrund. Alles andere – wie gehabt – bauen wir dann auch.

Und jetzt kurz & enzyklopädisch

Techniker:innen sind ja schlecht im Weglassen und “werblichen” Reduzieren. Deswegen seien hier nur noch schnell die Technologien erwähnt, die wir so gut beherrschen, dass es angemessen ist, uns dafür zu bezahlen:

I
Zu den folgenden Technologien zieht es uns ganz besonders hin, hierzu können Sie jedem unserer Data Engineers Tag & Nacht Fragen stellen:

  • Python und der komplette PyData Stack (Pandas, NumPy, PySpark)
  • Spark
  • AWS EMR / AWS EMR Serverless
  • AWS Glue
  • AWS Lake Formation
  • Palantir Foundry
  • alle gängigen Infrastructure as Code Tools wie AWS CDK (mit TypeScript, Python, Java, Go) oder Terraform

II
Ständig und immer wieder – weitere Technologie-Schwerpunkte:

  • Airflow / Amazon Managed Workflows for Apache Airflow (MWAA)
  • Scala
  • Java
  • R
  • Elasticsearch
  • (fast) jede relationale und nicht-relationale Datenbank, die es so gibt mit den dazugehörigen Abfragesprachen (AWS RDS, AWS Aurora, PostgreSQL, MySQL, Oracle Database, Microsoft SQL Server, MongoDB, AWS DynamoDB, …)
  • Presto
  • AWS Athena
  • Mara ETL
  • Google Cloud Dataproc
  • Delta Lake
  • AWS Redshift / AWS Redshift Serverless
  • Snowflake
  • Metabase
  • Google Cloud Big Query
  • Tableau
  • AWS Quicksight
  • alle gängigen Datenformate wie Avro oder Parquet
  • Kafka / AWS MSK
  • AWS Kinesis
  • AWS Lambda

Partner