Profileimage by Jan Krol Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka] from Berlin

Jan Krol

available

Last update: 29.04.2024

Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka]

Graduation: Robotics, Cognition, Intelligence
Hourly-/Daily rates: show
Languages: German (Native or Bilingual) | English (Full Professional) | Polish (Full Professional)

Attachments

profil_290424.docx
profil-en_290424.docx

Skills

Methodische und fachliche Schwerpunkte
  • Architecture (Microsoft Azure & AWS) 
  • Data Engineering (Databricks, Fabric, Apache Spark, Azure Synapse Analytics, Azure Data Factory, AWS Glue, Athena, EMR) 
  • Infrastructure as Code (Terraform, ARM, AWS CDK) 
  • Containerization (Kubernetes, Docker) 

Tätigkeitsschwerpunkte
  • Software Engineer & Cloud Consultant mit Fokus auf Microsoft Azure & Amazon Web Services 
  • ETL Prozesse & Data Engineering 
  • Entwicklung Big Data / ETL-Pipelines 
  • Anwendungsmigrationen unter Nutzung von Cloud Services 
  • Beratung & Implementierung von Automatisierungskonzepten 
  • Integration von ActiveDirectory, Sicherheitskonzepten und Compliancevorgaben (Überwachung und Protokollierung) 

Zertifizierungen
  • HashiCorp Certified: Terraform Associate
  • Databricks Certified Associate Developer  for Apache Spark
  • Azure Solutions Architect Expert:
    • AZ-300: Microsoft Azure Architect Technologies
    • AZ-301: Microsoft Azure Architect Design
  • Microsoft Certified: Azure Data Scientist Associate
    • DP-100: Designing and Implementing a Data Science Solution on Azure
  • AWS Certified Machine Learning – Specialty
  • AWS Certified Solutions Architect – Associate

Project history

03/2023 - 05/2024
Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks
(Transport and Logistics, 500-1000 employees)

  • Projektzusammenfassung:
  • In diesem „Leuchtturm“-Projekt leitete ich die Entwicklung einer robusten Datenstrategie und eines Governance-Frameworks mit dem Ziel, die Datenverarbeitungskapazitäten der Organisation zu optimieren und zu verbessern. Kern des Projekts war der Aufbau einer hochperformanten Datenmanagementplattform auf Databricks, ergänzt durch das Design und die Implementierung einer effizienten Data-Hub-Ingest-Plattform.
     
    • Leitung des Designs und der Etablierung einer unternehmensweiten Datenstrategie, ausgerichtet an Geschäftszielen und technologischen Fortschritten
    • Entwicklung eines umfassenden Daten-Governance-Frameworks zur Gewährleistung von Datenqualität, Datenschutz und Einhaltung von Branchenstandards
    • Überwachung der Bereitstellung und Anpassung der Datenmanagementplattform auf Databricks, Verbesserung der Datenverarbeitung, Analyse und Reportingfähigkeiten mit Power BI
    • Entwicklung eines robusten Data-Hubs mit hochperformanter Ingest-Pipelines basierend auf AWS EventBridge,
    • Optimierung des Datenflusses von verschiedenen Quellen zu zentralisierten Speichersystemen (Data Lake House auf Azure)
    • Zusammenarbeit mit funktionsübergreifenden Teams zur Integration der Datenmanagementplattform in die bestehende IT-Infrastruktur und Geschäftsprozesse
    • Durchführung von Schulungen und Workshops für neue Teams, Förderung einer datengetriebenen Kultur und Verbesserung der Datenkompetenz in der gesamten Organisation
    • Services:  
      • Azure Databricks
      • Databricks Data Catalog
      • AWS EventBridge
      • Kinesis
      • Event Hub
      • Structured Streaming (Apache Spark)

01/2022 - 02/2023
Innovative Integration und Analyse von Logistikdatenströmen mit PySpark Structured Streaming und Data Mesh-Implementierung
(Transport and Logistics, 500-1000 employees)

  • Projektzusammenfassung:
Dieses Projekt konzentrierte sich auf die anspruchsvolle Integration von Logistikdatenströmen mit Event Hub und Kafka unter Verwendung von PySpark Structured Streaming. Unser Ansatz revolutionierte die Art und Weise, wie Logistikdaten in Echtzeit erfasst, verarbeitet und durch den Graphen-Ansatz verknüpft werden konnten. Durch den Einsatz von Technologien wie GraphFrame, Azure Synapse Analytics, Apache Spark und PowerBI etablierten wir ein robustes System, das nicht nur eine hohe Datenqualität und reibungslose Übertragung gewährleistet, sondern auch den IT-Governance-Prinzipien entspricht.
 
    • Integration eines Logistikdatenstroms mit Kafka durch PySpark Structured Streaming
    • Definition der notwendigen Datenstrukturen für den Datenstrom
    • Robuste und effiziente Integration des Logistikdatenstroms mit Event Hubs
    • Echtzeitnutzung von Logistikdaten für Analyse und Weiterverarbeitung
    • Entwurf und Implementierung von Pipelines zur Erfassung, Verarbeitung und Weiterleitung des Datenstroms
    • Effiziente Datenverarbeitung mit PySpark Structured Streaming
    • Konfiguration und Initialisierung des PySpark Streaming-Jobs
    • Durchführung umfassender Test- und Überwachungsmechanismen
    • Gewährleistung einer reibungslosen Datenübertragung und hoher Datenqualität
    • Services:  
      • Azure Synapse Analytics
      • Purview Data Catalog
      • Apache Spark
      • Event Hub
      • Structured Streaming 
      • GraphFrame
      • Azure Storage v2
      • PowerBI

09/2021 - 01/2022
Verbesserte Datenverarbeitungs- und Integrationssysteme für E-Commerce mit serverlosen und verteilten Data-Mesh-Architekturen
(Consumer goods and retail, 1000-5000 employees)

  • Projektzusammenfassung:
In diesem Projekt war meine Hauptaufgabe, verschiedene interne E-Commerce-Produktteams bei der Entwicklung, Implementierung und Wartung leistungsfähiger Datenverarbeitungs- und Integrationssysteme zu leiten und zu unterstützen. Der Schwerpunkt lag auf der Migration bestehender Datendienste und -pipelines zu einer neuen, verbesserten Architektur, wobei die Entwicklung eines eventbasierten Systems unter Verwendung serverloser Technologien und Big-Data-Frameworks betont wurde.
 
  • Unterstützung und Anleitung bei der Migration der bestehenden Datendienste, Pipelines und Assets auf eine neue und weiterentwickelte Architektur
  • Entwicklung eines eventbasierten Systems
  • Verwendung von Lambda-Funktionen und PySpark
  • Integration mit Kafka
  • Design- und Architekturplanung
  • Implementierung von Lambda-Funktionen und PySpark-Jobs
  • Konfiguration und Verbindung mit Kafka
  • Serverlose Architektur für Skalierbarkeit und Verfügbarkeit
  • Verarbeitung und Analyse von Ereignisdaten in Echtzeit
  • PySpark-Transformationen, Filterungen und Aggregationen
  • Effiziente und zuverlässige Verbindung mit Kafka
  • Konfiguration, Sicherheitseinstellungen und Integration mit anderen Komponenten
  • Umfangreiche Tests und Überwachungsmechanismen
  • Hochperformantes und skalierbares Event-System
  • Gewinnung wertvoller Erkenntnisse aus Ereignisdaten
  • Datengetriebene Entscheidungsfindung
  • Services:  
    • AWS Glue 
    • Apache Spark 
    • Data Catalog 
    • S3 
    • Athena 
    • Redshift 
    • Lambda 
    • ECS 
    • Step Functions 
  • Umsetzung verteilter Data Mesh Architekturen, damit verschiedene Produktteams effizient mit Daten arbeiten können 
  • Datenverarbeitung mit Big-Data-Frameworks und Datenbanktechnologien 
  • Erarbeitung serverlose/elastische Cloud-Architektur (AWS) 
Bereitstellung der Architektur nach DevOps-Best-Practices und Infrastructure-as-Code (AWS CDK & Terraform)

04/2020 - 09/2021
Migration und Verbesserung der E-Commerce-Datenplattform zur AWS Data Lakehouse-Architektur
(Consumer goods and retail, 500-1000 employees)

  • Projektzusammenfassung:
Dieses Projekt beinhaltete die strategische Entwicklung und Migration bestehender Analytics-Datenpipelines in eine Data Lakehouse-Architektur unter Nutzung von AWS-Diensten. Ein wesentlicher Aspekt war die Verbesserung der Big-Data-Lake-Umgebung und die Gewährleistung strenger Datenqualitäts- und Compliance-Standards, insbesondere im Hinblick auf die DSGVO.
  • Weiterentwicklung der Big Data Lake Umgebung in AWS 
  • Umsetzung und Konzeption eines Data Lakehouse 
  • explorative Analyse sowie Algorithmenentwicklung durch Datenbereitstellung und -aufbereitung (AWS Glue, Spark, Lambda
  • Data Ingestion 
  • Entwicklung von Data Pipelines, ETL-Jobs zur Bereitstellung von konsumfertigen Datenquellen (AWS Glue, AWS Redshift, Spark, PySpark) 
  • Regressionstest und Qualitätsprüfung in den Datenstrecken und Data Lake 
  • Orchestrierung und Anbindung von Datenquellen 
  • Umsetzung von automatisieren Deployments mittels DevOps-Best-Practices (AWS Codebuild + Codepipeline, GitHub Actions
  • Aufbau der Infrastruktur mittels IaC (AWS CDK
  • Systembetreuung (inkl. Kostenmonitoring) 

02/2019 - 04/2020
Entwicklung einer Architektur und Implementierung einer Big-Data-Umgebung für konzernweite, standardisierte Plattformdienste auf Basis von Azure
(Transport and Logistics, 5000-10.000 employees)

  • Projektzusammenfassung:
Dieses Projekt umfasste die Entwicklung und Implementierung einer standardisierten Big-Data-Architektur für konzernweite Plattformdienste im Transport- und Logistiksektor unter Verwendung verschiedener Azure-Dienste. Meine Rolle war entscheidend, um die Integration von Datentransparenz, Datenqualität, DataOps, die Einhaltung von Datenvorschriften und die Implementierung agiler Methodologien sicherzustellen.
    • Erarbeitung von Lösungen in Projekten zu Azure und Automatisierung und Vorstellung/ Diskussion derselben 
    • Azure-Services: Azure Data Catalogue, Azure Synapse Analytics, Azure Data Factory, Azure Databricks 
    • Automatisierter Aufbau der Infrastruktur mit Infrastructure as Code (Terraform) und Ansible 
    • Scrum, JIRA, Gitlab, Docker 
    • Umsetzung Echtzeit-Datenübertragung mit Apache Kafka 
    • Beratung zu Azure Plattformstrategie bzgl. Referenzarchitekturen 
    • Entwicklung von Mechanismen und Automatismen zur proaktiven Beseitigung von Schwachstellen der Azure- und Kubernetes-Komponenten auf Basis standardisierter Cluster (Security by default) 
    • Konzeptionelle Weiterentwicklung der architektonischen und technologischen Plattform im Bereich Container-Orchestrierung auf Basis von Kubernetes, Continuous Integration & Continuous Deployment 
    • Erstellung Benutzer- und Berechtigungskonzepte unter Berücksichtigung der Konzernvorgaben 
    • Betriebsführung der angebotenen Services 
    • Agil arbeitendes Team 
    • Services:
      • Azure Data Catalogue (Purview),
      • Azure Synapse Workspace Analytics,
      • Azure Data Factory,
      • Azure Databricks
      • Terraform
      • Gitlab Runner
      • Azure DevOps

Local Availability

Open to travel worldwide

Covered by Exali's professional indemnity insurance

The freelancer is covered by a reliable insurance provider that offers protection against common risks associated with digital and IT professions (damage claims, third-party cyber damage, etc.).

Profileimage by Jan Krol Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka] from Berlin Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka]
Register