Hoe word ik een Azure gecertificeerd Data Engineer?

De DP-203 is een data engineering examen over Microsoft Azure. Als je slaagt voor het DP-203 mag je jezelf een gekwalificeerd deskundige in het integreren, transformeren en consolideren van data noemen. Een mooie skill om toe te voegen aan je cv.

Dit zijn de vereisten voor het DP-203:

gestructureerde en ongestructureerde data begrijpen
“sterke kennis hebben van dataverwerkingstalen”, zoals SQL, Python en Scala
kennis hebben van parallelle verwerking en van data-architectuurpatronen
bedreven zijn in het gebruik van volgende tools voor dataverwerking:
- Azure Data Factory
- Azure Synapse Analytics
- Azure Stream Analytics
- Azure Event Hubs
- Azure Data Lake Storage
- Azure Databricks

Even overweldigd?
Geen probleem, we begeleiden je stap voor stap door het proces. Laten we beginnen met het bekijken van de [DP-203 studiegids]. [https://learn.microsoft.com/en-us/certifications/resources/study-guides/DP-203]

De ‘Skills Measured section’ somt op waar je je best op concentreert:

Ontwerpen en implementeren van gegevensopslag (15-20%)
Ontwikkelen van gegevensverwerking (40-45%)
Beveiligen, bewaken en optimaliseren van gegevensopslag en -verwerking (30-35%)

Leermateriaal

Microsoft biedt gratis lesmateriaal voor de DP-203, maar in mijn ervaring is dit onvoldoende om het examen te halen. Mijn persoonlijke aanbeveling is om gebruik te maken van:

Een cloud leerplatform zoals A Cloud Guru. Naast het lesmateriaal biedt A Cloud Guru hands-on labs binnen Azure en oefenexamens.
Een oefenexamen van Udemy, Whizlabs of Examtopics.com. Die weerspiegelen met hun actuele vragen de werkelijke moeilijkheidsgraaf van de DP-203 beter.
Datacamp.com om SQL en/of Python te leren als je die twee talen nog niet beheerst.

De cursus van A Cloud Guru voor de DP-203 bestaat uit de volgende onderwerpen:

Crash Course Data Engineering

Hier leer je over de basis van data engineering.

Gegevensopslag

Je gaat aan de slag met een basisconcept van gegevensopslag. In dit gedeelte behandel je het volgende:

Azure Data Lakes gebruiken, waarbij je meer vertrouwd raakt met wat het is en hoe het past in data engineering.
Gebruik van een juiste mappenstructuur, de verschillende zones, hoe we onze mappen ontwerpen, bestandstypen begrijpen, leren over zaken als Parquet bestanden en de verschillende opties hierrond en het partitioneren van gegevens.
Van daaruit zul je een aantal best practices met betrekking tot partitioneren bespreken.
Daarna ga je verder met het distribueren van gegevens, bespreken van Azure Synapse Analytics en hoe het omgaat met de onderliggende distributie:
1. het archiveren van data;
2. het snoeien van data om alleen de subset die we willen te behouden en de rest te elimineren;
3. gegevens comprimeren om de grootte van onze database te verkleinen en de prestaties te verbeteren;
4. gegevens te sharen, waarbij we ze verdelen over meerdere computers;
5. implementeren van gegevensredundantie;
6. tot slot kijken naar opties voor het kopiëren van gegevens binnen de primaire en secundaire regio’s.

Specifiek voor dit onderdeel zul je Azure Data Lake storage, Gen2 provisionen en configureren in een praktijkgericht lab.

Data integratie en transformatie

Data integratie en transformatie omvat het extraheren van ruwe materialen en deze transformeren in bruikbare data voor downstreamgebruik. In dit geval gaat het om zakelijke besluitvorming.

Deze gegevens zijn ongelooflijk belangrijk omdat ze de visie voor het bedrijf gaan vormen terwijl het evolueert. In dit gedeelte duik je dieper in het volgende:

inleiding tot Azure Data Factory;
transact-SQL;
inleiding tot Azure Synapse Pipelines;
Scala, Apache Spark;
creëren van data pipelines;
ontwerpen en maken van tests voor datapijplijnen;
Jupiter en Python notebooks integreren in datapijplijnen;
gegevens opschonen, gegevens splitsen, JSON versnipperen en wat dat betekent;
data coderen en decoderen;
configureren van foutafhandeling voor transformaties;
normaliseren en denormaliseren van waarden;
gegevensverkennende analyse uitvoeren en tot slot de sectie samenvatten.

Je merkt het: deze sectie bevat veel informatie en veel verschillende concepten. Allemaal hebben ze wel met data integratie en transformatie te maken.

Oplossing voor batchverwerking

In dit gedeelte leer je meer over:

De fundamenten van batch: batchconcepten en hoe deze koppelen aan services.
Een deep dive in Data Factory.
Ten derde is dit een ontwerp- en implementatiegedeelte. Terwijl je leert over batchconcepten, denk je na over hoe die gekoppeld worden aan echte scenario’s en welke Azure services je hiervoor best gebruikt.

Stream Verwerking Oplossing

In dit hoofdstuk kom je alles te weten over:

Grondslagen van streaming: je denkt na over de concepten die besproken worden, over welke dienst daar telkens het best bij past en over welke stappen je uitvoert om het concept te implementeren in Azure.
Dan volgt een deep dive in Azure Stream Analytics, een erg belangrijk concept voor streaming in Azure.
Houd er ook rekening mee dat dit een ontwerp- en implementatiegedeelte is. Vraag je niet alleen af hoe je een stream verwerkingsoplossing in Azure Stream Analytics verwerkt maar ook waarom en hoe je het zou ontwerpen. Wat zijn de dingen waar je aan moet denken als je verdergaat?

Data serving layer

De volgende sectie behandelt onderstaande zaken:

het ontwikkelen van een fundament: bespreken van schema’s en dimensies en waarom ze belangrijk zijn;
het ontwerpen en bouwen van externe tabellen;
het ontwerpen van metastores en onderhouden van metadata.

Beveiliging en compliance configureren

Beveiliging komt voor in alle Microsoft certificeringen, maar in de DP-203 ligt de nadruk op gegevens. Als we kijken naar beveiliging en compliance, zijn er eigenlijk 2 belangrijke concepten of termen:

De eerste is data-auditing, waaronder dataretentie, waarbij je uitzoekt hoe de data te configureren en op te kuisen.
Het tweede concept is beveiliging van gegevens, met gegevensversleuteling en gevoelige informatie.
Tot slot zijn er de standaard beveiligingskwesties. Denk aan zaken als RBAC, of het beveiligen van verschillende diensten.

Bewaking van gegevensopslag en gegevensverwerking

Hoe ontwikkel je een monitoring strategie met de nadruk op prestaties? Hoe zorg je er voor dat dingen minder kosten, sneller klaar zijn en gestroomlijnder worden? Het antwoord op deze vragen ontdek je in verschillende termen:

De eerste is monitor: denk daarbij aan datapijplijnen, clusterprestaties, Azure Monitor metrics en logs, en wat dat betekent.
De andere kant daarvan is meten. We stappen af van de pijplijnprestaties als metriek en gaan kijken naar onze gegevensbewegingen of naar hoe onze query’s presteren.

In dit gedeelte wordt er gesproken over verschillende dataservices. Het is heel belangrijk dat je je concentreert op de service. Je moet weten hoe je toegang hebt tot elk concept en die koppelt aan Azure Synapse, Azure Stream Analytics of wat de service ook is.

Optimaliseren en oplossen van problemen bij gegevensopslag en -verwerking

Tenslotte worden deze zaken behandeld:

Hoe gaan we om met ‘data skew’ en ‘data spill’?
Tuning: hoe shuffelen we partities? Hoe gebruiken we queries met behulp van indexen en queries met behulp van cache?
Optimaliseren: resource management, pipelines…
Problemen oplossen bij een mislukte Spark job
Debuggen van Spark jobs met behulp van de Spark UI
Optimaliseren van pijplijnen voor analytische of transactionele doeleinden

Hoe bereid je je voor op het examen?

Het examen duurt ongeveer 210 minuten en heeft tussen de 40 tot 60 vragen.

Je kunt je verwachten aan case studies, vragen met meerdere antwoorden, vragen met één antwoord en meer.

Het is mogelijk dat je ook labs op het examen ziet. Op dit moment zijn labs niet vanzelfsprekend, maar ze moeten altijd overwogen worden.

In dit gedeelte gaan we het alleen hebben over hoe je je voorbereidt op het examen. Maak gebruik van deze 7 tips.

Doe een laatste controle van de gemeten vaardigheden. Zorg ervoor dat je die vaardighedenschets bekijkt en of er geen wijzigingen zijn gemarkeerd in het wijzigingslogboek van het examen. Dat is heel belangrijk.
Er zijn geen labs op het examen, maar doe alsof die er wel zijn.
Als je eenmaal op het examen bent, elimineer dan antwoorden en raad wanneer je vastzit. Je wordt niet bestraft voor gissen.
Reken er ook niet op dat je nog een keer terug kunt. Door de manier waarop de examens zijn opgebouwd, kun je op sommige onderdelen terugkomen en op andere niet.
Microsoft probeert je niet voor de gek te houden. Laat je dus niet opjagen door wat een misleidende vraag lijkt. Ga er gewoon vanuit dat het geen valstrik is en schrap de antwoorden waarvan je weet dat ze fout zijn.
Scores zijn relatief. Als je een score van 600 haalt, betekent dat niet dat je 60% van de vragen goed hebt. Dat is relatief en gebaseerd op de mensen die het examen maken.
Het enige waar je je zorgen over moet maken is de kleine tabel aan het einde. Daarin vind je de percentages en waar je gescoord hebt voor elk van de hoofdonderdelen (zie figuur 1). Dat zal je helpen om verder te komen in je carrière en om gebieden op te pikken waarop je het misschien minder goed hebt gedaan.

GOUDEN TIP: Plan je examen weken op voorhand in. Zo ben je niet alleen zeker van je tijdslot maar heb je ook een concreet doel om naartoe te werken.

Enable

Build

Optimize