Databricks certificatie: Tips and tricks – Associate Data Engineer

Freelance opdracht

Deze blog heeft als doel een introductie te geven tot het databricks associate data engineer certificaat, het examen, en het delen van tips en tricks ter voorbereiding en aanpak van het behalen van het certificaat.

Als introductie volgt er wat uitleg over databricks en waarom het een uitstekend platform is voor data-engineering doeleinden, en hierna gaan we over naar de meer praktische zijde en zoomen we in op het certificaat.

Nathan Hannes

Data Engineer Consultant , Juvo

Databricks: What’s in It for You?

Sinds databricks in 2013 werd opgericht door de oprichters van Apache Spark is het uitgegroeid tot een van de meest vooraanstaande cloud-based data platformen voor data analyse en ETL toepassingen. Bijkomend heeft het platform een uitgebreide selectie van machine learning toepassingen en modellen waardoor het tot een onmisbare tool is uitgegroeid in de gereedschapskist van vele data professionals. 

Omdat het platform gebouwd is op Apache Spark biedt het de mogelijkheid om state-of-the-art data producten te bouwen met enorme performantie door de gedistribueerde backend die op de cloud draait. Voornamelijk de real-time collaboratieve notebooks die iteratief samenwerken op projecten bevorderen en het groot scala aan programmeertalen die met databricks geintegreerd zijn (denk aan python, scala en sql) maken het tot een veelzijdig en gebruiksvriendelijk platform dat voor ieder wat wils biedt.

Databricks voor Data Engineers

Een van de grootste argumenten die data engineers zou moeten overtuigen databricks te gebruiken is de schaalbaarheid en performantie. Omdat databricks in de cloud draait en compute clusters in de cloud worden geprovisioneerd is de schaalbaarheid quasi onbegrensd. De Spark backend maakt het mogelijk zeer performante gedistribueerde data pipelines op te zetten. Dit maakt ook het monitoren en beheren van de compute kosten makkelijk aangezien men enkel de clusters betaald die men gebruikt gedurende de tijd dat ze draaien. 

Data pipelines in databricks bestaan doorgaans uit al dan niet van elkaar afhankelijke taken (‘tasks’), die samen geintegreerd worden in een workflow. Het beheren van dependencies tussen deze tasks en workflows is zeer intuitief, alsook het schedulen ervan. Verder maakt de integratie met pyspark de tool zeer werkbaar voor mensen die een achtergrond hebben in de programmeertaal python, welke een fundament is geworden in de wereld van data engineering.

Het databricks platform bevat verder de mogelijkheid om makkelijk en snel dashboards te bouwen gebaseerd op SQL queries die toelaten pipelines te monitoren en diverse data quality visualisaties uit te bouwen met bijkomende alerting als er iets misgaat. Dit maakt de tool zeer breed toepasbaar en zijn er ook talrijke reporting toepassingen mogelijk, zowel binnen databricks zelf gebruikmakende van de dashboards of door de diverse integraties met reporting tools als Tableau. 

Databricks is verder geintegreerd met git waardoor het een native support biedt voor git version controlling via bv. Github, hetgeen een absolute vereiste in de meeste collaboratieve data engineering omgevingen van vandaag. Dit maakt het mogelijk de volledige historiek van de ETL pipelines te raadplegen en op een gestructureerde en overzichtelijke manier aan nieuwe features en bugfixing te werken.

Databricks Certificatie: Bezint Eer Je Begint

Mensen die geinteresseerd zijn een databricks certificaat te halen moeten een aantal prerequisites in acht nemen. Databricks ondersteund een aantal programmeertalen: scala, python, java, sql en R. Om deze reden is het aangewezen een grondige basis te hebben in zowel SQL alsook een van de resterende talen. Gelukkig sta je er niet alleen voor en zijn er heel wat resources voorhanden om vrij snel een goede basis te verwerven.

Voor een basis in python, de taal die ik zelf gebruik, raad ik Python Institute aan waar je gratis de nodige Python kennis kan verwerven via een web-based opleiding (en vrijblijvend certificatie kan behalen tegen een prijs). Ook betalende online platformen als datacamp of coursera kunnen hier nuttig zijn voor meer diepgaande kennis. 

Aangezien databricks draait op Apache Spark is een fundamentele kennis van spark ook zeer aan te raden vooraleer aan de certificatie te beginnen. De databricks academy (https://www.databricks.com/learn/training) biedt gratis opleidingen aan om de fundamenten van pyspark onder de knie te krijgen, zoals de cursus ‘Apache spark programming with databricks’. Hierop kunnen trouwens ook resources gevonden worden om python voor databricks te leren. Een fundamentele basiskennis van spark zou voldoende moeten zijn om van start te gaan met databricks en een groot scala aan toepassingen te kunnen uitbouwen.

We zullen hier niet verder ingaan op de andere talen ondersteunt door databricks, maar voor de geïnteresseerden zal een google search zeker mogelijkheden brengen om ook deze te leren.

Databricks associate data engineer certificaat

De praktische details van het certificaat zijn hier te vinden: https://www.databricks.com/learn/certification/data-engineer-associate . De onderdelen die hier getoest worden zijn de volgende, met het gewicht aan ieder gelinkt:

      • Databricks lakehouse – 24%
      • ELT with Spark SQL and python – 29%
      • Incremental data processing – 22%
      • Production Pipelines – 16%
      • Data Governance – 9%

Om de theorie onder de knie te krijgen zijn verscheidene resources voor handen: op de customer academy kan men een cursus vinden ‘Data engineering with databricks’ dat al deze topics covert Al zou ik sterk aanraden eerst een cursus databricks fundamentals te volgen (voorhanden op de customer academy alsook op andere platformen als udemy) waar je inzicht verwerft in hoe databricks werkt, de delta-lake storage en lakehouse architectuur en de integratie met verscheidene cloud platformen die databricks biedt. Dit zal de volgende stappen vergemakkelijken en je bekend maken met vaakgebruikte termen die in vervolgcursussen verondersteld gekend te zijn. Het zal je ook grotendeels klaarstomen voor het eerste deel van de certificatie: ‘databricks lakehouse’.

De vervolgdelen worden uitgebreid gecoverd in de hiervoor genoemde cursus die door databricks aangeboden wordt, of via andere cursussen op Udemy en andere platformen. Ikzelf heb de databricks cursus gevolgd, alsook 2 udemy cursussen:

      • Databricks-certified-data-engineer-associate op Udemy: deze cursus overloopt al de benodigde theorie en biedt ook een github repo aan waarmee je hands-on ervaring kan opdoen met databricks notebooks, python en sql code en diverse databricks features
      • Practice-exams-databricks-certified-data-engineer-associate op Udemy: deze oefenexamens zijn gekoppeld aan voorgaande cursus en helpen je aftoetsen waar je staat met de voorbereiding en of verdere studie nodig is om te slagen voor het certificatie examen.

Zowel de cursus, aangeboden door databricks, als de genoemde databricks cursus biedt notebooks aan die als doel hebben praktische ervaring op te doen met databricks. Ik kan niet genoeg benadrukken hoe waardevol deze resources zijn ter voorbereiding op de certificatie. Hoe waardevol de theoretische kennis ook is, nothing beats practice. 

Om deze notebooks uit te voeren is een databricks account nodig. Er kan gratis een communtiy edition customer account angemaakt worden via volgende link: https://docs.databricks.com/en/getting-started/community-edition.html 

De enige prerequisite hiervoor is een account op een van de grote 3 platformen: Google Cloud, AWS of Azure. In deze account wordt zelfs een gratis cluster voor je geprovisioneerd (met beperkte capaciteit weliswaar).

Indien je al de voorgaande stappen doorlopen hebt en je klaar voelt om het examen af te nemen is er online ook een officieel oefenexamen beschikbaar dat representatief is voor het effectieve examen, inclusief antwoorden op de gestelde vragen.

Het examen zelf bestaat uit 45 meerkeuzevragen waarvoor je 90 minuten de tijd krijgt om ze op te lossen en waarvoor de inschrijvingsprijs rond de 200 USD ligt. Giscorrectie wordt niet toegepast en er worden geen hulpmiddelen toegelaten, waardoor het belangrijk is ook de theorie onder de knie te hebben. De minimale score is 70%, wat in de praktijk betekent dat er minstens 32/45 vragen correct beantwoord moeten worden. Met een degelijke voorbereiding zou dit geen probleem mogen vormen.

Voor meer detail over het examen zelf en het soort vragen, zie: 

https://files.training.databricks.com/static/docs/databricks-certified-data-engineer-associate-exam-guide.pdf

Registreren voor het examen

Dan rest er ons nog 1 ding: registreren voor het examen! Dit kan via het certificatieplatform van databricks: https://www.databricks.com/learn/certification

Hier kan je een datum en tijdstip kiezen voor een online proctored exam gefaciliteerd door webassessor. Je kan dus comfortabel vanuit je bureaustoel het examen afnemen op een door jezelf gekozen tijdstip. Geen excuses meer mogelijk dus, let’s get certified!

 

Veel leerplezier en veel succes!

Herbekijk ook zeker het Snowflake webinar van Nathan 

Webinar Snowflake