Vorzüge von Cloud-Reporting: Power BI und Snowflake
Durch die fortschreitende Technologisierung werden immer größere Datenmengen gesammelt. Um diese Daten auszuwerten und daraus einen Mehrwert für das Unternehmen zu schaffen, sind häufig Echtzeitanalysen notwendig. Hier kann eine Cloud-Lösung durch die hohe Skalierbarkeit des Datenspeichers aber auch der Rechenleistung eine ideale Lösung darstellen, um die Reporting-Infrastruktur auch kurzfristig an den Bedarf anzupassen und Ressourcen optimal zu nutzen.
Ohne die Nutzung der Cloud erfolgt das Reporting in der Regel auf lokal gehosteten Systemen oder Datenbanken. Die Analyse großer Datenmengen kann aufgrund begrenzter Ressourcen und Kapazitäten der lokalen Systeme langsamer sein oder Batch-Nächte erfordern, in denen die Berichtsdaten vorberechnet werden. Außerdem sind Betrieb und Wartung der Hardware teuer und zeitaufwändig. Auf Nachfrageschwankungen kann nur langsam reagiert werden, so dass in der Realität die Systeme oft entweder überlastet sind oder Ressourcen ungenutzt Kosten verursachen. Hier kann eine Cloud-Lösung kostengünstiger sein und erfordert keine hohen Investitionen in Hardware, Installation und Wartung. Zudem ist der Einstieg in Cloud Lösungen schnell möglich. Oft gelingt die Erstellung eines ersten PoC in wenigen Tagen, während das Einrichten von klassischen Systemlandschaften mehrere Monate benötigt.
In diesem Artikel stellen wir unseren bevorzugten Technologie-Stack für Cloud Reporting vor. Wir haben uns für Snowflake als Data Management Solution Software und Power BI als Self-Analytics Platform entschieden – beide gelten laut Gartner als Marktführer in ihrem Bereich und entwickeln ihre Funktionalitäten laufend weiter. Wir konzentrieren wir uns auf ein Cloud DWH mit Anbindung an Power BI. Obwohl heterogene Datenformate in Cloud DWHs gespeichert werden können und sowohl Snowflake als auch Power BI die Möglichkeit bieten, Daten aufzubereiten, ist es je nach Use Case notwendig, ein ETL-Tool zur Datenaufbereitung anzubinden. Vor allem für Use Cases mit einer hohen Heterogenität der Daten sowie einer aufwendigen Datenvorverarbeitung und Datenbereinigung ist der Einsatz eines weiteren ETL Tools sinnvoll. Snowflake bietet hier einerseits Snowpark zur Umsetzung komplexer Datenpipelines und andererseits Konnektoren zu bekannten ETL Tools wie Talend oder Informatica.
Bild 1: Gartner Quadrate zum Thema „Analytics and BI-Platforms“ und „Cloud Database Management Systems“
Insgesamt sieht der geplante Technologie-Stack also folgendermaßen aus: Wir führen die fürs Reporting benötigten Daten aus verschiedenen Quellsystemen in einer Snowflake-Datenbank zusammen. Dann importieren wir die benötigten Daten über einen Datenbanklink (Power Query) in Power BI und erstellen hier einen Report. Dieser kann dann sowohl über mobile Endgeräte als auch stationäre Computer aufgerufen werden.
Bild 2: Datenfluss im Cloud-Reporting mit Snowflake und Power BI
Kurzerklärung Snowflake und Power BI
Snowflake Inc. ist ein Cloud-basierter Plattformanbieter aus Kalifornien, dessen Hauptprodukt das gleichnamige Cloud Data Warehouse ist.
Vorteile sind eine skalierbare Rechenleistung mit Kosten relativ zur verfügbaren Leistung. Die verfügbare Rechenleistung kann direkt durch einen Klick vom User angepasst werden. Dabei ist es nicht nötig, Software zu installieren oder Hardware anzuschaffen, sondern die Plattform kann über den Browser aufgerufen werden. Effiziente Speicherplatznutzung, richtige Konfiguration, Überwachung, Wartung sowie Aktualisierung auf neuere Versionen und Sicherheit werden von Snowflake im Hintergrund sichergestellt. Darüber hinaus bietet Snowflake eine Reihe von Funktionen, um Daten zu integrieren, zu transformieren und zu analysieren. Dies umfasst auch die Integration von Data Science-Tools, eine leichte Anbindung von Snowflake an andere Produkte und komplexe Abfragen- und Analysewerkzeugen. Dank eines Rollensystems können Datenschutzaspekte umgesetzt werden, da Nutzer:innen nur Daten sehen können und Abfragen durchführen können, für die ihre Rolle berechtigt ist.
Ein Snowflake Data Warehouse kann auf Amazon Web Service, Microsoft Azure oder Google Cloud Platform basieren und kann Daten aus verschiedenen Quellen enthalten. Snowflake unterscheidet zwischen vier verschiedenen Lizenzmodellen (Standard, Enterprise, Business Critical und Virtual Private Snowflake) mit unterschiedlichen Funktionen.
Power BI ist eine Business Intelligence Plattform von Microsoft. Mit Hilfe von Power BI können Berichte und Dashboards erstellt und mit Stakeholdern geteilt werden. Durch die Self-Service-Funktionen ist eine individuelle und interaktive Auswertung der bereitgestellten Daten möglich.
Für die Datenaufbereitung, Berichterstellung und Bereitstellung stellt Power BI einerseits den Power BI Desktop und andererseits den Power BI Service zur Verfügung. Power BI Desktop ist ein Tool zur lokalen Berichts- und Datenbearbeitung. Der Power BI Service ist ein Online-SaaS-Dienst. Dieser Service bietet verschiedene Funktionalitäten wie die Bereitstellung von Power BI Berichten, die Bereitstellung von Dashboards und die Koordination von Power BI Pipelines.
Wie funktioniert die Berichterstellung mit Power BI und welche Rolle spielt die Cloud?
Power BI bietet Schnittstellen zu zahlreichen Datenquellen, darunter auch Cloud DWHs wie Snowflake. Diese Daten können in der integrierten Power Query Komponente aufbereitet werden. Dabei kann der gesamte ETL-Prozess, also das Extrahieren, Laden und Transformieren der Daten umgesetzt werden. Die aufbereiteten Daten stellen ein Dataset in Power BI dar. Diese Aufbereitungsschritte werden lokal im Power BI Desktop durchgeführt. Um das Dataset für verschiedene Berichte zu nutzen, kann es in den Power BI Service geladen werden.
Die Berichtserstellung erfolgt entweder lokal in Power BI Desktop oder direkt im Service – allerdings mit eingeschränkter Funktionalität. Dabei kann auf bereits erstellte Datasets zugegriffen werden. Um die Berichte zu teilen, werden diese in den Power BI Service geladen.
Anbindung der Snowflakedatenquelle in Power BI und Erstellen eines Berichts
Power BI unterstützt Snowflake als Datenquelle. Um einen Bericht in Power BI auf Basis von Snowflake-Daten zu erstellen, muss zunächst die Snowflake-Datenquelle angebunden werden. Dazu erscheint direkt nach dem Öffnen von Power BI die Aufforderung „Daten zum Bericht hinzufügen“: Mit einem Klick auf „Daten aus einer anderen Quelle beziehen“ öffnet sich ein Menü, in dem man unter dem Reiter „Datenbank“ direkt Snowflake als Datenquelle auswählen kann (siehe Screenshot). Anschließend gibt man die Serveradresse seiner Snowflake-Instanz sowie das Warehouse an, auf das zugegriffen werden soll. Danach wird man aufgefordert, seine Snowflake-Zugangsdaten einzugeben. Nach erfolgreicher Konfiguration der Datenquelle wird eine Vorschau der Daten in Power BI generiert.
Bild 3: Datenabruf aus einer Snowflake Datenbank in Power BI und Auswahl, welche Tabellen in Power BI importiert werden sollen
Die Daten sind danach in der Datenansicht von Power BI verfügbar. In der Modellansicht von Power BI wird außerdem ein Datenmodell angezeigt, das Power BI anhand von gleichnamigen Spalten aufstellt. Power BI bietet viele Möglichkeiten zur Aufbereitung der Daten an.
Danach kann ein Bericht erzeugt werden. Dabei bietet Power BI viele praktische Visualisierungstypen wie Tabellen, Karten oder Diagramme an. Um einen Bericht zu erstellen, zieht man per Drag & Drop die gewünschten Datenfelder in die Visualisierungen, die Sie dann anpassen, um die gewünschten Informationen darzustellen. Ein Bericht kann dann in etwa folgendermaßen aussehen:
Bild 4: Beispielbericht mit Power BI generiert
Kosten
Power BI bietet verschiedene Lizenzmodelle an. Power BI Desktop ist kostenlos und kann zur Datenaufbereitung und Berichtserstellung genutzt werden. Um u.a. Berichte in der Cloud zu teilen, ist Power BI Service notwendig. Für die Nutzung des Power BI Service, wird eine Power BI Pro Lizenz benötigt (9,40€ Pro Benutzer/Monat). Jede Person, die geteilte Berichte nutzen möchte, benötigt ebenfalls eine Power BI Pro Lizenz. Weitere Funktionalitäten wie Deployment Pipelines, können nur mit einer Premium Lizenz genutzt werden (18,70€ Pro Benutzer/Monat oder 4.675,60€ pro Kapazität/Monat).
In Snowflake fallen Kosten für Speicherplatznutzung, Rechenleistung und die Inanspruchnahme von Cloud Services an. Hierbei wird nur der tatsächliche Verbrauch in Rechnung gestellt. Für den Speicherplatz fällt eine monatliche Gebühr basierend auf dem durchschnittlichen Speicherplatzverbrauch nach Komprimierung an. Die verbrauchte Rechenleistung zählt Snowflake in der Einheit „Credits“. Je größer die Rechenleistung des Warehouses desto mehr Credits werden verbraucht1. Zusätzlich bietet Snowflake einen Resource Monitor an, um die entstandenen Kosten zu kontrollieren und unerwartet hohe Kosten zu vermeiden. Resource Monitors können so eingestellt werden, dass die Warehouses automatisch heruntergefahren werden, sobald eine gewisse finanzielle Grenze erreicht wird.
Datenschutz
Häufig ist der Datenschutz in der Cloud ein kritisches Thema. Vor allem bei personenbezogenen Daten oder vertraulichen Geschäftsdaten. Zum Thema „Datenschutz“ bieten sowohl Snowflake als auch Power BI Lösungen an.
Snowflake arbeitet mit einem Rollenkonzept, sodass jeder Nutzer nur Daten entsprechend seiner Rolle einsehen kann. Zusätzlich können Masking Policies vom Administrator eingerichtet werden, sodass besonders schützenswerte Daten zensiert dargestellt werden. Außerdem kann man beim Aufsetzen der Snowflake-Datenbank für den Cloudanbieter (Microsoft Azure, Google, Amazon Web Services und Google Cloud Platform) frei wählen und sich für eine Region entscheiden, in der die Daten geografisch gespeichert werden sollen. Dabei existieren drei globale geografische Segmente (Nord-/Südamerika, Europa und Asien-Pazifik). Regionen bestimmen auch darüber, wo die Computerressourcen bereitgestellt werden.
Auch Power BI bringt von Haus aus Features mit, um den Datenschutz zu gewährleisten. Microsoft etabliert verschiedene Sicherheitsstandards für den Umgang mit den Daten in den Cloud-Diensten. Hierzu gehören unter anderem die Verschlüsselung der Daten, sowie die Konfigurierbarkeit des Orts und der genutzten Rechenzentren. Außerdem ist eine umfassende Zugriffskontrolle für die Berichte sowohl für Personen oder Personengruppe als auch für die Daten auf Zeilenebene (Row-Level-Security) integriert.
Ausführliche Informationen zum Thema Cloud und Datenschutz finden Sie in den Hinweisen2.
Vorteile von Cloud-basiertem Reporting
Die Vorteile von Cloud-Datawarehouses sind vielseitig:
Skalierbarkeit:
Während On-Premise Reporting hohe Wartungsaufwände und Kosten für Server erzeugt, sind diese Kosten bei Cloud-Lösungen deutlich geringer. Die verwendeten Ressourcen können entsprechend des Bedarfs skaliert werden. Snowflake skaliert und repliziert die Warehouses entsprechend der gesetzten Rahmenbedingungen automatisch. Auf diese Weise hat das Warehouse auch unter Lastspitzen eine gute Performance und erzeugt zu weniger rechenintensiven Zeiten geringe Kosten. Power BI Kapazitäten nutzen Cloud Plattformen, um die Berichtressourcen abhängig vom Load zu skalieren.
Geringe Einstiegshürde:
Das initiale Investment in eine Cloud-DWH Lösung ist geringer als bei klassischen On-Premise Lösungen. Es muss nicht zunächst in die Infrastruktur und deren Aufbau investiert werden, sondern es kann auf existierende Ressourcen aufgebaut werden. Ein Umzug kleiner Projekte ist durch die hohe Skalierbarkeit einfacher realisierbar.
Zuverlässigkeit:
Cloud DWHs bieten eine hohe Ausfallsicherheit. Durch redundante Infrastrukturen ist ein Zugriff auf die Daten auch bei einer Störung gesichert. Zudem integrieren Cloud-Plattformen Back-Up und Wiederherstellungsmechanismen, so dass ein Zugriff auf einen früheren Zustand bei Datenbeschädigung oder Verlust möglich ist.
Kosteneinsparungen:
Ein Cloud Reporting bietet durch die automatische Skalierung abhängig vom Workload ein Kosteneinsparungspotential, da nur die benötigten Ressourcen bereitgestellt werden. Daneben reduziert sich der Aufwand für Wartung und Betrieb der Infrastruktur, da bspw. Updates und Wartungstätigkeiten durch den Cloud-Anbieter durchgeführt werden.
Kollaboration und Erreichbarkeit:
Cloud Dienste ermöglichen eine Weltweite Erreichbarkeit von Daten und aufbauenden Reports. Dies ist vor allem für verteilte Teams oder global agierende Unternehmen ein zentraler Vorteil. Power BI bietet hier eine hohe Kollaboration durch die Möglichkeit in den Power BI Service geladene Datasets wiederzuverwenden oder einzelne Seiten von Reports in gemeinsame Apps zu vereinen.
Fazit und Getting Started
Cloudlösungen sind durch hohe Skalierbarkeit von Datenspeicher aber auch Rechenleistung eine ideale Lösung in Unternehmen, in denen Echtzeitauswertungen auf großen Daten benötigt werden.
Doch Befürchtungen, Cloudlösungen würden zu hohe Kosten entstehen lassen und Datenschutzbedenken führen häufig dazu, dass Unternehmen sich nicht an die Cloud herantrauen. Die Marktführer der Cloudlösungen sind sich längst dieser Bedenken bewusst und stellen Funktionen zur Verbesserung des Datenschutzes und des Kostencontrollings bereit. Diese Funktionen lohnt es sich anzuschauen und die Cloud für ein gewisses Setting auszuprobieren, um dann zu entscheiden, ob die Funktionen für den eigenen Anwendungsfall ausreichend sind.
Allgemein ist der Einstieg ins Cloud-Reporting dabei einfacher als gedacht. Durch Download von Power BI Desktop3 kann man direkt ohne eine Lizenz Berichte entwickeln und Übungsaufgaben4 durcharbeiten, um mit der Lösung vertraut zu werden. Snowflake bietet von Haus aus sogar einen kostenfreien Data Warehouse Workshop an5. Hier kann schnell ein PoC entstehen und Unternehmen können das Cloud-Reporting für sich ausprobieren.
Langfristig können mit diesem Setting Data Mesh Strukturen im Unternehmen ermöglicht werden6.
Hinweise:
Interessieren Sie sich für eine Einrichtung eines automatischen Datenexports für die Erstellung eines ersten Dashboards (z. B. mit PowerBI) und eine Auswertung durch professionelle Data Scientist:innen und Agile Coaches? Dann sprechen Sie Dr. Ina Humpert und Ronja Köhling gerne an.
1) Preisliste Snowflake
2) Sind meine Daten in der Cloud sicher?
3) Download Power BI Desktop
4) Power BI Übungsaufgabe
5) Kostenloser Workshop von Snowflake zu Data Warehousing
6) Ausblick Datenarchitektur Data Mesh mit Snowflake
Wenn Sie sich für weitere Fachartikel aus den Bereichen Business Intelligence, Künstliche Methoden Testautomatisierung und Business Process Management interessieren, dann schauen Sie gerne im Blog der viadee Unternehmensberatung AG vorbei. Es lohnt sich!
Wenn Ihnen der Beitrag gefällt oder Sie darüber diskutieren wollen, teilen Sie ihn gerne in Ihrem Netzwerk. Und falls Sie sich für weitere Tipps aus der Praxis interessieren, dann testen Sie gerne unseren wöchentlichen Newsletter mit neuen Beiträgen, Downloads, Empfehlungen und aktuellem Wissen. Vielleicht wird er auch Ihr Lieblings-Newsletter!
Ronja Köhling und Dr. Ina Humpert haben einen weiteren Beitrag im t2informatik Blog veröffentlicht:
Ronja Köhling
Ronja Köhling ist Beraterin bei der viadee. Ihr aktueller Schwerpunkt liegt im Bereich Data Science, unter anderem Maschinelles Lernen, Operations Research und Process Mining. Sie ist Schulungsverantwortlich im Bereich Power BI. Derzeit unterstützt sie den Aufbau einer Eventdateninfrastruktur mit einem cloud native Ansatz, um die Grundlage für Process Mining zu schaffen.
Dr. Ina Humpert
Dr. Ina Humpert ist Mathematikerin und als Beraterin bei der viadee IT-Unternehmensberatung tätig. Ihr Schwerpunkt ist Data Engineering auf SQL basierten Datenbanken. Seit zwei Jahren ist sie in einem Reporting-Projekt aktiv, in dem ein Data Warehouse weiterentwickelt wird, auf dessen Basis Berichte erstellt werden. Darüber hinaus interessiert sie sich für agile Themen und deren Schnittstellen zum Bereich Data Science. Sie steht im aktiven Austausch zu diesen Themen mit den Organisationsentwickler:innen der viadee.