KI–Berechnungen mit Unternehmensdaten verknüpfen

August 2025

Kurze Einführung und Überblick

Die Einführung der neuen SAP-Flaggschiff-Lösung Business Data Cloud zeigt, wie Unternehmensdaten und die Geschäfts-KI von SAP in naher Zukunft zusammenarbeiten werden. 

Databricks nimmt einen wichtigen Platz in der Architektur der brandneuen SAP-Plattform ein, während Datasphere Modellierungsaufgaben übernimmt und die SAP Analytics Cloud für die Datenvisualisierung zuständig ist. 

Quelle: https://www.sap.com/products/data-cloud.html 

In diesem Blog zeigen wir, wie sich durch die Kombination der drei Produkte SAP-Daten mit den Ergebnissen eines benutzerdefinierten Machine-Learning-Modells bündeln und visualisieren lassen. 

Ich stelle ein Szenario zur Prognose der Speiseeis-Nachfrage vor, bei dem tatsächliche Transaktionsdaten mit einer Wettervorhersage kombiniert werden, die durch ein benutzerdefiniertes Predictive-Modell erzeugt wurde. 

Der aktuelle Blogbeitrag soll keine komplexen Fälle aus dem Bereich maschinelles Lernen oder Best Practices für die Datasphere-Modellierung vorstellen, sondern vielmehr zeigen, wie die Interaktion zwischen den Produkten aussieht und wie sie sich gegenseitig ergänzen. Der hier beschriebene Geschäftsfall ist vereinfacht dargestellt; dasselbe Konzept kann jedoch auf beliebig komplexe Szenarien angewendet werden – beispielsweise auf die Analyse des Kundenverhaltens, die Erstellung personalisierter Chatbots, die Optimierung der Bestandsverwaltung, die Analyse von Social-Media-Kampagnen und vieles mehr. 

In diesem Blog werde ich beschreiben, wie man: 

  • in Databricks ein lineares Regressionsmodell für Wettervorhersagen erstellt, 
  • die vorhergesagten Ergebnisse mit Datasphere teilt, 
  • in Datasphere ein analytisches Modell erstellt, das Transaktionsdaten mit den von Databricks erhaltenen Vorhersagen kombiniert, und 
  • das analytische Modell in der SAP Analytics Cloud nutzt, um eine Nachfrageprognose zu erstellen. 

Bevor wir loslegen, möchte ich darauf hinweisen, dass ich keinen BDC-Tenant verwende. Datasphere und SAC werden erst ab dem 1. Januar 2026 innerhalb von BDC verfügbar sein, weshalb ich ursprünglich vorhatte, die BDC-Testversion zu nutzen. Leider war mein Test-Tenant jedoch so eingeschränkt, dass ich keine benutzerdefinierten Data Products erstellen und diese mit Databricks teilen konnte. Auch das Erstellen benutzerdefinierter Notebooks in Databricks war nicht möglich.  

Meine Datasphere- und Databricks-Mandanten befinden sich in separaten Clouds und sind über JDBC miteinander verbunden. BDC wiederum verwendet das Delta Share-Protokoll, um Daten zwischen Anwendungen auszutauschen.  

Dennoch sollten wir bedenken, dass Datenprodukte im Wesentlichen Datensätze sind, und der einzige Unterschied zwischen diesem Blog und dem BDC-Mandanten das Datenaustauschprotokoll ist. 

Inhalt

Business Szenario

Technische Umsetzung 

  • Überblick Datenmodell 
  • Modell mit linearer Regression in Databricks erstellen 
  • Modellierung in Datasphere 
  • Visualisierung in SAC

Zusammenfassung

Business Szenario

In einer Speiseeis-Manufaktur werden zwei Arten von Eis hergestellt: ein Milcheis und ein Fruchteis. In jeder Sommersaison wird eine Nachfrageprognose auf der Grundlage der tatsächlichen Zahlen des Vorjahres erstellt. Die tatsächlichen Zahlen jeder Saison können im Monatsvergleich jedoch erheblich von den Zahlen des Vorjahres abweichen. 

Das Unternehmen führte eine Analyse durch, die – Überraschung, Überraschung – das Wetter als Hauptfaktor für die Nachfrage identifizierte. 

Es wurde ein Zusammenhang zwischen der Lufttemperatur und der verkauften Menge jeder Eissorte festgestellt: Mit steigender Temperatur steigt die Menge des verkauften Fruchteises, und mit sinkender Temperatur steigt die Menge des verkauften Milcheises. 

Aufgrund dieser Korrelation wurde ein KI-Modell entwickelt, um Wettervorhersagen für den folgenden Monat zu erstellen. Die Kenntnis der Lufttemperaturen ermöglicht eine genauere Nachfrageprognose. Eine präzise Nachfrageprognose führt wiederum zu erhöhter Liquidität, verbesserter Beschaffung und reduzierten Lagerkosten. 

Technische Umsetzung

Überblick Datenmodell

Die Ist-Daten werden über eine CSV-Datei in Datasphere geladen. Diese sind ein Datenprodukt im BDC-Tenant. Diese Daten können z. B. aus einem S/4HANA-Cloud-System kommen.

Die historischen Daten für das Wetter werden in Databricks direkt von Zenodo.org gelesen (in einem echten System kann dies jeder andere Wetterdienst sein).

Databricks verwendet die historischen Wetterdaten als Trainingsdatensatz für das KI-Modell. Nachdem das Modell trainiert ist, wird eine Wettervorhersage für den nächsten Monat erstellt. Diese Vorhersage wird dann nach Datasphere übertragen, für die weitere Modellierung und Berechnung.

Datasphere erhält die Wettervorhersage von Databricks und berechnet den Forecast für den Eisverkauf auf Basis des Ist-Verkaufs des Vorjahres.

Der so erzeugte Forecast im analytischen Modell von Datasphere wird dann als Datenquelle für die SAC-Story verwendet.

 

Der komplette Datenfluss ist in folgendem Bild dargestellt:

Modell mit linearer Regression in Databricks erstellen

Im Folgenden ist das Python-Skript dargestellt, das ich für die Modellierung der Wettervorhersage mit einer linearen Regression erstellt habe.

 

Installiere die benötigten Libraries:

Lade den Datensatz in ein Pandas Data Frame. Ich verwende nur die Region Basel.

Der Datensatz kommt von: https://zenodo.org/records/4770937/files/weather_prediction_dataset.csv

Durchführen einer Konvertierung und Definition des Merkmals – Vektors mit den Ziel – Variablen

Definition der Trainings – und Testdaten und trainieren des Models

Überprüfen des Modells mit der mittleren quadratischen Abweichung und des Residuenquadrats

Darstellung der Genauigkeit des Modells

Nun ist das vortrainierte Modell bereit, die Temperaturen für August 2025 vorherzusagen..

„X_test_aug_2025“ enthält den Merkmalsvektor;

„y_pred_2025“ – vorhergesagte Temperatur;

„August_2025_output“ Tabelle mit der Anzahl Tage in jeder Kategorie

Definition der Kategorieen:

„Cold“ – Kleiner als 17° C;

„Warm“ – zwischen 17° C und 19° C;

„Hot“ – Größer als  20° C.

Jetzt erfolgt noch die Formatierung von Pandas- nach Spark-Datenrahmen und das Speichern der Tabelle im Unity Catalog.
Die endgültige Tabelle „August_2025_Forecast“ enthält die Spalten Region, Jahr, Monat, Temperaturkategorie und die erwartete Anzahl von Tagen pro Temperaturkategorie.

Log und registriere das Modell, um es weiter verwenden zu können.

Das Modell “weather_fcst_lr” ist nun im Unitiy – Katalog gesichert.

Modellierung in Datasphere

Als nächsten Schritt wollen wir die Wettervorhersage aus Databricks nach Datasphere übertragen und dies mit den transaktionalen Ist-Daten verknüpfen.

 

Das Datasphere Datenmodel:

Die generierte Wettervorhersage wird aus Databricks über einen Remote-Tabellenzugriff in Datasphere über eine generische JDBC-Verbindung zur Verfügung gestellt.

In diesem Blog werden die Schritte erklärt, wie eine JDBC – Verbindung zwischen Datasphere und Databricks aufgebaut wird.

Ein graphischer View „GV_DBX_FCST_DAY_NUM“ basiert auf der Remote – Tabelle:

Der graphische View „GV_ACT_AVG_D_PC“ basiert auf der lokalen Tabelle, die die durchschnittlichen täglichen Verkaufsmengen aus dem letzten Jahr je Produktkategorie enthält. Im unteren Bereich ist die Datenvorschau zu sehen.

Der graphische View „GV_FCST_QUANT“ enthält die Berechnung für den Forecast des nächsten Monats („Quantity_FCST“).

Die durchschnittliche Verkaufsmenge je Produkt- und Temperaturkategorie aus August 2024 wird mit den erwarteten Tagen der entsprechenden Temperaturkategorie multipliziert, um den Forecast zu erhalten.

 

Die Ist-Werte des Vorjahres werden mit der Prognose für das aktuelle Jahr in der Ansicht „GV_FCST_Month_Total“ kombiniert.

In der Datenvorschau unten sehen Sie die Spalte „Quantity“, die die tatsächlichen täglichen Verkaufsmengen darstellt, die auch für die Prognoseberechnung des aktuellen Jahres herangezogen werden. Die Spalte „Quantity_FCST“, berechnet als „Quantity“* „Number of days“, stellt die monatliche Mengenprognose für das aktuelle Jahr dar. Es ist wichtig, die Kennzahlen in der Ansicht auszugeben.

 

Das analytische Modell „AV_ACT_FCST_QUANT“ wird auf der Grundlage der grafischen Ansicht „GV_FCST_Month_Total“ für die weitere Verwendung in SAC erstellt:

 

Darstellung in der SAC

Das analytische Modell „AM_ACT_FCST_QUANT“ wird in der SAC-Story direkt als Datenquelle verwendet. Das Modell ist über die SAC-Datasphere-Verbindung verfügbar:

 

Die folgende SAC-Story basiert auf dem analytischen Modell und visualisiert:

  • die Gesamtnachfrage pro Produktkategorie,
  • die Anzahl der Tage pro Temperaturkategorie,
  • den durchschnittlichen Tagesumsatz des Vorjahres pro Produktkategorie,
  • den Vergleich zwischen Prognose und Ist-Zahlen.

 

Zusammenfassung

In diesem Blog habe ich gezeigt, wie SAP Datasphere, SAP Analytics Cloud und Databricks zusammenarbeiten und es ermöglichen, Unternehmensdaten mit den Ergebnissen eines KI-Modells zu bündeln. Auch wenn der Anwendungsfall vereinfacht dargestellt ist, lässt sich dasselbe Konzept in Fällen beliebiger Komplexität anwenden, beispielsweise bei der Analyse des Kundenverhaltens, der Erstellung personalisierter Chatbots, der Optimierung der Bestandsverwaltung, der Analyse von Social-Media-Kampagnen und vielem mehr.

Ich habe gezeigt, wie man:

  • ein lineares Regressionsmodell in Databricks für Wettervorhersagen erstellt;
  • die vorhergesagten Ergebnisse mit Datasphere teilt;
  • ein analytisches Modell in Datasphere erstellt, das Transaktionsdaten und die von Databricks erhaltenen Prognosen kombiniert;
  • das analytische Modell in SAC nutzt und eine Nachfrageprognose visualisiert.

 

 

Bleiben Sie dran für weitere Artikel über Business Data Cloud, Databricks und Business-KI, in denen es darum geht, wie diese Anwendungen die Art und Weise verändern, wie wir mit Unternehmensdaten umgehen!

 

Wenn Sie mehr über SAP Business Data Cloud erfahren möchten, könnte Sie das Webinar zu diesem Thema interessieren, das vom biX Consulting-Team vorbereitet wurde: https://www.bix-consulting.com/en/sap-business-data-cloud/

 

Data Products Setup

I’ll start with Data Products setup. If you’re new to the concept, this recent video is a great starting point, but here’s a short summary. A data product is a well-described, easily discoverable, and consumable collection of data sets.

Creating a Data Product in Datasphere

Note that in this article I create Data Products in the Data Sharing Cockpit in Datasphere. This functionality is expected to move into the Data Product Studio, but that had not taken place at the time writing.

Before creating a Data Product in Datasphere, I need to set up a Data Provider profile, collecting descriptive metadata like contact and address details, industry, regional coverage, and importantly define Data Product Visibility. Enabling Formations allows me to share the Data Product with systems across your BDC Formation – Databricks, in this case.

With the Data Provider set up, I can go ahead and create a Data Product. As with the Data Provider, I’ll need to add metadata about the product and define its artifacts – the datasets it contains. Only datasets from a space of SAP HANA Data Lake Files type can be selected. Since this Data Product is visible across the Formation, it is available free of charge.

For this demo, the artifact is a local table containing ten years of Ice Cream sales data. Since this is a File type space, importing a CSV file directly to create a local table isn’t an option (see documentation).

I used a Replication Flow to perform an initial load from a BW aDSO table into a local table.

Once Data Product is created and listed, it becomes available in the Catalog & Marketplace, from where it can be shared with Databricks by selecting the appropriate connection details.

Jump into Databricks

To use the shared object In Databricks, I need to mount it to the Catalog – either by creating a new Catalog or using an existing one.

Databricks appends a version number to the end of the schema – ‘:v1’ – to maintain versioning in case of any future changes to the Data Product.

Once the share is mounted, the schema is created automatically, and the Sales actual data table becomes available within it. From there, I can access the shared table directly in a Notebook.

Creating a Data Product in Databricks

To create a Data Product in Databricks, I first need to create a Share – which I can either do via the Delta Sharing settings in the Catalog:

Or directly out of the table which is going to become a part of the Share:

Since a single Share can contain multiple tables, I have the option to either add the table to an existing Share, or create a new one:

To publish the Share as a Data Product, I run a Python script where I define the target table for the forecast and describe the Share in CSN notation, setting the Primary Keys. Primary Keys are required for installing Data Products in Datasphere.

Jump back into Datasphere

Once the Databricks Data Product is available in Datasphere, I install it into a Space configured as a HANA Database space – since my intention is to build a view on top of the table and use it for planning in SAC.

There are two installation options: as a Remote table for live data access, or as a Replication Flow, in which case the data is physically copied into the object store in Datasphere.

Since I want live access, I install it as a Remote Table:

and build a Graphical view of type Fact on top:

Forecast calculation

With my Data Products set up and Sales actual data are available in Databricks, I create a Notebook to calculate the Sales Forecast.

The approach combines Sales and Weather data to train a Linear Regression model. I import the Weather data *https://zenodo.org/records/4770937 from an external server directly into Databricks, select the relevant features from the weather dataset, and combine them with the Sales actual data:

* Klein Tank, A.M.G. and Coauthors, 2002. Daily dataset of 20th-century surface
air temperature and precipitation series for the European Climate Assessment.
Int. J. of Climatol., 22, 1441-1453.
Data and metadata available at http://www.ecad.eu

Using the “sklearn” library, I build and train a Linear regression model:

Once trained, the model predicts the Sales forecast for Rome in June 2026 based on the weather forecast, and I save the results to my Catalog table:

Seamless planning data model

Seamless planning concept is built around physically storing planning data and public dimensions directly in Datasphere, keeping them alongside the actual data.

Since the QRC4 2025 SAC release, it has also been possible to use live versions and bring reference data into planning models without replication.

In this scenario, I build a seamless planning model on top of the Graphical view I created over the Remote table. This lets me use the forecast generated in Databricks as a reference for the final SAC Forecast version.

 

The model setup follows these steps:

Create a new model:

Start with data:

Select Datasphere as the data storage:

From there, I define the model structure and can review the data in the preview.

For a deeper dive into Seamless Planning, I recommend this biX blog.

Process Flow automation

Multi-action triggers Datasphere task chain

The final step is automating the entire forecast generation by using SAC Multi-actions and a Task-Chain in Datasphere – so that my user can trigger the calculation with a single button click from an SAC Story.

The model setup follows these steps:

Create a new model:

Triggering Task Chains from Multi-actions is a recent release. This blog post walks through how to set it up.

For details on how to trigger a Databricks Notebook from Datasphere, I recommend referring to this blog.

With everything in place, I create a Story, add my Seamless planning Model, and attach the Multi-action:

Running the Multi-action triggers the Task Chain, which in turn triggers the Databricks Notebook.

I can monitor the execution details in Datasphere:

and in Databricks:

Once the calculation completes, the updated forecast appears in the Story:

The end-to-end calculation took 2 minutes 45 seconds in total. The Task Chain in Datasphere is triggered almost instantly by the Multi-action, the Databricks Notebook execution itself took 1 minute 29 seconds, with the remaining time spent on Serverless Cluster startup.   

 

From here, I can copy the calculated forecast into a new private version:

adjust the numbers as needed, and publish it as a new public version to Datasphere:

Conclusion

With SAP Business Data Cloud, it is possible to build a forecasting workflow that feels seamless to the end user — even though it spans multiple systems under the hood.

Companies using BW as the main Data Warehouse and Databricks for ML calculations or Data Science tasks can benefit from using the platform, as the data no longer needs to be physically copied out of BW.

What this scenario demonstrates is that once wrapped as a Data Product, BW sales data can be shared with Databricks via the Delta Share protocol. Databricks, in turn, can then create its own Data Products on top of the calculation results and share them back with Datasphere as a Remote Table.

A Seamless Planning model in SAC sits on top of that Remote Table, giving planners live access to the generated forecast. A single Multi-action in an SAC Story ties it all together, triggering a Datasphere Task Chain that kicks off the Databricks Notebook — completing the full cycle in under three minutes.

As SAP Business Data Cloud continues to mature, scenarios like this one are becoming achievable – leaving the complexity in the architecture and not in the workflow.

Ansprech­partner

Ilya Kirzner
Consultant
biX Consulting
Datenschutz-Übersicht

Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.