Dataproduct

In datamanagement en productmanagement is een dataproduct een herbruikbare, actieve en gestandaardiseerde data-asset dat is ontworpen om meetbare waarde te leveren aan de gebruikers, zowel intern als extern, door de strikte principes van productdenken en -management toe te passen. Het bestaat uit een of meer data-artefacten (bijv. datasets, modellen, pipelines) en is verrijkt met metadata, waaronder governancebeleid, datakwaliteitsregels, datacontracten en, indien van toepassing, een Software Bill of Materials (SBOM) om de afhankelijkheden en componenten ervan te documenteren. Het eigendom van een dataproduct is afgestemd op een specifiek domein of use case, wat zorgt voor verantwoording, beheer en de continue ontwikkeling ervan gedurende de hele levenscyclus. Een dataproduct is ontworpen om vindbaar, schaalbaar, herbruikbaar en afgestemd te zijn op zowel bedrijfs- als regelgevingsnormen, wat innovatie en efficiëntie in moderne data-ecosystemen stimuleert.
Geschiedenis
[bewerken | brontekst bewerken]In 2012 stelde DJ Patil de eerste gedocumenteerde definitie voor: een dataproduct is een product dat een einddoel faciliteert door het gebruik van data.[1]
In 2019 introduceerde Zhamak Dehghani het Data Mesh-concept, met een sterke focus op domeingerichte dataproducten.[2] Later, in 2020, consolideerde ze Data Mesh rond vier principes, waaronder Data as a Product. Hierin definieert ze een dataproduct als het knooppunt in het mesh dat drie structurele componenten (data en metadata, code en infrastructuur) omvat die nodig zijn voor zijn functie en die toegang biedt tot de analytische data van het domein als een product.[3]
In 2024 publiceerde Andrea Gioia een van de eerste boeken specifiek over dataproducten na de aankondiging van Data Mesh. In zijn boek definieert Gioia het concept van een puur dataproduct.[4]
In 2025, tijdens de Data Day Texas-conferentie, kwamen Jean-Georges Perrin en een collectief van productmanagers en data-engineers bijeen om de huidige definitie te formuleren en beschikbaar te stellen aan het publiek domein.[5]
Karakteristieken
[bewerken | brontekst bewerken]Een dataproduct is ontworpen om vindbaar, schaalbaar, herbruikbaar en afgestemd te zijn op zowel bedrijfs- als regelgevingsnormen, wat innovatie en efficiëntie in moderne data-ecosystemen stimuleert. Essentiële kenmerken van een dataproduct zijn:[6]
- Ontdekbaarheid: Dataproducten moeten gemakkelijk vindbaar zijn. Idealiter worden zij gepubliceerd in een catalogus of register waarin gebruikers kunnen zoeken en navigeren. Om het terugvinden te vergemakkelijken, dienen ze vergezeld te gaan van aanvullende informatie (metadata) zoals het domein, de eigenaar, gegevensafstamming (lineage) en kwaliteitsindicatoren.
- Adresseerbaarheid: Elk dataproduct moet een permanente en unieke identificatie hebben volgens gestandaardiseerde naamgevings- en adresseringsconventies. Deze unieke adressen maken geautomatiseerde en consistente toegang tot gegevens mogelijk voor alle gebruikers.
- Begrijpbaarheid: Na ontdekking is het essentieel dat gebruikers het dataproduct kunnen begrijpen. Dit vereist adequate documentatie, inclusief een goed beschreven dataschema met semantiek en syntaxis. Duidelijke beschrijvingen vergemakkelijken het zelfbedienend gebruik van data.
- Vertrouwbaarheid en Waarheidsgetrouwheid: Vertrouwen in een dataproduct overstijgt vindbaarheid en begrijpelijkheid. Het vertrouwen wordt versterkt door naleving van overeengekomen service level objectives (SLO's), zoals: Frequentie van updates en actualiteit, Volledigheid, Beschikbaarheid en prestaties en Herleidbaarheid van gegevens (lineage).
- Toegankelijkheid: De bruikbaarheid van een dataproduct hangt af van de mogelijkheid om het te benaderen met de gebruikelijke tools van de eindgebruiker. Data-analisten verwachten bijvoorbeeld SQL-toegang voor rapportages, terwijl data scientists vaak werken met bestandsstructuren voor AI-modellen.
- Interoperabiliteit en Compositie: Dataproducten moeten onderling combineerbaar zijn. Dit vereist gestandaardiseerde metadata, gegevensstructuren en typeconventies, zodat domeinoverstijgende samenstelling en hergebruik mogelijk wordt.
- Waarde: De waarde van een dataproduct komt pas tot uiting wanneer het daadwerkelijk gebruikt wordt voor het verbeteren van bedrijfsresultaten. Ze kunnen zelfstandig waarde leveren of gecombineerd worden met andere producten voor meerwaarde.
- Veiligheid: Dataproducten moeten veilig zijn. Dit betreft toegangsbeheer, eigenaarschap en robuuste governance. Er moet controle zijn over wie toegang heeft, in welke context, hoelang data worden bewaard en welke mate van vertrouwelijkheid van toepassing is.
Voorbeelden
[bewerken | brontekst bewerken]
- data.gov.be met als voorbeeld data van de Nationale Bank van België met een “Overzicht van de economische kerncijfers per bedrijfstak en sector, zoals toegevoegde waarde en werkgelegenheid”[7]
- data.europe.eu
- Datasets op Hugging Face[8]
- Research datasets via Google Research[9]
Succes
[bewerken | brontekst bewerken]Een onderzoek van Confluent in 2024 bevestigt het succes. 72% van de respondenten geven aan dat een dataproduct-benadering voordelen opleveren. En 98% stelt dat dataproducten leiden naar betrouwbaarder datadelen tussen bedrijfsonderdelen. Tot slot stelt 90% dat ze bijdragen aan beter risicomanagement en 91% stelt dat kost allocatie beter is door gebruiksstatistieken.[10]
- ↑ (en) Patil, D. J., Data Jujitsu: The Art of Turning Data into Product. O’Reilly Media (16 juli 2012). Geraadpleegd op 18 april 2025.
- ↑ (en) Dehghani, Zhamak, How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh. martinfowler.com (20 mei 2019). Geraadpleegd op 18 april 2025.
- ↑ (en) Dehghani, Zhamak, Data Mesh Principles and Logical Architecture. martinfowler.com (3 december 2020). Geraadpleegd op 18 april 2025.
- ↑ (en) Gioia, Andrea, Managing Data as a Product: Design and build data-product-centered socio-technical architectures. Packt (Nov. 2024). Geraadpleegd op 18 april 2025.
- ↑ (en) Perrin, Jean-Georges, Defining Data Products: A Community Effort. Medium (28 januari 2025). Geraadpleegd op 18 april 2025.
- ↑ (en) Triki, Selima, The 8 characteristics of a successful data product (14 september 2022). Geraadpleegd op 18 april 2025.
- ↑ Belangrijkste componenten per bedrijfstak en sector. NBB. Geraadpleegd op 18 april 2025.
- ↑ (en) Hugging Face – The AI community building the future.. huggingface.co (14 april 2025). Geraadpleegd op 18 april 2025.
- ↑ (en) Datasets – Google Research. research.google. Geraadpleegd op 18 april 2025.
- ↑ (en) 2024 Data Streaming Report. Confluent (2024). Geraadpleegd op 18 april 2025.