Data-kwaliteit

Informatie is nagenoeg identiek aan data, alleen is er één groot verschil: informatie heeft context, het is gekwalificeerd. Data hebben uit zichzelf geen context en dus geen waarde.

Pas wanneer de data in context wordt geplaatst, kan het informatie worden.

Het is mijn ambitie om lastige zaken met betrekking tot informatiemanagement op toegankelijke wijze uit te leggen. Ik pretendeer niet dat ik hier de norm bepaal. Ik bied mijn kennis en inzicht maar je eigen waarneming en ervaring zijn evengoed waar. Gebruik Wikipedia en Google ook eens op de term AIIM (association for information and image management). Daar kun je heel veel vinden

Deze site is voor een doelgroep van vakgenoten en anderen die betrokken zijn. Als je timmerman bent of arts of burgemeester dan heb je hier niet zoveel aan.

Het houdt ergens op!

Master en metadata

We hebben het hier over twee begrippen die nauw met elkaar zijn verbonden en in de basis heeeft het één doel: Het verhogen van informatiekwaliteit.

Bij metadata ligt de focus op het optimaal ordenen van een in dividueel informatieobject terwijl masterdata zich richt op de totale verzameling. 

Classificatie

Classificatie is de handeling waarbij dingen in groepen worden georganiseerd op basis van hun overeenkomsten. Dit is te zien in de organisatie van objecten, verschijnselen en processen. Er zijn twee soorten classificaties: het proces van het organiseren van objecten en de vastgelegde uitkomst van de classificatie. Om deze uitkomsten vast te leggen, wordt een classificatiesysteem gebruikt.

Soms wordt het woord ‘classificatie’ ook gebruikt als iets vertrouwelijk of geheim is. Dit is een onjuist impliciet gebruik van de term. Het toekennen van de waarde ‘openbaar’ of ‘publiek’ aan een informatieobject is ook een vorm van classificatie.

Samenvattend is classificatie het proces waarbij dingen worden gegroepeerd op basis van hun overeenkomsten.

Labeling

De koeien op het plaatje zijn gelabeld omdat daar processen mee worden aangestuurd. 

Op basis van die labels worden ze bijvoorbeeld onderscheiden voor de voedermachines zodat ze precies toegediend krijgen wat is ingesteld. 

Op basis van het profiel wat ze opbouwen wordt de melkmachine ingesteld, onder andere met behulp van kunstmatige intelligentie worden de karakteristieken van de uier vastgelegd zodat de melkrobot precies weet waar de spenen hangen en onder welke hoek. 

Terug naar het idee van informatie-management.

Het proces van labeling gaat over het toekennen van metadata aan informatie-objecten. Die labels bieden parameters voor andere systemen zoals:

  • Search
  • Data Loss Preventie DLP
  • Toegangscontrole (authorisatie)
In de informatica en in bijzonder de ongestructureerde informatie worden processen aangestuurd en wordt filtering (op zoekresultaten) mogelijk. Denk hierbij even aan een systeem als Spotify dat 100 miljoen ongestructureerde informatieobjecten bevat. Iedereen kan overweg met de zoekinterface die helemaal is gebaseerd op selecteren van labels en met een paar klikken heb je precies het liedje wat je zoekt.

Terug naar data loss prevention. Stel: je organisatie stelt een regel in dat in formatie die is gelabeld met de waarde “geheim” dat deze niet verstuurd mag worden via e-mail naar externe gebruikers. Dat label “geheim” is voldoende informatie voor de Information Exchange Gateway (IEG) om een transactie waabij een gebruiker toch een geheim bericht wil mailen, om dat bericht tegen te houden. Natuurlijk kan daar ook nog notificatie op worden gezet

Ook nog even terug naar autorisatie. Stel je hebt een aantal bestanden in een bibliotheek zitten en die bibliotheek bevat de autorisatierechten voor lezen, aanmaken, of bewerken van bestanden. Dan krijgen alle gebruiekrs die rechten hebben op de bibliotheek alle bestanden te zien die er in staan. Ongeacht de rubricering. Stel nu dat het systeem een check kan uitvoeren op een systeem wat bijhoudt wat iemand zijn screening-niveau is, dan kunnne bestanden waarop de gebruiker geen recht heeft uit het overzicht worden gehaald en zelf al heeft deze de URL dan nog kan worden voorkomen dat het gelabelde bestand wordt geopend. Besef ook dat een bestand in een bibliotheek wordt getoond op basis van labeling. Ergens in de database staat ook een padverwijzing. 
 

Labelen (het proces van…)

Dat labelen kan met de hand op momenten dat je een informatieobject of een bestand aanmaakt of wijzigt. Daar zitten nadelen aan. 

Mensen vinden het veel werk; zelf als ze 5 documenten in een week maken dan kost dat 5 keer 30 seconden (indien het heel grondig moet) en dat komt uit op bijna 3 minuten per week.

Mensen labelen volgens hun eigen perceptie en op basis van het humeur wat op dat moment speelt. Daardoor ontloopt het systeem bepaalde kenmerken die later wel van waarde kunnen zijn. 

Het kan ook geautomatiseerd. Dan spreekt men van auto-classificatie. 

Auto-classificatie

Er zijn veel vormen van auto-classificatie maar laten we beginnen met het fenomeen auto-classifcatie of auto-labeling van tekst. 
 
Belangrijkste voordelen:
  • Snelheid
  • Grondigheid en compleetheid
  • Consistentie
  • Volume-capaciteit 
  • Labelen van documenten die al zijn opgeslagen

Inhoudsopgave

Metadata

Metadata management: Meta (of metagegevens) verwijst naar gegevens die informatie verstrekken over andere gegevens. Het geeft context, betekenis en structuur aan de gegevens. Metadata management omvat het beheren en documenteren van meta gegevens, zoals data definities, data classificaties, data eigenaarschap en data herkomst. De functie van metadata management is om ervoor te zorgen dat gebruikers begrijpen wat de gegevens betekenen, waar ze vandaan komen en hoe ze moeten worden geïnterpreteerd. Dit helpt bij het verbeteren van de gegevenskwaliteit, de rapportage en de besluitvorming in een organisatie.

Soorten metadata

  • Administratief. Deze labels bevatten informatie die nodig is om het digitale object te kunnen beheren. Denk, bijvoorbeeld, aan rubricering, maar ook aan labels zoals bewaartermijnen.
  • Beschrijvend. Deze labels worden gebruikt om de data te beschrijven (waar het over gaat). Beschrijvende metadata maken het mogelijk om een digital object te identificeren, lokaliseren en terug te vinden.
  • Structureel – Deze labels geven informatie over hoe een digitaal asset is georganiseerd, en/of het deel uitmaakt van een of meer collecties.

Een aantal labels is niet manipuleerbaar en wordt door het systeem toegekend. Denk aan creatie- en wijzigingsdatums alsmede de actoren die via hun account het proces in gang hebben gezet. Waarden als file size en versie worden door het systeem toegekend. Beschrijvende en structurele metadata lenen zich juist voor handmatige aanpassing.

Het belang van metadata voor je organisatie.

Door een bestand in een bepaald mapje op te slaan maak je feitelijk al gebruik van metadata. Het mapje biedt context want degenen die er meer werken vinden dat de bestanden die daar in staan bij elkaar horen. 

Een IT-techneut beseft dat dat mapje wordt getoond omdat de bestanden die daar in zitten die map als label hebben meegekregen. Dat label toekennen doe je al door het daar in te slepen.

De basis voor integratie

Probeer je voor te stellen dat alle systemen in een landschap dezelfde set referentiewaarden of metadata gebruiken. Dat zowel in een:

  • SharePoint-landschap,
  • CRM-systeem,
  • HR-systeem,
  • WordPress-site,
  • enzovoort.

dezelfde keuzelijsten worden aangeboden om bestanden of informatie-objecten te verrijken. Dan wordt het mogelijk om alle waarden in het hele landschap te verbinden met een zoekmachine.

Integratie is niet langer een kwestie van complexe koppelingen. Het is van belang dat als alle systemen dezelfde betekenis ontlenen aan waarden als appels en peren, een informatielandschap op vrij eenvoudige wijze wordt opgewaardeerd tot een organisch geheel.

Jargon en moeilijke woorden

Gestructureerde versus ongestructureerde data

Ongestructureerde data hoeft geen rommeltje te zijn

Taxonomy

Een woord dat afkomstig is uit het Grieks. Een combinatie van (taxa)concepten zoals orde, rangschikking samen met (nómos) woorden zoals gebruik, regels en recht De wetenschap van het rangschikken van individuen of objecten in groepen. Alsof iedere tak aan een stam andere zaken indeelt. 

De term taxonomie kan worden gebruikt voor zowel de methode van het ordenen van concepten en daarbij is hiërarchie vaak onontkoombaar. Zo’n hiërarchische structuur en de toepassing daarvan wordt classificatie genoemd.

Bijna alles kan in een taxonomie worden georganiseerd of gestructureerd: leven en levende organismen, gereedschappen, muziekinstrumenten, sporten, goederen, allerlei dingen, boeken, topografie, administratieve structuren, evenementen, enz.

Taxonomie in de technologie en IT in bijzonder

In IT ontstaat de behoefte om steeds meer gangbare terminologie te gebruiken in systemen en databases, onder meer ten behoeve van de integratie van gegevens uit verschillende systemen en voor de unieke uitwisseling van productgegevens, zoals e-businesssystemen en kennis -gedreven ontwerpen. Hierbij wordt aandacht besteed aan de toepasing van alledaagse menselijke taal en synoniemen worden voor de database teruggebracht naar een eenduidige sleutel en zelfs veeltaligheid wordt op deze wijze ondersteund. 

Om dit mogelijk te maken wordt gebruik gemaakt van gestandaardiseerde definities van concepten, waarbij de termen zijn gerangschikt in een subtype-supertype hiërarchie of taxonomie. Deze structuur heeft naast een ander groot voordeel dat eigenschappen van supertypes worden overgeërfd door subtypes. 

Een termenset in SharePoint is inderdaad een vorm van taxonomie maar draai dat niet om. Een model kan een waardevolle taxonomie zijn zonder dat het in SharePoint als een termenset (managed metadata) is ondergebracht

De termen, typologie, classificatiesysteem en taxonomie kunnen als synoniemen worden beschouwd. In de domeinen psychologie, informatica / kunstmatige intelligentie wordt onderscheid gemaakt tussen deze termen. Het verschil zit in de manier waarop ze worden gemaakt; taxonomie (empirisch) of typologie (conceptueel).

Begrippen die in een typologie verwant zijn, kunnen in een taxonomie niet verwant zijn. Stel dat je een typologie definieert van dingen die je mee moet nemen als cadeau voor een bezoek van een zieke collega, dan verwacht je concepten als appels, peren, bloemen en tijdschriften voor kruiswoordraadsels.

Het is onwaarschijnlijk dat deze concepten gecombineerd worden in een taxonomie.

 

In een typologie gaat men uit van het concept. Men is van mening dat onderscheidende kenmerken normaal gesproken elk object kunnen hebben, en gaat vervolgens over tot het classificeren van de werkelijke objecten in overeenstemming met deze regels. Voorbeeld De Nederlandse steden kunnen worden onderverdeeld in provincies en steden (zoals steden in Limburg, Nederland, of steden in Noord-Brabant…) volgens het aantal inwoners. Steden met meer dan 500.000 inwoners, steden met 250.000 – 500.000 inwoners of andere combinaties.

De meeste groepen objecten kunnen op verschillende manieren worden ingedeeld. Sommige typologieën worden echter als beter beschouwd dan andere. Een typologie met lege categorieën (bv. Steden in Limburg met meer dan 500.000 inwoners) kan als een zwakke typologie worden beschouwd. Aan de andere kant zorgen te veel objecten in een categorie ook voor een slechte typologie.

Typology

Een folksonomie is een systeem waarin gebruikers, in het openbaar, tags toepassen aan online items, meestal om ze te helpen die items terug te vinden. Deze praktijk wordt ook wel collaboratieve/sociale tagging, sociale classificatie of sociale indexering genoemd.

Folksonomy (toen het werd “uitgevonden”) was oorspronkelijk “het resultaat van persoonlijke gratis tagging van informatie voor eigen gebruik. De grens tussen folksonomy en social tagging (tags in een open online omgeving waar de tags van andere gebruikers beschikbaar zijn voor anderen) Folksonomy wordt vaak gebruikt in coöperatieve en collaboratieve projecten, zoals onderzoek, content repositories en sociale bladwijzers.

De term folksonomie is een mengeling van de woorden folk en taxonomie.

Als je taxonomie definieert als een manier van beheerde metadata, is folksonomie het tegenovergestelde, het is slechts een container met ongeordende termen, maar als je het gebruik van elke term kunt afleiden, kun je zinvolle termen voor een organisatie vinden en als je de folksonomie gebruikt bewaakt, bevorder woorden aan de taxonomieën.

Voorbeelden:

  • Twitter-hashtags
  • Instagram
  • WordPress

In veel systemen of (sociale media) platforms kunnen folksonomies in tag clouds worden gepresenteerd.

In klassieke zin is een thesaurus een soort naslagwerk. Een thesaurus wordt gebruikt om het exacte woord voor een object, een bepaalde technische term of een woord met de gewenste connotatie te vinden (stijloverwegingen).

In moderne tijden is het een hulpmiddel dat unieke concepten verbindt via hiërarchische equivalente en associatieve relaties. De term komt uit het Grieks en betekent schat. Het werd aanvankelijk in de taalkunde opgericht als een logisch-systematisch (en alfabetisch, maar niet verklarend) woordenboek: de concepten van taal werden gecategoriseerd en vergeleken met gerelateerde concepten:

synoniemen; woorden die een vergelijkbare betekenis hebben. Soms gebruiken mensen de term datadictionary als synoniem voor thesaurus
Hyperoniemen; woorden die een breder begrip beschrijven. Lexicon heeft een bredere betekenis dan een thesaurus.
Hyponiemen; woorden met een beperktere betekenis. Thesaurus heeft een engere betekenis dan een thesaurus,
Antoniemen; woorden met de tegenovergestelde betekenis.

De term “thesaurus” wordt ook gebruikt voor een naslagwerk met een gespecialiseerd vocabulaire binnen een bepaald belang of beroep, zoals geneeskunde of muziek. Met behulp van een thesaurus maakt de catalogus van bijvoorbeeld een bibliotheek deze toegankelijker dan via een uiteindelijk willekeurige opstelling.

Voor categorisatie en referentie is men niet strikt gebonden aan de termen (en taal) van een boek of andere media zoals video of geluid die geen tekst of metadata bevatten.

Een thesaurus kan zelfs meerdere termen per publicatie of informatie-item toekennen.

Thesaurus

Een term die gebruikt wordt in datamodellering, maar moeilijk op zichzelf te definiëren is.

Woorden die het concept benaderen

  • Typisch
  • Normaal 

Een gestandaardiseerde manier van weergeven. Volgens erkende, geaccepteerde regels. Het is ook een bijvoeglijk naamwoord dat betekent dat het onderwerp in overeenstemming is met de canon, de regels (oorspronkelijk kerkelijke wetten). Canonieke kwesties zijn zo geloofwaardig, en dat geldt ook voor een canoniek model.

CANONIC GEBRUIKT IN INFORMATIEARCHITECTUUR

Informatiearchitecten hebben het vaak over canonieke modellen die de werkelijkheid opsplitsen in concepten en relaties. Een model maakt de werkelijkheid zichtbaar. Een canoniek model is een helder conceptueel model ontworpen op basis van een gestandaardiseerde en gemeenschappelijke benadering van iets in een bepaalde context (een stukje werkelijkheid) met als resultaat.

  • Helderheid
  • Standaardisatie
  • Gemeenschappelijk voorkomen
  • Context

canoniek model is ondubbelzinnig en verklaart daarom slechts op één manier. De betekenissen van de begrippen in het model zijn gebaseerd op een algemeen aanvaarde standaard. Denk aan een typische beschrijving van een auto. Een auto is een zeer complexe zaak, maar het volgen van het model “auto” is vrij universeel.

Het model reduceert de complexiteit van de auto tot enkele belangrijke concepten die met elkaar verband houden. Een typische auto heeft een carrosserie, een motor, een stuur, een vooras met twee wielen en een achteras met twee wielen. Het stuur is verbonden met de vooras en de motor drijft één of beide assen tegelijk aan. Dit model is typerend voor een auto. Elke auto voldoet aan dit model. Driewielers zijn dat inderdaad niet, dus het model is niet universeel, maar wel binnen de context van een autofabrikant die alleen vierwielige voertuigen produceert.

Een canoniek model vereenvoudigt de communicatie over zaken in een bepaalde context (bijvoorbeeld een bedrijf). Iedereen binnen die context die bekend is met het model weet wat er wordt bedoeld als de concepten in dit model worden besproken. Het komt voor, zeiden vrij simpele misverstanden. Het model is immers eenduidig.

Canoniek Model

Ontologie

In de informatica en logica is een ontologie het resultaat van een poging om een volledig en strikt conceptueel schema over een bepaald onderwerp of domein te definiëren. Het woord ontologie is een term die in de filosofie wordt gebruikt.

Een ontologie is typisch een gegevensstructuur die alle relevante entiteiten en hun relaties binnen de regels van het domein beschrijft. Op het gebied van kunstmatige intelligentie wordt het begrip ontologie gebruikt om de ‘echte wereld’ te beschrijven op een manier die een computer kan begrijpen. Een andere manier om het te beschrijven is kennisrepresentatie.

In een semantisch web moet een computer de betekenis van tekst of metadata uit een model afleiden en op basis van die informatie redenering, effect of conclusie berekenen.

Een ontologie wordt gebruikt als een strikt en volledig model voor een bepaald domein, meestal in een hiërarchische structuur, met daarin alle relevante eenheden en hun relaties en de regels waaraan deze eenheden en relaties moeten voldoen.