Ongestructureerde data hoeft geen rommeltje te zijn

Inhoudsopgave

Classificatie

De basis voor integratie

Probeer je voor te stellen dat alle systemen in een landschap dezelfde set referentiewaarden of metadata gebruiken. Dat zowel in een:

  • SharePoint-landschap,
  • CRM-systeem,
  • HR-systeem,
  • WordPress-site,
  • enzovoort.

dezelfde keuzelijsten worden aangeboden om bestanden of informatie-objecten te verrijken. Dan wordt het mogelijk om alle waarden in het hele landschap te verbinden met een zoekmachine.

Integratie is niet langer een kwestie van complexe koppelingen. Het is van belang dat als alle systemen dezelfde betekenis ontlenen aan waarden als appels en peren, een informatielandschap op vrij eenvoudige wijze wordt opgewaardeerd tot een organisch geheel.

Metadata, een kind kan de was doen!

Het belang van metadata voor uw organisatie.

Auto-classificatie

Jargon en andere moeilijke woorden

Gestructureerde versus ongestructureerde data

Taxonomy

Een woord dat afkomstig is uit het Grieks. Een combinatie van (taxa)concepten zoals orde, rangschikking samen met (nómos) woorden zoals gebruik, regels en recht De wetenschap van het rangschikken van individuen of objecten in groepen (taxa, of de enkele term taxon).

De term taxonomie kan worden gebruikt voor zowel de methode van het ordenen van concepten als voor de hiërarchische ordening die het resultaat is van het proces. Zo’n hiërarchische structuur of ordening en de activiteit om tot zo’n ordening te komen, wordt classificatie genoemd. Bijna alles kan in een taxonomie worden georganiseerd of gestructureerd: leven en levende organismen, gereedschappen, goederen, allerlei dingen, boeken, topografie, administratieve structuren, evenementen, enz.

Taxonomie in technologie

In de informatica ontstaat de behoefte om steeds meer gangbare terminologie te gebruiken in systemen en databases, onder meer ten behoeve van de integratie van gegevens uit verschillende systemen en voor de unieke uitwisseling van productgegevens, zoals e-businesssystemen en kennis -gedreven ontwerpen. Om dit mogelijk te maken wordt gebruik gemaakt van gestandaardiseerde definities van concepten, waarbij de termen zijn gerangschikt in een subtype-supertype hiërarchie of taxonomie. Deze structuur heeft naast een ander groot voordeel dat eigenschappen van supertypes worden overgeërfd door subtypes.

Op het gebied van informatica en kunstmatige intelligentie wordt de afgelopen jaren geprobeerd om vanuit een set van concepten een taxonomie te creëren en te onderhouden. Een voorbeeld is de automatische classificatie van een groep documenten, bijvoorbeeld digitale bibliotheken. Opmerkelijk is dat op dit gebied onderscheid wordt gemaakt tussen taxonomie en typologie. Het verschil zit hem vooral in de manier waarop de indeling tot stand komt. In een taxonomie rangschik je een groep voorbeeldobjecten door ze te verdelen. De volgende stap is kijken welke kenmerken een concept heeft en je plaatst het in een hiërarchie door gebruik te maken van overkoepelende features. Dit proces vormt de taxonomie.

In een typologie gaat men uit van het concept. Men is van mening dat onderscheidende kenmerken normaal gesproken elk object kunnen hebben, en gaat vervolgens over tot het classificeren van de werkelijke objecten in overeenstemming met deze regels. Voorbeeld De Nederlandse steden kunnen worden onderverdeeld in provincies en steden (zoals steden in Limburg, Nederland, of steden in Noord-Brabant…) volgens het aantal inwoners. Steden met meer dan 500.000 inwoners, steden met 250.000 – 500.000 inwoners of andere combinaties.

De meeste groepen objecten kunnen op verschillende manieren worden ingedeeld. Sommige typologieën worden echter als beter beschouwd dan andere. Een typologie met lege categorieën (bv. Steden in Limburg met meer dan 500.000 inwoners) kan als een zwakke typologie worden beschouwd. Aan de andere kant zorgen te veel objecten in een categorie ook voor een slechte typologie.

De termen, typologie, classificatiesysteem en taxonomie kunnen als synoniemen worden beschouwd. In de domeinen psychologie, informatica / kunstmatige intelligentie wordt onderscheid gemaakt tussen deze termen. Het verschil zit in de manier waarop ze worden gemaakt; taxonomie (empirisch) of typologie (conceptueel).

Begrippen die in een typologie verwant zijn, kunnen in een taxonomie niet verwant zijn. Stel dat je een typologie definieert van dingen die je mee moet nemen als cadeau voor een bezoek van een zieke collega, dan verwacht je concepten als appels, peren, bloemen en tijdschriften voor kruiswoordraadsels.

Het is onwaarschijnlijk dat deze concepten gecombineerd worden in een taxonomie.

Typology

Een folksonomie is een systeem waarin gebruikers openbare tags toepassen op online items, meestal om ze te helpen die items terug te vinden. Deze praktijk wordt ook wel collaboratieve/sociale tagging, sociale classificatie of sociale indexering genoemd.

Folksonomy (toen het werd “uitgevonden”) was oorspronkelijk “het resultaat van persoonlijke gratis tagging van informatie voor eigen gebruik. De grens tussen folksonomy en social tagging (tags in een open online omgeving waar de tags van andere gebruikers beschikbaar zijn voor anderen) Folksonomy wordt vaak gebruikt in coöperatieve en collaboratieve projecten, zoals onderzoek, content repositories en sociale bladwijzers.

De term folksonomie is een mengeling van de woorden folk en taxonomie.

Als je taxonomie definieert als een manier van beheerde metadata, is folksonomie het tegenovergestelde, het is slechts een container met ongeordende termen, maar als je het gebruik van elke term kunt afleiden, kun je zinvolle termen voor een organisatie vinden en als je de folksonomie gebruikt bewaakt, bevorder woorden aan de taxonomieën.

Voorbeelden:

  • Twitter-hashtags
  • Instagram
  • WordPress

In veel systemen of (sociale media) platforms kunnen folksonomies in tag clouds worden gepresenteerd.

In klassieke zin is een thesaurus een soort naslagwerk. Een thesaurus wordt gebruikt om het exacte woord voor een object, een bepaalde technische term of een woord met de gewenste connotatie te vinden (stijloverwegingen).

In moderne tijden is het een hulpmiddel dat unieke concepten verbindt via hiërarchische equivalente en associatieve relaties. De term komt uit het Grieks en betekent schat. Het werd aanvankelijk in de taalkunde opgericht als een logisch-systematisch (en alfabetisch, maar niet verklarend) woordenboek: de concepten van taal werden gecategoriseerd en vergeleken met gerelateerde concepten:

synoniemen; woorden die een vergelijkbare betekenis hebben. Soms gebruiken mensen de term datadictionary als synoniem voor thesaurus
Hyperoniemen; woorden die een breder begrip beschrijven. Lexicon heeft een bredere betekenis dan een thesaurus.
Hyponiemen; woorden met een beperktere betekenis. Thesaurus heeft een engere betekenis dan een thesaurus,
Antoniemen; woorden met de tegenovergestelde betekenis.

De term “thesaurus” wordt ook gebruikt voor een naslagwerk met een gespecialiseerd vocabulaire binnen een bepaald belang of beroep, zoals geneeskunde of muziek. Met behulp van een thesaurus maakt de catalogus van bijvoorbeeld een bibliotheek deze toegankelijker dan via een uiteindelijk willekeurige opstelling.

Voor categorisatie en referentie is men niet strikt gebonden aan de termen (en taal) van een boek of andere media zoals video of geluid die geen tekst of metadata bevatten.

Een thesaurus kan zelfs meerdere termen per publicatie of informatie-item toekennen.

Thesaurus

Ontologie

In de informatica en logica is een ontologie het resultaat van een poging om een volledig en strikt conceptueel schema over een bepaald onderwerp of domein te definiëren. Het woord ontologie is een term die in de filosofie wordt gebruikt.

Een ontologie is typisch een gegevensstructuur die alle relevante entiteiten en hun relaties binnen de regels van het domein beschrijft. Op het gebied van kunstmatige intelligentie wordt het begrip ontologie gebruikt om de ‘echte wereld’ te beschrijven op een manier die een computer kan begrijpen. Een andere manier om het te beschrijven is kennisrepresentatie.

In een semantisch web moet een computer de betekenis van tekst of metadata uit een model afleiden en op basis van die informatie redenering, effect of conclusie berekenen.

Een ontologie wordt gebruikt als een strikt en volledig model voor een bepaald domein, meestal in een hiërarchische structuur, met daarin alle relevante eenheden en hun relaties en de regels waaraan deze eenheden en relaties moeten voldoen.

Een term die gebruikt wordt in datamodellering, maar moeilijk op zichzelf te definiëren is.

Woorden die het concept benaderen

  • Typisch
  • Normaal 

Een gestandaardiseerde manier van weergeven. Volgens erkende, geaccepteerde regels. Het is ook een bijvoeglijk naamwoord dat betekent dat het onderwerp in overeenstemming is met de canon, de regels (oorspronkelijk kerkelijke wetten). Canonieke kwesties zijn zo geloofwaardig, en dat geldt ook voor een canoniek model.

CANONIC GEBRUIKT IN INFORMATIEARCHITECTUUR

Informatiearchitecten hebben het vaak over canonieke modellen die de werkelijkheid opsplitsen in concepten en relaties. Een model maakt de werkelijkheid zichtbaar. Een canoniek model is een helder conceptueel model ontworpen op basis van een gestandaardiseerde en gemeenschappelijke benadering van iets in een bepaalde context (een stukje werkelijkheid) met als resultaat.

  • Helderheid
  • Standaardisatie
  • Gemeenschappelijk voorkomen
  • Context

canoniek model is ondubbelzinnig en verklaart daarom slechts op één manier. De betekenissen van de begrippen in het model zijn gebaseerd op een algemeen aanvaarde standaard. Denk aan een typische beschrijving van een auto. Een auto is een zeer complexe zaak, maar het volgen van het model “auto” is vrij universeel.

Het model reduceert de complexiteit van de auto tot enkele belangrijke concepten die met elkaar verband houden. Een typische auto heeft een carrosserie, een motor, een stuur, een vooras met twee wielen en een achteras met twee wielen. Het stuur is verbonden met de vooras en de motor drijft één of beide assen tegelijk aan. Dit model is typerend voor een auto. Elke auto voldoet aan dit model. Driewielers zijn dat inderdaad niet, dus het model is niet universeel, maar binnen de context van een autofabrikant die alleen vierwielige voertuigen produceert.

Een canoniek model vereenvoudigt de communicatie over zaken in een bepaalde context (bijvoorbeeld een bedrijf). Iedereen binnen die context die bekend is met het model weet wat er wordt bedoeld als de concepten in dit model worden besproken. Het komt voor, zeiden vrij simpele misverstanden. Het model is immers eenduidig.

Canoniek Model