Technology15.02.2014

De opmars van Graph Databases en hoe dat onze informatie-retrieval zal veranderen


de-opmars-van-graph-databases-en-hoe-dat.jpg
de-opmars-van-graph-databases-en-hoe-dat.jpg

In de afgelopen maanden heeft Facebook aangekondigd dat zij Graph Search, onder de naam van Unicorn, voor haar gebruikers zal introduceren. Voor deze technieken is het noodzakelijk ook een andere dan de main-stream database techniek, relational DBMS toe te passen. Deze nieuwe database techniek staat bekend onder Graph Databases en die nemen een enorme vlucht en er zijn inmiddels veel aanbieders van deze alternatieve manier om databases te bouwen. De belangrijste aanbieder is Neo4j een open-source database manager. De hype in Graph Database toepassing is naast de Facebook Search Tool vooral te vinden in online dating.

Er zijn een paar belangrijke redenen waarom Graph databases beter en sneller de informatie behoefte van gebruikers zal verbeteren en de producenten van diensten zal helpen om snel, accuraat en voor grote hoeveelheden data die informatiebehoefte zal kunnen invullen.

Hoewel de traditionele databases veruit in de meerderheid zijn, groeit het gebruik van Graph Databases spectaculair.

Het succes van de relationele databases komt uit het tijdperk dat computeres en de software voornamelijk gericht waren op het automatiseren van bedrijfsprocessen. Die techniek is niet goed toepasbaar op de netwerken van informatie zoals we die op het internet vinden en opbouwen. Sociale netwerken heten niet voor niets ‘netwerken.

Volgens db-engine.com groeit het aantal toepassingen van Graph databases spectaculair:

groei-grapg-databases.jpg
groei-grapg-databases.jpg

Graph Databases representeren hun data in ‘nodes’ (knooppunten) en ‘edges’ (pijlen met een richting). Die edges geven relaties tussen de nodes, die staan voor een object, begrip, handeling, item, naam(woord, status of categorie. Bijna alle informatie is op die manier te ordenen met als voordeel dat ieder object als node uniek is en daardoor een database technisch eenvoudig is te onderhouden. Alleen het aantal relaties naar andere (relevante) nodes kan per item variëren en de wolk van nodes met de omliggende gerelateerde notes verrijken feitelijk de betekenis en informatie.

Wat niet moet worden onderschat is dat met name graph databases key zijn voor het opbouwen en gebruiken van databases voor wat we zijn gaan noemen ‘big data’. Immers, iedereen die ervaring heeft met Big data problematiek, weet dat je hoofdpijn kan krijgen van het mergen van verschillende (relationele databases) met eigen specifieke definities van de inhoud van de tabellen. Converteren en ‘mengen’van relationele databases is altijd een uitdaging, en dat is toch redelijk essentieel voor het functioneren van het concept van ‘Big data’

Graph databases kunnen daarvoor een snelle en efficiënte oplossing zijn door alle elementen uit de verschillende databases feitelijk geheel in individuele elementen op te breken en als (unieke) node in een Graph database op te nemen. De record structuur en de tabellen van de relationele database worden dan graphs van de node, en omdat je alles in de kleinst mogelijk eenheid opsplitst, kan je snel en meestal geautomatiseerd gelijke betekenissen van nodes afkomstig uit verschillend database ‘bij elkaar optellen’ en daarmee de informatie verrijken en ‘mergen’.

Deze wijze van het representeren van informatie sluit perfect aan op de manier waarop wij zelf de informatie voortdurend opslaan, herinneren, herkennen. en ordenen. Wij denken in netwerken waarbij ook hiërarchieën natuurlijk perfect als een graph kunnen representeren.

De techniek van graph databases en de soort bestanden wat je daarmee kunt opbouwen en inrichten is ook weer niet helemaal nieuw. We kennen al heel lang de netwerkdatabases of the navigational databases. Je kunt de Graph database managers beschouwen als een betere implementatie daarvan, en in principe kun je alle databases die gebouwd zijn met een netwerk model representeren in een Graph database. 

Een bijzondere vorm van Graph databases zijn semantische netwerken in engere zin, die in de linguïstiek vaak ontologiëen, thesauri of taxonomieën worden genoemd. Alle indexen, woordenboeken, encyclopedieën, glosseries met onderlinge verwijzingen zijn allemaal vormen van semantische netwerken (verzameling van unieke begrippen met betekenisdragende (‘zie’, ‘zie ook’, ‘deel van’, etc) onderlinge verwijzingen) en zijn dus uitstekend en efficiënt in Graph databases te bouwen.

Algemeen wordt aangenomen is dat de volgende stap in search op het internet semantic search zal zijn en de Graph databases openen feitelijk de techniek om deze zoekmethodologie ook daadwerkelijk met succes te kunnen toepassen. Het is niet verwonderlijk dat Facebook zijn Graph Search heeft uitgevonden want speciaal in sociale netwerken is de informatie vaak relaties tussen ‘vrienden’, ‘onderwerpen’ waarover men schrijft, en verwijzingen naar informatie op het web. Dat relationele karakter van informatie is ook sterk van toepassing op partnerkeuze sites, maar de toepassing zijn zo gauw je de wereld ziet door de ogen van een netwerk, werkelijk onuitputtelijk.

Zelf heb ik in de zeventiger- en tachtiger jaren van de vorige eeuw al gewerkt met het Thesaurus Systeem van Uitgeverij Het Spectrum, die – met wat we nu Graph Databases zouden noemen – als eerste uitgever in de wereld geheel met behulp van computers en databases de Grote Spectrum Encyclopedie heeft geproduceerd en één van de grootste encyclopedische semantische netwerken (500.000 geclassificeerde termen met 1,5 miljoen onderlinge relaties) heeft gebouwd. Met deze encyclopedische graph database zijn veel database publishing (on-line) projecten gerealiseerd. Voor meer informatie over semantische netwerken zie mijn presentatie:

Jeroen de Hooge

Jeroen is al meer dan 15 jaar betrokken bij Dutchcowboys. Voornamelijk als digital content creator. En dan voor alle titels van The Blogidea Factory. Liefhebber van advertising, entertainment, tech, gadgets, en eigenlijk alles online.

Verder lezen over Big Data

Last van datacenters? Dan bouwen we ze gewoon in zee

Er is veel spanning als het om datacenters gaat. Is het in de zee laten zakken van de cloud een optie?

Technology12.09.2024

Last van datacenters? Dan bouwen we ze gewoon in zee

Provincie Noord-Brabant migreert SAP S/4HANA naar de cloud

Als een van de eerste overheidsorganisaties heeft de provincie Noord-Brabant SAP S/4HANA naar de cloud gemigreerd met behulp van RISE with SAP en SAP-partner Ctac. Deze stap maakt informatie nog sneller beschikbaar voor het uitvoeren van kerntaken, waardoor de provincie efficiënter en sneller antwoorden kan vinden op cruciale vragen.

Technology04.07.2024

Provincie Noord-Brabant migreert SAP S/4HANA naar de cloud

Informatie nog sneller beschikbaar
Zo denken Nederlandse datacenters energie te kunnen besparen

Vertegenwoordigers van de datacenters in Nederland hebben de koppen bij elkaar gestoken om energie te besparen.

Nieuws27.06.2024

Zo denken Nederlandse datacenters energie te kunnen besparen

Nieuwe versie van de Technologie Kieswijzer staat online

Het zal niemand ontgaan dat we met zijn allen opnieuw naar de stembus moeten gaan. De vervroegde Tweede Kamerverkiezing vindt plaats op 22 november 2023. De laatste Tweede Kamerverkiezing vond plaats op 17 maart 2021. To...

Technology25.10.2023

Nieuwe versie van de Technologie Kieswijzer staat online

KNMI moderniseert datastrategie met AWS

Het KNMI heeft een nieuwe, moderne datastrategie geïmplementeerd met behulp van Amazon Web Services (AWS). Daarmee past het meteorologische instituut de mindset en processen van een datagedreven organisatie toe. Behalve...

Technology11.05.2023

KNMI moderniseert datastrategie met AWS

Voor betere detectie en classificatie van seismische activiteit
Wikidata bereikt grens van 100 miljoen data items

Wikipedia kennen we allemaal. Wikidata is wat minder bekend. Dit 'zusje' van Wikipedia heeft afgelopen week de mijlpaal van 100 miljoen items bereikt. Tien jaar geleden begon Wikidata als centrale opslagplaats voor gest...

Online21.10.2022

Wikidata bereikt grens van 100 miljoen data items

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten

De Big Data Expo is helaas afgelopen, maar je kunt nu alvast 13 en 14 september 2023 in je agenda noteren. Dan vindt in de Jaarbeurs namelijk de Big Data Expo 2023 plaats. Nieuwsgierig wat je daar zoal kunt verwachten? D...

Marketing20.09.2022

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten

​Big Data Expo: veelzijdig evenement dat iedereen aangaat

Of je nu een account neemt bij Adobe omdat je wil kunnen Photoshoppen of dat je je fulltime bezighoudt met de veiligheid van de data van duizenden klanten: data gaat iedereen aan. Dat is ook te merken tijdens de Big Data...

Technology14.09.2022

​Big Data Expo: veelzijdig evenement dat iedereen aangaat