Biblioteca Digitală Europeană europeana.eu nu-și propune doar să ofere publicului larg un punct unic de acces la patrimoniul cultural european (vezi și postul anterior), ci și să ofere instituțiilor culturale, industriilor creative și chiar dezvoltatorilor individuali posibilitatea de a reutiliza metadatele pe care le acumulează (de unde și cerința de licențiere Creative Commons CC0 [„No rights reserved”]). Pentru aceasta, va expune aceste metadate sub formă de „date interconectate deschise” [Linked Open Data - LOD]. Semnificativ: sintagma „linked data” a fost propusă în 2006 de Tim Berners-Lee, „inventatorul” webului (vezi celebrele-i principii). „Date interconectate” este o paradigmă (relativ) nouă, care presupune asocierea de enunțuri/aserțiuni pe web, în maniera în care sunt conectate paginile pe/între saituri. Rațiunea lor este ceea ce se cheamă „webul semantic”, adică asocieri semantice între entități pe web (sau cum zice sloganul recent lansatuluiGoogle Knowledge Graph: „things, not strings” [lucruri, nu șiruri (de caractere)]) care să permită agenților soft (e.g. motoarelor de căutare) să facă inferențe logice. Și ideea e ca aceste interconectări să se facă (și) între aserțiuni provenite din surse diferite.
De pildă, cineva poate să expună pe web aserțiunile:
„Coloana fără sfârșit” se află la Târgu Jiu.
Brâncuși este autorul „Coloanei fără sfârșit”
Altcineva expune aserțiunea:
Târgu Jiu se află în Gorj.
În fine, altcineva zice:
Județul Gorj se află în România.
Dacă aceste aserțiuni sunt conectate, un agent soft deștept poate include „Coloana fără sfârșit” în răspunsul la întrebarea „Care sunt operele lui Brâncuși aflate în România”.
Pentru a fi (convenabil) expuse/accesate pe web, aceste aserțiuni trebuie aduse la o formă procesabilă automat. Simplificând la maximum, acest formalism se reduce la exprimarea aserțiunilor ca triplete de forma:
<subiect> <predicat> <obiect>
Pentru exemplul meu, acestea ar fi:
subiect
predicat
obiect
Coloana fără sfârșit
are ca autor pe
Brâncuși
Coloana fără sfârșit
localizat(ă) în
Târgu Jiu
Târgu Jiu
face parte din
Gorj
Gorj
face parte din
România
Subiectele sunt instanțe ale unor clase, iar obiectele pot fi instanțe ale unor clase sau literali (e.g. șiruri de caractere).
Se vede că în aceste aserțiuni sunt implicate următoarele entități: una din clasa „persoană”, una din clasa „artefact”, una din clasa „localitate” și două din clasa „unități geo-politice”. Ca să aibă șanse ca aserțiunile care le implică să fie conectate, aceste entități ar trebui să aibă identificatori unici și persistenți, care să nu fie simple șiruri de caractere (ambigue, de regulă). Prin urmare, aserțiunile despre aceste entități ar trebui să arate cam așa:
subiect
predicat
obiect
id1
denumit(ă)
Coloana fără sfârșit
id1
localizat(ă) în
id2
id1
are ca autor pe
id5
id2
denumit(ă)
Târgu Jiu
id2
face parte din
id3
id3
denumit(ă)
Gorj
id3
face parte din
id4
id4
denumit(ă)
România
id5
denumit(ă)
Brâncuși
Pentru a trata astfel datele catalografice, tradiționala fișă trebuie deconstruită, adică descompusă în aserțiuni elementare, cât mai granulare. Simplificând (până către grotesc), transformarea unor fișe exprimate tabelar în date interconectabile ar putea fi ilustrată ca în figura 1 și tabela care-o urmează.
subiect
predicat
obiect
id1
are ca titlu
Război și Pace
id1
are ca autor pe
Tolstoi
id2
are ca titlu
Iliada
id2
are ca autor pe
Homer
De fapt, nici nu e o reprezentare neobișnuită. De mulți ani, matricile/tabelele rare (i.e. cu puține celule ocupate) se reprezintă în memoria computerelor, cam la fel: (linia celulei, coloana celulei, conținutul celulei).
În figura 2 se ilustrează (foarte simplificat) cum se pot interconecta/agrega aserțiuni provenind din surse diferite (sugerate prin culori diferite). Adică, cineva asertează că „Război și pace” (o lucrare, în terminologia FRBR Functional Requirements for Bibliographic Records) are drept creator pe Tolstoi. Altcineva adaugă aserțiuni despre o expresie a lucrării în limba engleză, iar altcineva aserțiuni despre o expresie în limba română. În fine, din alte surse provin apelațiunile lui Tolstoi în engleză, respectiv în rusă.
Nu e obligatoriu ca un literal care e obiectul unei aserțiuni să fie un simplu șir de caractere sau un număr sau o dată. El poate avea o structură internă. Astfel, de pildă, el poate fi un document XML sau chiar un element MARC. Unor astfel de literali și se asociază o așa-zisă „schemă sintactică” (Syntax Encoding Scheme). De pildă, putem aserta atributul (tipic) al unei manifestări bibliografice (i.e. o ediție) „titlu și mențiune de responsabilitate” într-o schemă sintactică XML: sau în schema sintactică UNIMARC:
Pour les valeurs bourgeoises / par Georges Hourdin. Contre les valeurs bourgeoises / par Gilbert Ganne
Modelul conceptual „clasic” pentru datele interconectate este RDF [Resource Description Framework] care, în esență, definește tripletele subiect-predicat-obiect.
Din punct de vedere practic, bazele de date ce implementează modelul RDF („triplestore”) au și avantajul că au tabele (abstracte și) puține, plus permit tratarea unitară a claselor și proprietăților (predicatelor), precum și a instanțelor acestora. Adică e posibilă adăugarea oricând de noi clase și proprietăți (care pot fi rafinări sau abstractizări ale celor deja existente), cu alte cuvinte se pot aduce modificări taxonomiei subiacente, fără a se modifica structura bazei de date. Așadar administratorul bazei de date poate face asta fără a apela la programatori. De pildă, dacă avem clasa „organizație”, oricând se poate adăuga o subclasă a acesteia, „persoană juridică”. Similar, dacă avem proprietatea „are drept contributor pe”, se poate adăuga o subproprietate a acesteia, „are drept scenograf pe”. Dezavantajul acestui gen de baze de date pare a ficomplexitatea sporită pe care o impune interogărilor.
Deja biblioteci importante — cum ar fi British Library (2,6 milioane de înregistrări, care au generat 84.961.180 triplete – mai 2012) sau British Museum — își oferă informațiile bibliografice sub formă de date interconectate deschise (adică atât gratuite, cât și liber reutilizabile !).