Date interconectate: de-construcția înregistrărilor catalografice

Detalii: Scris de Dan Matei; Părinte: Resurse Profesionale; Categorie: Know-How; Creat: 31 Mai 2012; Accesări: 5372

Biblioteca Digitală Europeană europeana.eu nu-și propune doar să ofere publicului larg un punct unic de acces la patrimoniul cultural european (vezi și postul anterior), ci și să ofere instituțiilor culturale, industriilor creative și chiar dezvoltatorilor individuali posibilitatea de a reutiliza metadatele pe care le acumulează (de unde și cerința de licențiere Creative Commons CC0 [„No rights reserved”]). Pentru aceasta, va expune aceste metadate sub formă de „date interconectate deschise” [Linked Open Data - LOD]. Semnificativ: sintagma „linked data” a fost propusă în 2006 de Tim Berners-Lee, „inventatorul” webului (vezi celebrele-i principii).
„Date interconectate” este o paradigmă (relativ) nouă, care presupune asocierea de enunțuri/aserțiuni pe web, în maniera în care sunt conectate paginile pe/între saituri. Rațiunea lor este ceea ce se cheamă „webul semantic”, adică asocieri semantice între entități pe web (sau cum zice sloganul recent lansatului Google Knowledge Graph: „things, not strings” [lucruri, nu șiruri (de caractere)]) care să permită agenților soft (e.g. motoarelor de căutare) să facă inferențe logice. Și ideea e ca aceste interconectări să se facă (și) între aserțiuni provenite din surse diferite.

De pildă, cineva poate să expună pe web aserțiunile:

„Coloana fără sfârșit” se află la Târgu Jiu.

Brâncuși este autorul „Coloanei fără sfârșit”

Altcineva expune aserțiunea:

Târgu Jiu se află în Gorj.

În fine, altcineva zice:

Județul Gorj se află în România.

Dacă aceste aserțiuni sunt conectate, un agent soft deștept poate include „Coloana fără sfârșit” în răspunsul la întrebarea „Care sunt operele lui Brâncuși aflate în România”.

Pentru a fi (convenabil) expuse/accesate pe web, aceste aserțiuni trebuie aduse la o formă procesabilă automat. Simplificând la maximum, acest formalism se reduce la exprimarea aserțiunilor ca triplete de forma:

<subiect> <predicat> <obiect>

Pentru exemplul meu, acestea ar fi:

subiect	predicat	obiect
Coloana fără sfârșit	are ca autor pe	Brâncuși
Coloana fără sfârșit	localizat(ă) în	Târgu Jiu
Târgu Jiu	face parte din	Gorj
Gorj	face parte din	România

Subiectele sunt instanțe ale unor clase, iar obiectele pot fi instanțe ale unor clase sau literali (e.g. șiruri de caractere).

Se vede că în aceste aserțiuni sunt implicate următoarele entități: una din clasa „persoană”, una din clasa „artefact”, una din clasa „localitate” și două din clasa „unități geo-politice”. Ca să aibă șanse ca aserțiunile care le implică să fie conectate, aceste entități ar trebui să aibă identificatori unici și persistenți, care să nu fie simple șiruri de caractere (ambigue, de regulă). Prin urmare, aserțiunile despre aceste entități ar trebui să arate cam așa:

subiect	predicat	obiect
id1	denumit(ă)	Coloana fără sfârșit
id1	localizat(ă) în	id2
id1	are ca autor pe	id5
id2	denumit(ă)	Târgu Jiu
id2	face parte din	id3
id3	denumit(ă)	Gorj
id3	face parte din	id4
id4	denumit(ă)	România
id5	denumit(ă)	Brâncuși

Pentru a trata astfel datele catalografice, tradiționala fișă trebuie deconstruită, adică descompusă în aserțiuni elementare, cât mai granulare. Simplificând (până către grotesc), transformarea unor fișe exprimate tabelar în date interconectabile ar putea fi ilustrată ca în figura 1 și tabela care-o urmează.

Exprimare tabelară a fișelor catalografice

Exprimare tabelară a fișelor catalografice

subiect	predicat	obiect
id1	are ca titlu	Război și Pace
id1	are ca autor pe	Tolstoi
id2	are ca titlu	Iliada
id2	are ca autor pe	Homer

De fapt, nici nu e o reprezentare neobișnuită. De mulți ani, matricile/tabelele rare (i.e. cu puține celule ocupate) se reprezintă în memoria computerelor, cam la fel: (linia celulei, coloana celulei, conținutul celulei).

În figura 2 se ilustrează (foarte simplificat) cum se pot interconecta/agrega aserțiuni provenind din surse diferite (sugerate prin culori diferite). Adică, cineva asertează că „Război și pace” (o lucrare, în terminologia FRBR Functional Requirements for Bibliographic Records) are drept creator pe Tolstoi. Altcineva adaugă aserțiuni despre o expresie a lucrării în limba engleză, iar altcineva aserțiuni despre o expresie în limba română. În fine, din alte surse provin apelațiunile lui Tolstoi în engleză, respectiv în rusă.
Exemplu de agregare de aserțiuni

Nu e obligatoriu ca un literal care e obiectul unei aserțiuni să fie un simplu șir de caractere sau un număr sau o dată. El poate avea o structură internă. Astfel, de pildă, el poate fi un document XML sau chiar un element MARC. Unor astfel de literali și se asociază o așa-zisă „schemă sintactică” (Syntax Encoding Scheme). De pildă, putem aserta atributul (tipic) al unei manifestări bibliografice (i.e. o ediție) „titlu și mențiune de responsabilitate” într-o schemă sintactică XML:

sau în schema sintactică UNIMARC:

Asta se afișează (în formalismul ISBD [International Standard Bibliographic Description]http://www.ifla.org/publications/international-standard-bibliographic-description) astfel:

Pour les valeurs bourgeoises / par Georges Hourdin. Contre les valeurs bourgeoises / par Gilbert Ganne

Modelul conceptual „clasic” pentru datele interconectate este RDF [Resource Description Framework] care, în esență, definește tripletele subiect-predicat-obiect.

Din punct de vedere practic, bazele de date ce implementează modelul RDF („triplestore”) au și avantajul că au tabele (abstracte și) puține, plus permit tratarea unitară a claselor și proprietăților (predicatelor), precum și a instanțelor acestora. Adică e posibilă adăugarea oricând de noi clase și proprietăți (care pot fi rafinări sau abstractizări ale celor deja existente), cu alte cuvinte se pot aduce modificări taxonomiei subiacente, fără a se modifica structura bazei de date. Așadar administratorul bazei de date poate face asta fără a apela la programatori. De pildă, dacă avem clasa „organizație”, oricând se poate adăuga o subclasă a acesteia, „persoană juridică”. Similar, dacă avem proprietatea „are drept contributor pe”, se poate adăuga o subproprietate a acesteia, „are drept scenograf pe”. Dezavantajul acestui gen de baze de date pare a ficomplexitatea sporită pe care o impune interogărilor.

Deja biblioteci importante — cum ar fi British Library (2,6 milioane de înregistrări, care au generat 84.961.180 triplete – mai 2012) sau British Museum — își oferă informațiile bibliografice sub formă de date interconectate deschise (adică atât gratuite, cât și liber reutilizabile !).

În postul următor se va expune o schiță a proiectului portalului culturalia.ro.
Articolul a fost preluat de pe siteul autorului de la: http://poliptic.wordpress.com/2012/05/29/date-interconectate-de-constructia-inregistrarilor-catalografice/

Tags:

date interconectate
inregistrari catalografice