reprezentare logo Kosson

Stimați colegi,

Doresc să inițiez o serie de articole și traduceri a celor mai relevante materiale privind datele conectate - LINKED DATA, cu scopul de a aduce în prim plan acest subiect fierbinte și pentru breasla noastră. În curând meseriile noastre vor fi de nerecunoscut iar mare parte dintre ele vor avea drept obiect tocmai managementul acestor date conectate. Așadar, vă invit să pornim la drum împrună și pentru a deschide calea dialogului am găsit cu cale să aduc opinia lui Tim Berners-Lee ca bază solidă. Vă invit să discutăm despre acest lucru și să ne angrenăm într-un dialog util tuturor.

DATE CONECTATE - http://www.w3.org/DesignIssues/LinkedData.html {sharethis}

Web-ul semantic nu este vorba doar de a pune datele de pe web. Este despre a face legături, astfel încât o persoană sau o mașină să poată explora web-ul de date. Cu date legate, atunci când ai câteva, poți găsi alte date legate.

Ca și web-ul hypertext, web-ul datelor este construit cu documente pe web. Cu toate acestea, spre deosebire de web-ul hipertext, unde link-urile sunt ancore relaționale în documente hypertext scrise în HTML, în cazul datelor legăturile între lucruri arbitrare descrise de RDF, URI-urile identifică orice fel de obiect sau concept. Dar pentru HTML sau RDF sunt aceleași așteptări pentru ca web-ul să crească:

  1. Folosiți URI-urile ca nume pentru lucruri
  2. Folosiți URI-uri HTTP astfel ca oamenii să le priceapă
  3. Atunci când cineva se uită la un URI, oferiți informații utile folosind standardele (RDF, SPARQL)
  4. Includeți linkuri către alte URI-uri astfel ca acestea să poată descoperi mai multe lucruri.

Simplu. Realitatea este că o cantitate surprinzătoare de date nu este conectată în 2006 (momentul scrierii articolului n.n.), din cauza unuia sau a mai multora dintre pași. Acest articol discută soluțiile la aceste probleme, detaliile de implementare și factorii care afectează opțiunile privind cum să publici datele.

Cele patru reguli

Mă voi referi la pașii de mai sus ca la niște reguli, dar acestea sunt de fapt așteptări privind comportamentul. Nerespectarea lor nu distruge nimic, dar conduce la pierderea oportunității de a face datele să fie interconectate. Astfel, acest lucru limitează modalitățile în care acestea pot fi reutilizate în moduri neașteptate. Reutilizarea în moduri neașteptate este de fapt valoarea adăugată de rețea. 

Prima regulă de a identifica lucrurile cu URI-uri este înțeleasă în mare parte de toți cei care lucrează în domeniul tehnologiei web-ului semantic. Dacă nu folosește setul de simboluri universale de URI-uri, nu se poate numi Web Semantic

Cea de-a doua regulă de a utiliza URI-uri HTTP este înțeleasă și ea în mare parte. De la debutul web-ului, singura deviație a fost tendința oamenilor de a inventa noi scheme URI (și sub-scheme în cadrul urn:) cum ar fi LSIDs și handle-uri și XRI-uri și DOI-uri și tot așa din diferite motive. De regulă, acestea implică împotrivirea sistemului Domain Name System (DNS) existent în ceea ce privește delegarea de autoritate și de a controla ceva sub un control separat. De multe ori acest lucru se leagă de faptul că nu se înțelege că URI-urile HTTP sunt nume (nu adrese) și că mecanismul de căutare al acestora prin HTTP constituie un set complex și puternic de seturi de standarde. Această problemă este discutată mai pe larg în altă parte și nu ne permite să ne ocupăm de ea aici. [ @@ref TAG finding, etc])

Cea de-a treia regulă care spune că trebuie oferite informații suplimentare la un URI este, în 2006, urmată corect de cele mai multe dintre ontologii, dar, din anumite motive nu pentru unele seturi de date mari. În generale, cineva ar putea să se uite la proprietățile și clasele găsite în date și să obțină informații de la ontologiile RDF, RDFS și OWL incluzând relațiile dintre termenii ontologiei. 

Aici, formatul de bază pentru RDF/XML împreună cu populara sa alternativă, este serializarea N3 (sau Turtle). Seturi mari de date oferă un serviciu de interogare prin SPARQL, dar datele de bază legate ar trebui să fie oferite de asemenea. 

Multe proiecte de cercetare sau de evaluare desfășurate în cei câțiva ani ai tehnologiilor Web-ului Semantic au produs ontologii și acumulări de date semnificative, dar, datele, dacă sunt și disponibile, sunt îngropate într-o arhivă zip pe undeva decât să fie accesibile pe web ca date conectate. Proiectul Biopax, datele privind cercetătorii din domeniul științei computerelor și a proiectelor CSAktive sunt numai două exemple. [În acest moment, 2007, datele CSAktive sunt disponibile ca date conectate] 

Mai există și un volum în creștere de URI-uri aparținând datelor care nu au ontologii, dar care pot fi descoperite. Wiki-urile semantice reprezintă unul din exemple. Ontologiile „Friend of a Friend” (FOAF) și Description of a Project (DOAP) sunt folosite pentru a construi rețele sociale pe internet. Portalurile pentru rețele sociale des întâlnite nu oferă linkuri către alte site-uri și nici nu-și expun datele într-o formă standard. 

LiveJournal și Opera Community sunt două portaluri care publică datele pe web folosindu-se de RDF. (Plaxo are o schemă de urmărire și nu sunt sigur că suportă linkuri de tip cunoaște). Acest lucru înseamnă că eu pot scrie în fișierul meu FOAF faptul că-l cunosc pe Håkon Lie folosind URI-ul său luat din datele existente în Opera Community iar o mașină sau o persoană care parcurge acele date poate urmări apoi acel link și poate găsi toți prietenii săi. Ei bine, chiar toți prietenii? Nu chiar: doar prietenii care sunt în comunitatea Opera Community. Sistemul încă nu permite stocarea URI-urile persoanelor din sisteme diferite. Astfel că rețeaua permite interogarea venită de pe linkuri externe, fiind navigabilă la nivel intern, totuși nu permite linkuri adresate exteriorului. 

Cea de-a patra regulă, de a face linkuri peste tot este necesară pentru a conecta datele pe care le avem pe un segment de web neconectat în care cineva poate găsi diferite tipuri de lucruri exact ca și pe web-ul de hypertext pe care l-am construit. 

Pe web-ul site-urile hypertext, în general, sunt considerate ca avât o reputație proastă dacă nu se leagă la materiale externe. Valoarea propriei informații este considerată mai mult o funcție a ceea ce se leagă la ea, după cum este și valoarea implicită pe care pagina web o prezintă. Astfel, și în acest caz acestea se află în Web-ul Semantic. 

Să ne uităm deci la modalitățile de a conecta datele, pornind de la cea mai simplă cale de a face un link.{jcomments on}

Pentru textul integral, descărcați documentul de aici:  default  Linked Data Romanian Translation (179.96 kB 2011-03-29 13:23:39)