În ceea ce privește datele, raportul distinge patru roluri distincte: finanțare, cercetare, publicare și stocare/rezervare
Care sunt cerințele pentru o infrastructură necesară datelor rezultate din cercetare?
De fapt este o infrastructură care trebuie să ia în calcul trei factori importanți: prezervarea, reutilizarea datelor și accesul. Raportul face o analiză a necesităților pentru o astfel de infrastructură expunând amenințările la care sunt supuse datele față în față cu posibilele rezolvări:
Amenințare |
Cerințele pentru o soluție |
---|---|
Este posibil ca utilizatorii să nu înțeleagă utilizarea datelor, de ex. semantica, formatul, procese sau algoritmii implicați |
Capacitatea de a crea și întreține „informații de reprezentare” (vezi terminologia OAIS) adecvate |
Neîntreținerea hardware-ului vital, a softwareului sau a mediului de sprijin poate face ca informația să devină inaccesibilă |
Posibilitatea de a partaja informații despre capacitățile hardware și software și a înlocuitoarelor acestora |
Lanțul de evidență se poate rupe și poate interveni incertitudinea originii sau asupra autenticității |
Capacitatea de a cumula dovezile din diferite surse privind autenticitatea unui obiect digital |
Accesul și restricțiile la utilizare pot face dificilă reutilizarea datelor sau pot să nu fie respectate în viitor |
Capacitatea de a lucra cu Drepturile Digitale în mod corect într-un mediu în continuă evoluție și schimbare |
Pierderea capacității de a identifica locația datelor |
Un identificator unic care să fie cu adevărat permanent |
Deținătorul actual al datelor, fie că este o organizație sau un proiect, poate să își înceteze existența în viitor |
Brokerajul organizațiilor pentru a ține datele și capacitatea de a împacheta informația pentru a transfera informația între organizațiile pregătite pentru prezervarea pe termen lung |
Cei cărora le încredințăm resursele digitale pot să dea greș în misiunea lor |
Existența unui proces de certificare astfel ca cei interesați să aibă încredere în prezervarea pe termen lung |
Un aspect foarte important privind posibilele structuri de management a datelor este legat de posibilele concepte și componente organizaționale. Sunt luate în considerare patru scenarii: a) cercetătorul care dorește depozitarea seturilor de date în anumite condiții care să avantajeze studiul acestora în contextul lucrării publicate, b) biblioteca (națională) care își extinde aria de servicii privind colecțiile digitale pentru a include instrumente software și resurse digitale ale domeniului științelor sociale, c) organizație finanțatoare (o agenție națională de finanțare) care solicită câștigătorilor diverselor proiecte să stocheze și să asigure accesul la datele rezultate din activitățile de cercetare, d) aspecte ce țin de aspectele regimului privat al unor anumite date sensibile, e) instruirea celor care depozitează sau vor depozita datele – pune problema instruirii și aducerii spre cunoașterea cercetătorilor a metodelor și instrumentelor specifice depozitării datelor.
Concluziile sunt punctate după cum urmează:
- Aduceți spre cunoașterea mediului instituțional faptul că prezervarea digitală nu reprezintă doar o provocare de natură tehnică, ci aceasta necesită și ajustarea politicilor și a procedurilor.
- Definirea și aplicarea standardelor pentru schimbul seturilor de date între institutele de cercetare și arhive.
- Definirea și aplicarea standardelor privind deschiderea datelor (adică aplicarea licenței Creative Commons pentru date).
- Stabilirea de comun acord a unei liste de cerințe pentru ca arhivele digitale să devină "de încredere".
- Dezvoltarea unor cursuri de instruire pentru a arăta cercetătorilor cum să se descurce cu datele digitale (creșterea gradului de conștientizare).
- Dezvoltarea de module educaționale electronice pentru instruirea cercetătorilor privind lucrul cu seturile de date și cum să le arhiveze și să le partajeze.
- Elaborarea unor îndrumări pentru cercetători și institutele lor pentru a adopta formate unitare de lucru cu datele, care să se preteze arhivării.
- Construirea unei platforme virtuale interdisciplinare pentru ca cercetătorii să afle cele mai bune practici privind partajarea și arhivarea datelor.
- Comisii de experți (pentru fiecare disciplină) pentru a ușura procesul de selecție privind ce trebuie să fie prezervat și ce nu.
- Dezvoltarea de instrumente ușor de utilizat pentru selectarea datelor și pregătirea pentru arhivare (limitarea interpretărilor eronate a datelor și fragilitatea formatelor de date).
- Demonstrarea citabilității seturilor de date în cadrul și între discipline.
Scopul final:
- Seturi de date depozitate în siguranță într-un număr (probabil limitat) de arhive digitale de încredere.
- Politici actualizate și proceduri pentru institutele de cercetare care să ia în considerare prezervarea resurselor proprii.
- Seturi de date (sau copii pentru acces), care să poată fi citate printre discipline și pentru care cercetătorii să poată primi credit.
- Mecanisme de acces respectate pentru a proteja datele și cercetătorul de utilizare necorespunzătoare sau neadecvată.
- Cercetători instruiți care sunt conștienți de fragilitatea digitală și care știu cum să abordeze această problemă (selecție, reprezentarea informațiilor fiind incluse formatele de fișier și semantica datelor, informații descriptive).
În studiu se precizează faptul că există o interdependență între accesul deschis și prezervarea digitală.
În ceea ce privește standardele, ar trebui promovate prin perpectiva top-down acelea care sunt compatibile cu infrastructurile trans-naționale.
Soluțiile adoptate la nivel național sau specifice unui domeniu sunt constituite, de regulă, pentru a oferi un nivel de interoperabilitate între diferitele părți interesate din domeniul științei.
Un scenariu interesant este și cel discutat la conceptele și componentele datelor științifice de natură tehnică. Se pune problema rezolvării necesității de a avea un registru al "informațiilor de reprezentare" pentru datele unei colecții. Un astfel de registru ar oferi informațiile necesare pentru ca rezultatele și seturile de date obținute la un moment dat să poată fi interpretate corect în viitor. Conjugat cu un astfel de sistem trebuie să existe strategii de migrare și emulare. Astfel, se pune și problema stabilirii unui tip de servicii care ar oferi informații despre obsolescența hardware și software.
Bineînțeles, din nou este adusă în prim plan problema autenticității obiectului digital. Foarte interesantă este concluzia că în general nu se poate afirma că un obiect este autentic. O practică curentă este codarea informațiilor care atestă proveniența (prin CIDOC-CRM sau OPM - http://openprovenance.org). Pașii pe care raportul îi indică conduc către stabilirea unor standarde internaționale și a unor politici comune privind verificarea autenticității și a provenienței.
O altă problemă este legată de drepturile digitale și este accentuat cazul în care o licență care dă dreptul de exploatare a unor seturi de date capătă un statut incert la momentul în care compania care a creat instrumentele licențiate dă faliment. Astfel, pentru a preveni situații de acet tip, ar fi necesară prezentarea DRM-ului (Digital Rights Management) utilizatorilor iar un pas înainte ar fi constituirea unei "arhive negre" în care să fie păstrate mijloacele de generare a licențelor chiar și după dispariția furnizorului original.
De o importanță majoră este și asigurarea unui serviciu peren de furnizare a identificatorilor unici. Într-adevăr sunt multe astfel de organizații care pretind asigurarea longevității identificatorilor emiși, dar studiul îndeamnă mai degrabă către preluarea inițiativei de către organizații guvernamentale, care să organizeze un sistem de rezolvare a identificatorilor acesta fiind garantat la nivel internațional. Soluția ar fi întărirea și dezvoltarea pe baza unui sistem deja existent. Destinația finală ar fi stabilirea unui "sistem de identificare pentru localizarea și inter-referențierea obiectelor digitale, care să aibă susținerea corespunzătoare din punct de vedere organizațional, financiar și social pe termen lung și care să fie utilizat cu încredere".
Un alt punct important care a fost atins este cel al brokerajului informațional. Pe bună dreptate se pune problema resurselor digitale acumulate de-a lungul perioadei de desfășurare a unui anume proiect. Ce se întâmplă cu acestea când proiectul se încheie sau în cazul în care o anumită organizație dispare? Se pune problema constituirii unui sistem de brokeraj/orchestrare care să permită căutarea pe cale formală a unor noi gazde.
Virtualizarea politicilor, a resurselor și a proceselor este un punct interesant dat fiind faptul că raportul prezintă aceste servicii ca favorizante ale migrației între mediile de prezervare. Interesant este că printre pașii care urmează a fi scalabilitatea capacităților abstractizate de stocare (din perspectiva virtualizării) fără a avea vreun impact asupra întreținerii arhivei. Scopul final ar fi asigurarea unei independențe din punct de vedere structural pentru colecțiile care ar putea fi mutate între sistemele de prezervare fără pierderi de informație. Foarte interesant este conceptul virtualizării managementului și federarea mediilor de prezervare dar în același timp păstrând controlul asupra politicilor, proceselor și resurselor.
În final, sunt luate în discuție problemele legate de stabilirea depozitelor certificate. Direcțiile indicate de studiul PARSE sunt sprijinirea dezvoltării unui set de standarde ISO privind auditarea și certificarea depozitelor digitale și sprijinirea organizațiilor și proceselor pentru a se dezvolta servicii de certificare și acreditare.
Nu pot să închei trecerea în revistă a acestui studiu decât reluând aspectele ce țin de aspectele social/comportamentale legate de asigurarea unui acces facil la date și la servicii de exploatare (data mining) ale acestora. Un joc de cuvinte reușit exprimă realitățile așa cum este percepută relația de apartenentă sau exercitarea a drepturilor de proprietate în ciuda intențiilor sau a scopului pentru care s-au generat datele sau un anumit corp de informații:
"this data is mine [and no one else's]" sau "my data is mine, and now your data is mine [to use as I like]"