reprezentare logo Kosson

powr.pngScopul acestui manual este „de a da sens şi de a da relevanţă curentelor actuale din prezervarea digitală pentru profesioniştii din domeniul informaţiei care au responsabilitatea zilnică de a căuta resurse web”.

Manualul este structurat pe două părţi.

Prima parte se ocupă de resursele web şi face sugestii practice privitor la managementul, capturarea, selecţia, trierea şi prezervarea. Include observaţii privind sistemele de management al conţinutului şi o listă a instrumentelor disponibile pentru captura web.

A doua parte se concentrează pe resursele web din cadrul unei instituţii. Sunt făcute consideraţii asupra Ciclului de Viaţă Informaţional.

Manualul are ca adresabilitate managerii de informaţie, managerii de resurse, webmasterii, specialiştii IT, administratorii de sisteme, managerii de documente şi arhiviştilor.

Documentul nu se ocupă în mod direct de prezervarea sistemelor de management informaţional care folosesc o interfaţă web (sisteme de management financiar, sisteme de rezervare, etc), de sistemele de bibliotecă sau de arhivă, depozite instituţionale ori sisteme de management al documentelor. Nu sunt luate în considerare direct Mediile Virtuale pentru Educaţie sau sistemele de evaluare online (recrutare de personal online, etc).

Manualul conţine, de asemenea o bibliografie şi un glosar de termeni.

Experienţele incorporate la elaborarea acestui document, precum şi atelierele de lucru şi activitarea desfăşurată pe blogul dedicat1, indică faptul că problemele care ţin de prezervarea digitală a conţinutului existent, de cele mai multe ori nu se află în atenţia managerului web. Chiar este o problemă a diferenţelor culturale şi intelectuale dintre managerii de documente şi webmasterii, care ar conduce la obiective şi priorităţi mutual exclusive: mangerii web sunt înfăţişaţi ca fiind interesaţi doar de furnizarea  conţinutului şi a informaţiilor unei comunităţi de utilizatori şi consumatori şi care doresc să stea la curent cu evoluţia tehnologică, probabil în dauna prezervării. Dimpotrivă, un manager de documente ar dori să captureze şi să gestioneze o parte din conşinutul web, dar nu ştie cum să o facă, îi este teamă de documentele electronice şi arare ori comunică cu personalul IT din instituţie. Această distincţie are tendinţa de a simplifica la maxim lucrurile. Managerii de documente nu deţin toate răspunsurile, nu sunt neapărat interesaţi de prezervare (arhiviştii fac asta) şi chiar şi cel mai bun program de management al documentelor din lume nu vor rezolva toate problemele prezervării web. Astfel, tot managementul este lăsat webmasterilor şi se paote risca pierderea de resurse importante.

Mesajul este că, dacă se doreşte atingerea unei longevităţi optime şi a securităţii, managerii de documente trebuie să se schimbe după cum şi webmasterii ar trebui să o facă.

S-ar părea că au existat păreri ca manualul să fie conformat standardului OAIS, dar acest lucru a fost argumentat a fi cazul unui alt manual în sine date fiind nivelurile complexe pe care o astfel de integrare le-ar prezenta. Astfel, manualul în cauză se concentrează doar pe selecţie, management şi captură.

Manualul prezintă interes prin faptul că defineşte principalele elemente care intră în procesul de prezervare şi mai ales în procesul de selecţie a ceea ce ar trebuie prezervat. În continuare vom pune aceste definiţii pentru plusul de claritate pe care-l aduc în anumite privinţe.

Ce este o înregistrare ?

Informaţie înregistrată în orice formă creată sau primită şi întreţinută de o organizaţie sau persoană în cursul unei activităţi sau din desfăşurarea afacerilor şi care este ţinută ca evidenţă a acestei activităţi2

Ce este o publicaţie ?

O operă este considerată a fi publicată dacă reproducerile lucrării sau ediţia au fost puse la dispoziţia publicului (fie prin vânzare sau alte mijloace)3.

Ce este un artefact ?

Orice altceva diferit de o înregistrare sau de o publicaţie dar care merită a fi prezervat.

În plus faţă de definiţii sunt date exemple privind ce se poate considera a fi o înregistrare, o publicaţie sau un artefact. În continuare este expusă o problemă foarte importantă privind ceea ce ar trebui exclus de la o posibilă colectare precum şi resursele cu valoare redusă.

În capitolul dedicat selecţiei sunt expuse trei abordări diferite ale bibliotecilor naţionale care au această activitate.

  1. Colectarea la nivel de domeniu, ceea ce ar fi recoltarea întregului site plus domeniile asociate colectând tot ce se poate colecta într-o manieră oarecum neselectivă.

  2. Selecţia criterială. Spre exemplu:

    • toate resursele deţinute de un departament

    • după tipul resurselor deţinute

    • toate resursele care se adresează studenţilor, etc

  3. Bazate pe un eveniment, spre exemplu alegerile sau calamităţi.

Un alt aspect important este elaborarea unei politici pentru constituirea colecţie. Această secţiune foarte importantă oferă indicii privind cum trebuie luate deciziile asupra căror aspecte trebuie să fie orientată capturarea resurselor web.

Capitolul dedicat problemei legate de ce şi cum să recoltezi este unul absolut important pentru că extinde problematica prezervării la nivelul şă-i spunem atomic al felului în care sunt servite paginile astăzi dat fiind faptul că multe dintre acestea prezintă un înalt grad de dinamism dublat şi de un grad suplimentar de complexitate a soluţiilor prin care este oferit conţinutul. Astfel, mare parte dintre siteurile actuale oferă browserelor clientului pagini asamblate „din zbor” adaptate la mediul clientului, fie acesta o maşină desktop sau o soluţie mobilă ori chiar un telefon inteligent.

Astfel elementele resurselor web care trebuie luate în considerare sunt conţinutul, înfăţisarea şi comportamentul.

Sunt prezentate câteva instrumente:

Colectare

Heritrix (http://crawler.archive.org), HTTrack (http://www.httrack.com/page/5/en/index.html), DeepArc (http://bibnum.bnf.fr/downloads/deeparc/) şi arhicunoscutul Wget

Instrumente de prelucrare a resurselor web

Web Curator Tool (WCT http://webcurator.sourceforge.net/ ), PANDORA Digital Archiving System (PANDAS http://pandora.nla.gov.au/pandas.html), NetarchiveSuite (http://netarchive.dk/suite)

Instrumente pentru a colecta instantanee

Adobe Acrobat WebCapture – generează fişiere PDF din paginile web.

A.nnotate (http://a.nnotate.com/ )

SnagIt (http://www.techsmith.com/screen-capture.asp)


Probleme deosebite din punct de vedere al prezervării le pun Sistemele de Management al Conţinutului, binecunoscutele CMS-uri. Este remarcată dificultatea în ceea ce priveşte referenţierea paginilor care se face cu dificultate datorită faptului că majoritatea sistemelor existente prezintă o referinţă numerică, care face sens de cele mai multe ori pentru sitemul care gestionează conţinutul, nu şi pentru potenţialele instrumente de recoltare.

În general este corect să spunem că pentru a accesa conţinutul dintr-un CMS sunt necesare scripturi proiectate special pentru a le colecta din baza de date, care este fundamentul oricărui CMS.

În contextul prezervării se pun nişte întrebări legitime asupra bazelor de date:

Cât timp va fi susţinută ?

Va fi versiunea nouă compatibilă cu cea veche ?

Crezi că vei putea migra conţinutul vechiului site pe noul sistem ?

Foarte mulţi webmasteri văd o versiune nouă ca pe o oportunitate de a porni de la 0. Ce se poate spune despre conţinut totuşi ?

Este ridicată şi proglema compatibilităţii dintre diferitele sisteme în contextul migrării conţinutului de pe un sistem CMS pe un altul.

Este coresct spus că pe măsură ce cunoşti mai multe detalii despre colectare şi retenţie, cu atât mai avizat devii în alegerea unei soluţii sau a unei abordări, fie deopotrivă. Manualul recomandă o abordare selectivă iar depozitarea in integrum nu este recomandată şi nici recoltarea a tot ce se poate. Concluzia evidentă este următoarea: chiar dacă costurile de stocare sunt mici, costurile de gestiune nu sunt. Sunt analizaţi şi factorii interni şi cei externi care influienţează cine doreşte să ţină ce şi mai ales pentru câtă vreme ?

Un capitol este dedicat desigur Web 2.0 şi serviciilor şi tipologiile care se circumscriu acestui concept:

  1. Bloguri (Blogger, Wordpress, Edublogs, Warwick blogs),

  2. Wikiuri (Mediawiki, Wetpaint, Tiddlywiki),

  3. Bookmarking social (Del.icio.us, CiteULike, Connotea),

  4. Servicii media (Flikr, Slideshare, Youtube, Scribd),

  5. Sisteme de socializare (Facebook, Ning, LinkedIn),

  6. Instrumente de lucru colaborativ (GoogleDocs)

  7. Fluxuri (Netvibes, Technocrati)

  8. Instant messaging (Googgle Talk, Facebook Chat, Skype)

Toate aceste instrumente sunt folosite în grade diferite în mediul instituţional, dar problemele care le ridică se desfăşoară pe două ramuri: apartenenţa şi retenţia.

În cazul tuturor acestor instrumente ar trebui ca utilizatorii să fie conştienţi de termenii de utilizare, care în anumite cazuri impun restricţii sau îşi însuşesc conţinutul contribuit de utilizator. Aici este momentul pentru ca toţi utilizatorii să fie conştienţi de materialele contribuite iar în cazul blogurilor, wikiurilor şi al altora asemnea, ar trebui ca în cazul în care s-a stabilit valoarea ridicată a conţinutului, ca autorul sau factorul responsabil, să facă o salvare sau o convertire într-un format compatibil cu scopul prezervării.

În capitolul dedicat sudiilor de caz şi al scenariilor există o secvenţă care urmăreşte ceea ce s-ar putea întâmpla cu blogul unui student ţinut în mediul instituţional al universităţii. Ce se întâmplă cu tot acest conţinut după absolvire, când, de obicei sunt şterse conturile absolvenţilor iar un anume blog are o valoare deosebită inclusiv cu tot corpul comentariilor făcute de-a lungul timpului?

Vom cita în continuare un fragment pentru problemele pe care le expune şi factorii care ar trebui luaţi în considerare:

Sudenţii sunt încurajaţi în mod constant să folosească blogurile ca mod de a reflecta experienţa personală, dar de ce ar investi cineva efort în construcţia unui artefact şi de ce ar crede că acel efort este preţuit dacă nu s-a gândit prezervarea şi continuitatea. Absenţa unei astfel de opţiuni de migrare sau continuitate poate crea probleme motivaţionale şi de credibilitate care ar submina valoarea serviciului.

Are o instituţie permisiunea de a arhiva conţinutul unui blog (şi să-l facă disponibil oriunde în altă parte) ? Acest lucru ar include permisiunea nu numai din partea autorului blogului (care poate fi obţinută prin termenii generali şi condiţiile puse la momentul înscrierii în instituţia de învăţământ), dar şi din partea conţinutului terţiar: citate incluse, imagini, audio, video. Se poate tăia materialul potenţial ofensator sau există riscul (probabil neglijabil) ca o instituţie să poată fi dată în judecată pentru încălcarea drepturilor de autor? Sunt studenţii şi personalul instituţiei bine informaţi privind problemele ce ţin de exercitarea drepturilor de autor online după cum ar trebui să fie privind problemele ce ţin de plagiat, reglementările privind citarea şi fotocopierea ? Este posibilă includerea unei licenţe Creative Commons în termenii de utilizare a sistemului ?”

Foarte interesant este şi studiul de caz: Blogul care a dispărut. Vă rog să citiţi şi lecţiile învăţate.

Este explorat şi aspectul recoltării unui wiki, lucru care prezintă nişte aspecte foarte complexe de natură tehnică. Rând pe rând sunt studiate şi cazurile materialelor depozitate pe SlideShare, conţinutul generat de Twitter şi arhivele convorbirilor desfăşurate pe sistemele de Instant Messaging.

Amuzante şi nu prea sunt perspectivele personale privind prezervarea web.

Un capitol este exclusiv dedicat strategiei instituţionale urmat în mod logic de un capitol dedicat căutării politicilor şi a procedurilor. Ceea ce este important de reţinut este ncesitatea de a desfăşura activităţile care implică construirea şi dezvoltarea platformelor informaţionale având în minte şi partea de prezervare a conţinutului contribuit. Ca parte a strategiilor pe termn lung instituţia ar trebui să:

  • se străduie să dezvolte politici neutre din punct de vedere tehnologic. Aceste politici nu ar trebui să depindă de o anumită opţiune software şi nici de formatul resursei,

  • să aplice politicile la sistemele noi care apar,

  • să se asigure că resursele sale web şi managementul acestora sunt acoperite în mod explicit de politicile corespondente,

  • să separe deciziile privind ce zic politicile că ar fi ideal de ceea ce este tangibil folosindu-se resursele şi tehnologia curentă.

Un alt punct important este cel dedicat Ciclul de Viaţă al Informaţiei având patru etape importante: creaţia, utilizarea activă,utilizarea semi-activă şi rezultatul final. Relevant pentru a vă lămuri conceptele, vedeţi şi InfoKitul de la JISC infoNet: http://www.jiscinfonet.ac.uk/infokits/information-lifecycle .

Documentu se încheie cu întrebarea dacă se pot externaliza serviciile de recoltare şi prezervare a conţinutului web. Sunt date exemple clare în acest sens cum ar fi Internet Archive sau după cum este cunoscută a fi the Wayback Machine, un proiect care extrage şi stochează pagini web încă din anul 1996 dar ar cărui politici de stocare nu sunt tocmai cele mai de încredere. Ar uma UKWAC – UK Web Archiving Consortium, care colectează şi prelucrează siteuri din anul 2004. Printre membrii se regăsesc câteva biblioteci naţionale, Arhivele Naţionale, The Wellcome Trust şi JISC. O organizaţie interesantă este şi IIPC – International Internet Preservation Consortium: http://www.netpreserve.org/about/index.php .

Sper că această incursiune pe scurt vă va stârni curiozitatea de a aprofunda subiectul.

3Biblioteca Naţională a Australiei www.nla.gov.au/services/ldeposit.html