reprezentare logo Kosson

Acest tutorial este o introducere la Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Iniţial OAI-PMH a fost dezvoltat ca un mijloc de diseminare pentru serverele pentru preprinturi şi e-printuri, dar a devenit o soluţie cunoscută pe scară largă pentru conectarea depozitelor electronice distribuite acoperind diferite domenii şi datorează succesul în acceptare simplicităţii şi a costurilor scăzute de implementare. Lucrând cu acest tutorial vei dobândi o perspectivă asupra istoriei din spatele OAI-PMH şi o privire de ansamblu asupra caracteristicilor cheie. Cu această ocazie vei vedea mai îndeaproape cum funcţionează protocoalele, vei învăţa câte ceva despre principalele probleme privind implementarea şi vei descoperi câteva puncte utile de pornire şi cîteva indicii care te vor ajuta în postura de implementator. Privire Generală, Istoricul şi Dezvoltarea OAI-PMH şi Glosarul pot fi folosite pentru a dobândi informaţii despre OAI şi OAI-PMH fără a mai intra în detalii tehnice de implementare.

Mulţumiri
Acest tutorial se bazează pe alte tutoriale apărute cu ocazia celei de-al doilea si al treilea workshop Open Archives. Acestea au fost pregătite şi prezentate de Uwe Müller de la Universitatea Humboldt din Berlin, Andy Powell de la UKOLN pentru Universitatea din Bath (Lisabona, Decembrie 2002), Uwe Müller de la Humboldt şi Pete Cliff de la UKOLN (Berlin, Martie 2003). Herbert Van de Sompel, Carl Lagoze, Michael Nelson, şi Simeon Warner au construit multe din slide-urile folosite în prezentarea acestor tutoriale iar contribuţia lor este recunoscută pe deplin. Reprezentările grafice şi părţi ale prezentărilor au fost partajate cu generozitate prin intermediul comunităţii Open Archives Initiative iar creatorii acestui tutorial doresc să mulţumească persoanelor al căror muncă a fost înglobată aici fără a cunoaşte sursa originală.

Open Archive Forum (şi astfel construcţia originară a acestui tutorial) îşi are fundamentul pe parcursul a doi ani, din Octombrie 2001 până în Septembrie 2003 ca măsură însoţitoare la Programul IST – Information Societies Technology, o tematică a celui de-al cincilea Program Cadru al Uniunii Europene gestionat de Directoratul pentru Societatea Informaţională a Comisiei Europene.

  

1. OAI pentru Începători: Privire generală

Cum citeşti acest tutorial

Conceptele de bază OAI şi caracteristici

Şapte definiţii cheie

Surse pentru mai multe informaţii

Cum citeşti acest tutorial

Acest tutorial este adresat acelora interesaţi de mai multe detalii tehnice ale OAI-PMH, chiar dacă Privirea Generală şi Istoricul şi Dezvoltarea OAI-PMH împreună cu Glosarul sunt îndeajuns celor care doresc cîteva informaţii generale. Fiecare parte a tutorialului se cladeşte pe însuşirea celor anterioare, astfel că o bună abordare este aceea de a parcurge fiecare parte făcându-se apel la glosar după necesitate. În completarea glosarului, vei găsi termeni cheie definiţi în fiecare parte a tutorialului. Câteva seturi de întrebări de verificare pentru secţiunile de introducere, te vor ajuta să verifici dacă ai înţeles punctele principale.

Privire generală introduce conceptele de baza OAI şi OAI-PMH. Foloseşte această parte pentru a înţelege ce este OAI-PMH şi ce permite şi ce nu permite. Istoricul şi Dezvoltarea OAI-PMH acoperă apariţia Open Archives Initiative, dezvăluind cum a crescut de la rădăcini şi a trecut prin cîteva faze intermediare şi discutarea problemelor pentru care ţinteşte să ofere soluţii. Această parte vizează şi dezvoltarea protocolului (incluzând natura evolutivă, scopurile şi componentele tehnice) începând cu Convenţia de la Santa Fe trecând prin faza OAI-PMH v.1.0/1.1 pînă la OAI-PMH v.2.0.

Restul tutorialului conţine informaţii de natură tehnică. Ideile Tehnice de Bază ale OAI-PMH introduce şi explică într-un anumit grad de detaliu elementele tehnice cheie ale protocolului. Implementarea OAI-MPH relevă câteva probleme de implementare pentru Furnizorii de Date şi Furnizorii de Servicii. De asemenea, explică cum să implementezi OAI-PMH ca Furnizor de Date şi ca Furnizor de Servicii incluzând paşii necesari pentru o implementare locală şi câteva exemple de instrumente adaptabile disponibile în acces liber. Scheme XML şi Formaturi de Înregistrări prezintă implementarea unui set de metadate al unui Furnizor de Date incluzând prezentarea schemei XML şi cum sunt permise multiple formaturi de înregistrări.

 

Conceptele de bază OAI şi caracteristici

--- Open Archives Initiative (OAI) ---

Esenţa abordării open archives este să permită accesul la material disponibil prin intermediul Web

prin intermediul depozitelor interoperabile pentru partajarea metadatelor, publicare şi arhivare. Această abordare a apărut din sânul comunităţii e-print în cadrul căreia exista o necesitate în ceea ce priveşte o soluţie pentru interoperabilitate crescută privind accesul la diferite depozite cu aspect eterogen ceea ce a condus la dezvoltarea Open Archives Initiative (OAI). OAI dezvoltă şi promovează o platformă de interoperabilitate crescută şi standardele asociate, iniţial pentru creşterea accesului la arhivele e-print, dar în acest moment este luat în calcul accesul la alte materiale digitale. În obiectivele OAI se afirmă: „Open Archive Initiative dezvoltă şi promovează standarde de interoperabilitate care au ca ţintă facilitarea unei diseminări eficiente a conţinutului.”

Multe comunităţi au început sau ar putea beneficia de abordarea open archive. Internetul şi masa în continuă creştere de materiale în format digital şi-au lărgit baza de clienţi potenţiali pentru multe din depozitele de informaţie. Materialul poate fi accesat la o scară mai largă şi de asemenea poate fi valorificat în scopuri le depăţesc pe cele pentru care au fost iniţial create. Mai curând, posibilitatea accesării depozitelor multiple permit construirea unor noi tipuri de servicii, care pot sluji mai bine nevoile utilizatorilor. Un factor suplimentar ar fi potenţialul intrinsec al costurilor scăzute în ceea ce priveşte noile modele ale proceselor de comunicare în cercetare, care ar putea fi sprijinite prin această abordare.

Din prisma organizaţiei, OAI are un corp Executiv pentru management şi Comitete de Conducere şi Tehnice pentru direcţia de politici, dar şi o evaluare pentru dezvoltarea protocolului. DLF – Digital Library Federation, CNI – Coalition for Networked Information şi NSF – National Science Foundation au pus fundamentele OAI. Chiar dacă Executivul şi finanţatorii sunt din Statele Unite, succesul OAI este acorat ferm în participarea unei comunităţi din întreaga lume în special din Europa precum şi din America de Nord. Acum că există o versiune stabilă şi bine dezvoltată a protocolului, necesitatea de a controla atent un număr redus de participanţi, care pot lua decizii rapide ei înşişi, poate fi mai puţin importantă decât greutatea care se pune pe receptarea stabilităţii şi a autoritîţii conferită de controlul unei instituţii de standardizare precum ISO, această posibilitate fiind discutată în cadrul OAI.

--- Protocolul OAI pentru Recoltarea1 de Metadate (OAI-PMH2) ---

Protocolul OAI pentru Recoltarea de Metadate (OAI-PMH) defineşte mecanismele de recoltare a înregistrărilor conţinând metadate din diferitele depozite. OAI-PMH oferă o alternativă tehnică simplă pentru furnizorii de metadate pentru a face metadatele lor disponibile diferitelor servicii bazate pe HTTP (Hypertext Transport Protocol) şi XML (Extensible Markup Language). Metadatele recoltate pot fi în oricare format convenit de către o comunitate (sau de oricare set de date separate ori furnizori de servicii), chiar dacă sunt specificate elemente Dublin Core fără calificatori (unqualified Dublin Core3) pentru a furniza un nivel de bază al interoperabilităţii. Astfel, metadatele din mai multe surse, pot fi adunate împreună într-o singură bază de date putându-se furniza servicii cu o bază în aceste date cuprinse împreună sau „agregate”. Legătura dintre aceste metadate şi conţinutul nu este definită de protocolul OAI. Este important de remarcat că OAI-PMH nu furnizează mecanisme de căutare în aceste date, ci doar face posibilă strângerea datelor laolaltă într-un singur loc. Pentru a furniza servicii, abordarea recoltării trebuie să fie combinată cu alte mecanisme.

Foarte mult promite folosirea protocolului în cadrul unei abordări open archives. Sprijinul pentru un nou model pentru comunicarea în cercetare este cel mai mediatizat beneficiu potenţial. Este posibil ca cele mai rapid de atins ţinte sunt „scoaterea la lumină a resurselor” şi interoperabilitatea având costuri scăzute. Chiar dacă OAI-PMH prezintă simplitate din punct de vedere tehnic, construcţia unui serviciu coerent care să vină în sprijinul utilizatorilor, rămâne cel mai complex lucru. Protocolul OAI-PMH poate deveni parte a infrastructurii web după cum este considerat acum protocolul HTTP, aceasta cu condiţia ca relativa sa simplitate şi succesul dovedit de primii implementatori în contextul dezvoltării unor servicii, conduc la adoptarea sa pe scară largă de către organizaţiile de cercetare, editori şi „organizaţii de conservare a memoriei”.

Şapte definiţii cheie

Open Archive Initiative (OAI)

OAI este o iniţiativă de dezvoltare şi promovare a standardelor de interoperabilitate, care are ca ţintă diseminarea facilă a conţinutului.

Arhivă

Termenul „arhivă” din titulatura Open Archive Initiative reflectă originile OAI aflate în comunitatea eprints, unde termenul arhivă este acceptat în general ca sinonim pentru depozit al lucrărilor de cercetare. Membrii care profesează arhivistica au remarcat definirea strictă a „arhivei” în cadrul meseriei lor având conotaţia de conservare a valorii ep termen lung, autoritate statutară şi politică instituţională. OAI foloseşte termenul de „arhivă” într-un sens mai larg: un depozit pentru stocarea informaţiei. Limba şi termenii cu sunt niciodată lipsiţi de ambiguitate sau controverse iar în acest context OAI cu respect cere indulgenţa profesioniştilor din comunitatea arhiviştilor privitor la folosirea termenului de „arhivă” cu acest sens larg.

(Definiţia OAI citată din secţiunea Întrebări Frecvente a siteului web OAI)

Protocolul OAI pentru Recoltarea Metadatelor (OAI-PMH)
OAI-PMH este un protocol simplu de recoltare pentru partajarea metadatelor între diversele servcii.

Protocol
Un protocol este un set de reguli care definesc comunicarea dintre sisteme. FTP (File Transfer Protocol) şi HTTP (Hypertext Transport Protocol) sunt două exemple de protocoale folosite în comunicarea dintre sisteme prin Internet.

Recoltare
În contextul folosirii OAI, recoltarea se referă în mod specific la aducerea laolaltă a metadatelor din depozite distribuite într-un stoc combinat de date.

Furnizor de Date
Un Furnizor de Date întreţine unul sau mai multe depozite (servere web) care suportă OAI-PMH ca mijloc de prezentare a metadatelor.
(Definiţia OAI citată din secţiunea Întrebări Frecvente a siteului web OAI)

Furnizor de Servicii
Un Furnizor de Servcii emite o cerere OAI-PMH către furnizorii de date şi foloseşte metadatelel ca o bază de construcţie a serviciilor cu valoare adăugată.
(Definiţia OAI citată din secţiunea Întrebări Frecvente a siteului web OAI)
Un Furnizor de Servicii „recoltează” în această manieră metadatele prezentate de Furnizorii de Date.

Surse pentru mai multe informaţii

Open Archives Initiative (site-ul web oficial al OAI)
http://www.openarchives.org/

Open Archives Forum (Site-ul web OA-Forum)
http://www.oaforum.org/

 

2. Istoria şi dezvoltarea OAI-PMH

Originile OAI-PMH

Reuniunea de la Santa Fe

Problemele şi soluţiile propuse

Apariţia unui protocol

Istoria versiunilor OAI-PMH

Desfăşurare flexibilă: modalităţi diverse de desfăşurare a OAI-PMH

Sumar

Şapte definiţii cheie

Surse pentru mai multe informaţii


Originile OAI-PMH

OAI îşi are originile în dezvoltarea depozitelor e-print (aşa-numitele arhive). Depozitele E-print au fost create pentru a comunica rezultatele activităţilor de cercetare în desfăşurare înainte de a fi supuse atenţiei şi publicării într-un jurnal. Primele au fost xxx (mai târziu arXiv), care au pornit cu domeniul fizicii energiilor înalte în anul 1991 şi s-au lărgit pentru a acoperi domeniul fizicii plus domenii înrudite precum matematica, ştiinţe nonliniare şi ştiinţele computerelor. A urmat apariţia lui CogPrints pentru psihologie, lingvistică şi ştinţele din domeniul neurologiei. NCSTRL - The Networked Computer Science Technical Reference Library a furnizat acces la rapoartele ştiinţifice din domeniul tehnicii depozitate fie în xxx sau în depozite departamentale ale organismelor de cooperare din cercetare. În mod similar, RePEc a furnizat autorilor din domeniul economic cu opţiunea de a propune lucrări curente către arhiva departamentală sau, dacă nu exista niciuna, se depuneau la arhiva EconWPA a Universităţii din Washington. În completare, NDLTD - Networked Digital Library of Theses and Dissertations a construit o bibliotecă digitală a tezelor şi disertaţiilor în format electronic (ETD4) condusă de studenţii instituţiilor membre.

Mecanismul alcătuirii colecţiilor acestor depozite, în marea lor majoritate erau orientate pe autor. (În cadrul OAI şi în sprijinul acestui tutorial trebuie menţionat că un „e-print” este definit ca un document arhivat de către autor.) Interfaţele web au permis oamenilor să interacţioneze cu aceste depozite fiind disponibile şi câteva instrumente de căutare. Au fost construite diferite interfeţe pentru diferite depozite astfel încât utilizatorii au fost forţaţi să înveţe diferite interfaţe pentru a accesa diferitele depozite şi instrumente de căutare. Protocolul „Guildford protocol” sprijină interoperabilitatea dintre arhivele RePEc archives, în timp ce depozitele NCSTRL au implementat protocolul Dienst. Aceste protocoale au făcut posibilă cunstruirea unei varietăţi de servicii destinate utilizatorilor fiind incluse cele care permit căutarea şi navigarea prin depozitele digitale din fiecare grupare. NDLTD a creat un workflow pentru propunerea materialului şi a dezvoltat un DTD (Document Type Description) XML pentru ETD-uri precum şi menţinerea unei biblioteci digitale pentru ETD-uri. Oricum era prea puţin posibilă partajarea metadatelor între aceste medii diverse. În continuare apăreau diferite iniţiative în domeniul noilor mijloace de comunicare în cercetare. Câţiva jucători importanţi în aceste dezvoltări au văzut interoperabilitatea ca o problema din ce în ce mai importantă care trebuia rezolvată de comunitatea e-print.

Reuniunea de la Santa Fe

„impactul acestora şi al iniţiativelor viitoare poate fi substanţial mai mare atunci cînd se va putea fi stabilită interoperabilitatea [arhivele e-prints]”

(Ginsparg, Luce, Van de Sompel, UPS Call, Julie 1999)

Au fost identificate două probleme cheie care diminuează impactul arhivelor e-print: utilizatorii finali se confruntau cu interfeţe de căutare multiple îngreunând descoperirea resurselor iar partajarea metadatelor nu putea fi făcută într-o manieră automatizată. Soluţiile care au fost explorate includeau, pe de o parte, căutarea în arhive şi recoltarea metadatelor arhivelor pe de altă parte pentru a pune la dispoziţie servicii de căutare centralizate. În Iulie 1999, Paul Ginsparg, Rick Luce şi Herbert Van de Sompel de la Los Alamos National Laboratory au făcut un apel către un grup de experţi în tehnologie pentru a participa la o întâlnire la Santa Fe (New Mexico) în luna Octombrie a aceluiaşi an.

Ginsparg se ocupa de arXiv iar Van de Sompel esa asociat al Universităţii din Ghent în acel moment. Aceştia au propus crearea unui serviciu universal pentru literatura auto-arhivată din domeniul cercetării de către autori (Serviciul Universal Preprint sau UPS). UPS ar fi fost „substratul fundamental, liber al informaţiei din domeniul cercetării, peste care serviciile libere şi cele comerciale ar putea să se dezvolte”. Primii paşi către acest deziderat ar fi fost identificarea sau crearea unor tehnologii bazate pe interoperabilitate şi cadre pentru diseminarea conţinutului din arhivele e-prints. Acest lucru a fost anunţat unei audienţe mai largi sub titlul „Open Arhives Initiatives îndreptate către promovarea soluţiilor de arhivare pentru autori”.

Ţinta întâlnirii de la Santa Fe a fost discutarea problemelor de interoperabilitate, acordul privind începerea lucrului la un prototip de serviciu de bibliotecă digitală bazat pe depozitele e-print deja existente şi stabilirea unui forum pentru a lucra mai departe la interoperabilitate şi soluţiile de auto-arhivare.

În pregătirea pentru întâlnire au fost întreprinse cîteva lucrări. Van de Sompel a iniţiat un proiect care simula câteva aspecte ale interoperabilităţii între arhivele distribuite e-prints. Thomas Krichel (Universitatea din Surrey & RePEc) au experimentat convertirea datelor dintr-o arhivă e-print în formatul de metadate ReDIF, care era folosit de RePEc. Michael Nelson (NASA Langley) a luat aceste date şi le-au folosit pentru a crea diferite arhive proiectate în conformitate cu conceptele Smart Object Dumb Archives.

Datele folosite proveneau din surse care includeau CogPrints, NASA, NCSTRL, RePEc şi xxx. Ţinta acestui effort nu a fost de a face aprecieri asupra direcţiilor care ţineau de proiectare pe care UPS ar fi trebuit să le adopte, ci, mai degrabă, catalizarea discuţiilor din preajma întâlnirii din Octombrie.

Problemele şi soluţiile propuse

Căutare încrucişată sau recoltare ?

Alegerea unei direcţii generale în dezvoltarea cadrului arhitectural pentru UPS, a fost o tematică cheie în această fază de început. Existau două abordări diferite, căutarea încrucişată în multiple arhive bazate pe un protocol precum Z39.50 sau recoltarea metadatelor în cadrul unui serviciu central într-un calup de date care să fie mai aproape de interfaţa cu utilizatorul.

Experinţa în ceea ce priveşte bibliotecile digitale a sugerat căutarea încrucişată ca nefiind scalabilă corespunzător cel puţin parţial datorită faptului că serviciul de căutare se degradează până la nivelul celui mai slab server din setul de căutare încrucişată. De exemplu, NCSTRL a descoperit că o căutare distribuită a unui număr mic de noduri era viabilă, dar performaţele se degradau semnificativ la interogarea a 100 de noduri. În Marea Britanie, RDN – Resource Discovery Network descoperea că având fie şi numai cinci intrări pe subiecte într-o căutare încrucişată, apăreau probleme legate de performanţă şi în construcţia unei interfeţe de navigare iar dezvoltatorii căutau o soluţie fezabilă de bază de date centralizată. Cu cât sunt interogare mai multe servere într-o căutare încrucişată, cu atât se măresc şansele apariţiei unui server lent sau care are o funcţionare defectuoasă.

De asemenea, există şi problema descoperirii serverelor ţintă de care nevoie o anume căutare încrucişată. Descrierile colecţiilor – acolo unde acestea există – pot prezenta inconsistenţă în cadrul lărgit al mai multor depozite şi nu au fost proiectate pentru comunicarea maşina-la-maşină necesitând o examinarea consumatoare de timp din partea utilizatorului. Diferenţele în ceea ce priveşte sintaxa limbajelor de interogare şi diferitele criterii de căutare (dintre servere sau de-a lungul timpului) introduc bariere de complexitate, fie pentru utilizatorul final, fie pentru software-ul de căutare încrucişată sau ambele deopotrivă. Fuzionarea ierarhizată a rezultatelor prezentate de serverele distribuite prezintă în continuare probleme tehnice şi de interfaţă cu utilizatorul iar diferitele dimensiuni şi tipuri de ţinte pot deforma rezultatele. O interfaţă de navigare este dificil de contruit atunci când metadatele sunt distribuite de-a lungul a mai multor depozite. A fost sugerat faptul că o soluţie ar fi obţinerea tuturor metadatelor într-un singur loc.

Prototipul demonstrativ UPS adus la întâlnirea de la Santa Fe a demonstrat capacitatea unor servicii de diseminare a unei biblioteci digitale folosind arhive încrucişate bazate pe o colecţie de metadate recoltate din diferite arhive. Arhitectura a fost creionată de NCSTRL împreună cu o versiune a protocolului Dienst. Astfel, numărul nodurilor interogate poate fi reduse la unul singur aducând cu sine importante beneficii.

Un serviciu poate fi construit folosindu-se un singur limbaj de interogare, un set de criterii de căutare şi un algoritm de ierarhizare. În completare, un mod de alertare a prezenţei datelor simplifică construcţia structurilor de navigare.

Furnizorii de Date şi Furnizorii de Servicii

Arhitectura UPS a identificat două roluri logice: „Furnizori de Date” şi „Furnizori de Servicii”. Furnizorii de Date gestionează depozitarea şi publicarea resurselor într-un depozit şi „expunerea” la recoltare a metadatelor depozitului. Ei sunt creatorii şi deţinătorii metadatelor şi a depozitelor de resurse. Furnizorii de Servicii recoltează metadate de la Furnizorii de Date. Aceştia folosesc metadatele colectate în scopul furnizării unuia sau a mai multor servicii pentru toate datele. Tipul serviciilor care pot fi oferite include a interfaţă de căutare, un sistem de consultare, etc. Se observă că o organizaţie „furnizor” poate juca ambele roluri oferind deopotrivă date pentru recoltare dar şi servicii pentru utilizatorul final. Schimbarea arhitecturală esenţială a fost deplasarea de la interfeţele adresate utilizatorului de către fiecare depozit în parte, la sprijinirea coexistenţei deopotrivă a interfeţelor utilizatorului final, dar şi a interfeţelor automatizate pentru recoltare.

Apariţia unui protocol

Numele de UPS (Universal Preprint Service) a fost repede schimbat, în parte pentru a evita potenţialele dificultăţi legate de faptul că UPS este o marcă înregistrată pentru servicii de curierat şi parte pentru faptul că nu toate e-printurile sunt preprinturi. Cadrul în care acest serviciu universal ar fi dezvoltat a fost denumit Open Archive initiative – prescurtat OAi, iar mai târziu OAI – o denumire care a prins aderenţă în discuţiile iniţiale.

Din discuţii şi experimente a fost clar faptul că, pentru a uşura recoltarea metadatelor, trebuie să existe un acord în ceea ce priveşte:

  • un protocol de transport – HTTP sau FTP, de exemplu

  • un format de metadate – Dublin Core sau MARC, de exemplu

  • o bază de asigurare a calităţii metadatelor – un set de elemente obligatorii, convenţii de denumiri şi subiecte, etc.

  • proprietate intelectuală şi drepturi de folosire – cine poate face ce cu cine ?

Un acord iniţial în zonele cheie a făcut posibilă dezvoltarea unui protocol pentru recoltarea metadatelor, numit Santa Fe Convention în onoarea întâlnirii unde s-a convenit acest acord.

Istoria versiunilor OAI-PMH

 Image

Convenţia de la Santa Fe a fost prima încarnare a Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Acesta a fost creionat pe baza Prototipului UPS, modelul de furnizare a Serviciilor/Datelor RePEc/SODA, protocolul Dienst şi efortul colectiv al grupului de la Santa Fe. Punctul focal al Convenţiei de la Santa Fe a fost „optimizarea regăsirii conţinutului e-print”.

OAI-PMH 1.0 a introdus setul de elemente simple ale Dublin Core ca punct de start pentru interoperabilitatea metadatelor. S-a constituit ca expresie a Convenţiei de la Santa Fe, întâlnirile Digital Library Federation, lucrările în cadrul Universităţii Cornell şi a feed-back-ului din partea alfa-testerilor. Centrul atenţiei s-a lărgit pentru a uşura descoperirea „obiectelor asemănătoare documentelor”. Acestea erau specificaţiile pentru un grad ridicat de interoperabilitate, fondat pe modelul recoltării metadatelor. Se baza pe HTTP folosind cereri HTTP GET / POST şi răspunsuri XML. Trebuie precizat că nu este un protocol de căutare, ci, mai degrabă este bazat pe modelul recoltării metadatelor. OAI-PMH 1.1 a fost o revizie a specificaţiilor 1.0 fiind luate în considerare modificările survenite la Specificaţiile Schemei XML apărute. Versiunea 1.0 cât şi versiunea 1.1 aveau un caracter experimental.

OAI-PMH 2.0 este o revizuire majoră a protocolului nefiind compatibil cu versiunile 1.x. A fost construit pe baza OAI 1.x şi a răspunsului din partea Listei Implementatorilor OAI, hotărârile OAI Tech şi a feed-backului din partea testerilor alfa. Din nou, aria de acoperire a acestui protocol a fost extinsă fiind vorba despre „schimbul recurent de metadate privind resursele între sisteme”. În continuare vorbim despre specificaţiile pentru un grad ridicat de interoperabilitate, fondat pe modelul recoltării metadatelor. Versiunea 2.0 este un protocol stabil iar OAI s-a angajat în a face revizuiri succesive a protocolului care să păstreze compatibilitatea cu versiunile mai vechi.

Desfăşurare flexibilă: modalităţi diverse de desfăşurare a OAI-PMH

OAI-PMH permite o desfăşurare flexibilă. Deoarece este un protocol simplu bazat pe HTTP şi XML permite o desfăşurare rapidă. Sunt disponibile un număr de instrumente după cum va fi arătat în continuarea tutorialului. Sistemele pot fi desfăşurate într-o varietate de configuraţii după cum este ilustrat în următoarele diagrame. Resursele de metadate şi resursele full-text sunt disponibile în regim de acces liber dar acest lucru nu este neapărat necesar. OAI-PMH poate fi folosit deasemenea între grupuri închise, doar pentru partajarea metadatelor, dar şi pentru aplicaţii comerciale.

Multipli Furnizori de Servicii
Multipli Furnizori de Servicii

Furnizorii Multipli de Servicii pot recolta de la mai mulţi Furnizori de Date.

Agregatori
Agregatori

Agregatorii pot sta între Furnizorii de Date şi Furnizorii de Servicii.

Recoltarea combinat cu cutarea
Recoltarea combinat cu cutarea

Abordarea recoltării este însoţită de căutare bazată pe standardele Z39.50 sau SRW.

Sumar

Primii întreprinzători au dezvoltat soluţii separate, dar a fost recunoscută necesitatea interoperabilităţii. Ca răspuns, Întâlnirea de la Santa Fe, a condus la un sprijin substanţial al OAI, ceea ce promovează interoperabilitatea via OAI-PMH ca standard deschis şi diseminarea informaţiilor despre OAI-PMH. OAI-PMH este un mecanism având costuri reduse folosit pentru recoltarea înregistrărilor de metadate de la un sistem la altul – de la Furnizorii de Date la Furnizorii de Servicii. Furnizorii de Servicii pot recolta de la Furnizorii de Date asigurând astfel o largă răspândire a metadatelor. OAI-PMH nu este un protocol de căutare, dar folosirea acestuia poate fi punctată cu servicii de căutare. Din acest punct de vedere poate constitui un substrat pe care se pot construi alte servicii.

Dezvoltarea de-a lungul a doi sau trei ani a prezentat o mişcare de la particular la general – de la descoperirea de conţinut e-print, la partajarea descrierilor oricăror resurse. Chiar dacă sunt folosite elemente simple ale setului de metadate Dublin Core pentru a asigura o interoperabilitate la nivel de bază, OAI-PMH poate fi extins spre oricare format de metadate care poate fi codat în XML. Dat fiind faptul că se bazează pe HTTP pentru cereri (controlul accesului, compresie, coduri de eroare, etc.) şi pe XML pentru răspunsuri, OAI-PMH este prietenos cu mediul web şi implicit poate fi supus regulilor de protecţie prin firewall. Permite Furnizorilor de Servicii să formuleze interogări de tipul: „dă-mi câteva înregistrări sau pe toate”, unde „câteva” se bazează pe mărci-temporale, seturi sau formate de metadate. Prezintă simplitate şi poate fi construit pe baza tehnologiilor existente putând fi desfăşurat uşor prin intermediul multiplelor instrumente care pot ascunde protocolul dezvoltatorilor.

Şapte definiţii cheie

E-print

Un e-print este o arhivă făcută de un autor. În sensul folosirii curente a termenului, conţinutul unui e-print este un rezultat ştiinţific sau oricare alt rezultat de cercetare.

Obiect precum documentele

Reprezintă o unitate de date digitale comparabile cu un document pe suport tradiţional.Termenul desemnează o resursă stabilă relativ simplă şi nu va acoperi artefactele multimedia ori servicii interactive.

Resursă

O resursă este orice are o identitate. Exemplele familiare includ documente electronice, o imagine, un serviciu (de exemplu, starea vremii) şi o colecţie de alte resurse. Nu toate resursele pot fi „accesibile” prin reţea. Fiinţele umane, corporaţiile sau cărţile legate dintr-o bibliotecă pot fi considerate şi acestea ca fiind resurse.

(Definiţie din Guidelines for implementing Dublin Core in XML de Andy Powell şi Pete Johnston)

XML

Este acronimul pentru Extensible Markup Language. XML este un limbaj pentru a construi alte limbaje. Defineşte un mijloc de a descrie date. XML poate fi validat cu un DTD sau cu o schemă a elementelor care definesc un limbaj. Există mapări XML pentru un număr de formate pentru metadate.

DTD

Este acronimul pentru Document Type Definition. DTD este o specificaţie formală a structurii unui document.

Dublin Core

Dublin Core (DC) este un format de metadate definit pe bazele unui consens internaţional. Dublin Core Metadata Element Set defineşte cinsprezece elemente pentru o descriere simplă şi regăsirea unei resurse, toate acestea fiind recomandate, dar niciuna nefiind obligatorie. DC a fost extins prin intermediul unor elemente opţionale, elemente calificatoare şi termeni de vocabular.

(Definiţie extrasă din glosarul metadatelor de la UKOLN şi Metadata in a Nutshell de Michael Day)

Interoperabilitate

Interoperabilitatea este abilitatea sistemelor, serviciilor şi organizaţiilor de a lucra împreună de la egal la egal pentru atingerea unor scopuri. În zona tehnică acestă interoperabilitate este susţinută de standardele deschise pentru comunicare între sisteme şi pentru descrierea resurselor şi colecţiilor printre altele. Interoperabilitatea este considerată esenţială în contextul descoperirii de resurse şi acces.

Surse pentru mai multe informaţii

Articole

Lynch, C.A. Metadata Harvesting and the Open Archives Initiative. ARL Bimonthly Report 217, August 2001
http://www.arl.org/newsltr/217/mhp.html

Van de Sompel, Herbert, Krichel, T., Nelson, M. L. and others. The UPS Prototype: An Experimental End-User Service across E-Print Archives. D-Lib Magazine, vol.6, no. 2. February 2000.
http://www.dlib.org/dlib/february00/vandesompel-ups/02vandesompel-ups.html

Van de Sompel, H., Lagoze, C. The Santa Fe Convention of the Open Archives Initiative. D-Lib Magazine, vol.6, no.2. February 2000.
http://www.dlib.org/dlib/february00/vandesompel-oai/02vandesompel-oai.html

Web site

OAI Web site: http://www.openarchives.org/

 

1Am preferat termenul „recoltare” în favoarea celui de „colectare” pentru sensul mai apropiat de cel implicat în contextul original.

2OAI-PMH = Open Archive Initiative – Protocol for Metadata Harvesting

3Care este diferenţa dintre elementele calificate şi cele simple provitor la schema Dublin Core , vezi aici: http://dublincore.org/resources/faq/#whatisthedifference

4ETD – Electronic Thesses and Dissertations