Biblioteca Digitală a Ungariei

Detalii: Scris de Cristi Ciortan; Părinte: Prezentări; Categorie: Proiecte românești; Creat: 04 Martie 2008; Accesări: 22270

Functionalitatea unei biblioteci digitale

Un sistem de Biblioteca Digitală modern trebuie să aibă urmatoarele componente funcționale:

achizitie – captura si digitizare de obiecte fizice in reprezentare digitala; noralizare, standardizare si curatarea datelor capturate; extragerea metadatelor, la nivel scazut precum culoare, textura, forme, geometrii, sau de nivel inalt prin corelatii cu alt continut inrudit;
modelare – include crearea si actualizarea profilurilor utilizatorilor; crearea si actualizarea contexetelor operatiiei; crearea si actualizarea ontologiilor;
management – include administrarea metadatelor si continutului (indexare prntru regasire rapida, integritatea datelor, consistemta si versiuni); administrarea identitatilor digitale, proprietate, securitate si asigurarea secretului; administrarea politicior de cost, calitate, abilitatea de incredere si citarile; administrarea ciclului de viata a cunostintelor;
mediere – include responsabilitatea de administrare a eterogeneitatii si ofera informatie care este consistenta cu mediul extern;
acces – include administrarea comunicarii datelor, securitate, constientizarea contextului, tratarea nepartinitoare a utilizatorilor, si operatii de colaborare;
distributie – include suportul pentru infrastructura IT necesara (de exemlu caching), administrarea copyrightului;
interpretare si translatare – include suportul pentru limbaje pentru a reprezenta modele, comunica intre unelte de procesare si comunicarea cu utilizatorul;
uneltele specifice sarcinilor definite de utilizatori – software-ul care este necesar pentru a fi incorporat in sistem pentru a oferifunctionalitate presonalizara ceruta de un mediu particular sau de o comunitate particulara.

Pentru sistemul de digitizare
- exista probleme cu pozele care trebuiesc transformate in text

- problema de a decide care documente trebuiesc trecute in baza de date

Posibile motoare de cautare pentru o bibliotecă Digitală

Apache Lucene

Apache Lucene este un motor de cautare text, performant scris in Java. Este disponibil sub forma unor biblioteci care se pot integra cu alte aplicaţii. Acest lucru il face potrivit pentru aproape orice aplicatie care necesita cautare “full text”. Motorul de cautare text Apache Lucene poate sa functioneze si pe sisteme distribuite in arhitectura carora intra platforme diferite.

Caracteristici software ale produsului Apache Lucene:
Scalabilitate si indexare de inalta performanta:

Volum de cautare de peste 20MB/s pe un procesor Pentium M cu frecventa de 1.5GHz
Cerinte mici de memorie RAM – este necesar un heap de un 1MB
Creare rapida de index incremental in timpul cautarii
Marimea indexului reprezinta aproximativ 20-30% din marimea textului indexat

Algoritmi puternici, rapizi si precisi:

Rezultatelor cautarii sunt insotite de scoruri - cele mai bune rezultate sunt intoarse primele
Sunt suportate multe tipuri de interogari: fraze de intorogare, cautare pe baza de „wildcard”, intorogari de proximitate, interogari bazate pe intervale
Cautare pe baza de campuri (Titlu, autor, continut)
Cautare pe baza de interval de date
Sortare dupa orice camp
Cautare pe index multiplu si interclasarea rezultatelor
Permite updatarea textului si cautare in acelas timp

Solutie multi platforma:

Implementare scrisa 100% in Java – sistemul este independent de platforma
Disponibil sub forma unei librari open source – poate fi integrate in orice aplicatie comerciala sau open source

Aplicatii pentru biblioteci in care este folosit Lucene:
•    Digital Case – sistem folosit pentru stocare documentelor si repozitoriului digital din cadrul Western Reserve University's
•    dLibra Digital Library Framework – Prima platforma software pentru biblioteci digitale poloneza dezvolata de Poznan Supercomputing and Networking Center (PSNC).
•    Intrallect intraLibrary : Learning Object Repository - sistem web-based pentru managementul continutului
•    jLibrary – Sistem open source pentru managementul documentelor

Motor recunoastere optica caractere

    Procesul de recunoastere optica a caracterelor (OCR - Optical Character Recognition) presupune scanarea documentelor tiparite si identificarea prin metode specifice a formelor caracterelor incluse in cadrul acestora. In final, aplicatiile care prezinta suport pentru OCR sunt apte de a exporta textul in format editabil (fisiere PDF).
    Procesul de recunoastere a caracterelor prezinta un grad de complexitate, fiind dependent de calitatea tipariturii, posibilitatile de scanare si de abilitatea programului de tip OCR de a identifica textul din cadrul documentelor. Solutiile de recunoastere optica a caracterelor au inregistrat in ultimii ani o evolutie importanta care a determinat un surplus de precizie in derularea acestui proces. In primul rand, s-a redus substantial gradul de eroare reprezentat de procentajul caracterelor neidentificate sau identificate eronat dintr-o pagina scanata. Suplimentar, pentru a asigura mai multa rigoare acestui proces, in cadrul solutiilor OCR au fost incluse dictionare si instrumente de control de sintaxa.
    De asemenea, aplicatiile din aceasta categorie sunt astazi capabile sa identifice elemente grafice si formatari complexe din cadrul paginilor tiparite. Astfel, este posibila scanarea unei pagini complexe de ziar, urmand ca aplicatia OCR sa o transforme intr-un fisier editabil care pastreaza formatarea originalului.
    La baza procesului de recunoastere optica de caractere sunt doua metode:
•    Retele neurale – intai se identifica zona care cuprinde un caracter si apoi acea imagine este comparata folosind retele neurale cu sabloane de caractere. Din comparatia cu fiecare sablon rezulta un scor, se alege litera reprezenta de sablonul cu scorul cel mai mare.
    Avantaje:

Metoda este eficiente deoarece se pot stoca foarte multe sabloane
Se pot adauga usor noi sablone
Se poate folosi in programe care invata din corecturile utilizatorilor
Fiecare sablon primeste un scor in urma comparatiei cu caracterul

Dezavantaje:

Metoda este lenta si foloseste foarte multe resurse
Metoda se preteaza foarte bine pentru recunoastere de caractere in cadul documentelor cu o calitate a tiparului mai proasta sau in aplicatiile unde trebuiesc adaugate noi sabloane si nu este nevoie de o viteza mare de procesare

• Motoda intersectii, colturi, puncte terminale – fiecare sablon/caracter este catalogat dupa numarul de intersectii, muchii si colturi. Asftel spre exemplu: ’p’ are 2 intersectii si 1 punct terminal. In caz ca sunt conflicte (exista 2 sabloane cu 2 intersectii si 1 punct terminal – (’p’ si ’b’) se fac analize suplimentare – de exemplu ‚p’ are intersectiile la mijloc si sus, iar ‚b’ la mijloc si jos.

Avantaje:

Metoda mult mai rapida decat folosirea retelelor neurale
Rezultate foarte bune cand sunt sabloane putine iar tiparul si scanarea sunt de buna calitate

Dezavantaje:

Metoda inutulizabila in cazul multor sabloane datorita conflictelor care uneori nu pot fi rezolvate
Procedeul de introducere de noi sabloane este foarte greoi – trebuie descris sablonul si vazut daca exista conflicte cu sabloane deja existenete
Metode nu perminte „invatarea” din corecturile utilizatorilor
Metoda puternic dependenta de calitatea tiparului si a scanarii
Metoda se preteaza foarte bine in aplicatiile de recunoastere a numerelor de inmatriculare – sabloane putine si este nevoie de o recunastere rapida a caracterelor.

Majoritatea programelor OCR folosesc o combinatie intre cele 2 metode.

a.) Omnipage

    Important de subliniat in ceea ce priveste aceasta aplicatie este capacitatea programului de a invata si de a imbunatati procesul OCR pe masura utilizarii. Are implementata facilitatea Intelitrain, ea aducand un surplus de inteligenta artificiala acestei aplicatii.
    Astfel, Intelitrain tine cont de modificarile realizate de utilizator pentru sectiunile de text care nu au fost procesate corect, programul inregistrand corelatiile intre formele de caractere din documentul original si modificarile realizate. Folosind aceasta facilitate se pot crea noi sabloane in privinta caracterelor.
    Ca o consecinta a setului de instrumente accesibil si a ergonomiei aplicatiei, utilizarea programului este sensibil simplificata. In partea superioara a ferestrei programului se remarca bara de instrumente principala.
    Prin intermediul acestui tool-bar exista posibilitatea de a realiza rapid cele trei operatiuni specifice procesului OCR: scanarea sau preluarea de pe disc a imaginilor deja scanate; activarea operatiunii de recunoastere a caracterelor si salvarea rezultatului intr-un format editabil.
    In ceea ce priveste procedura de recunoastere a textului si a formatarii documentului, OmniPage dispune de mai multe modalitati de lucru. In primul rand, mentionam modul Automatic in care programul identifica singur (fara interventia utilizatorului) zonele de text si elementele grafice din cadrul documentului.
    In plus, Scansoft Omnipage permite importul documentelor PDF si transpunerea acestora in format editabil, aceasta functionalitate fiind cu predilectie utila in cazul fisierelor PDF protejate, care nu permit realizarea operatiunilor de copiere a textului sau a elementelor grafice.

b.) Abby Fine Reader

    Abbyy Transformer 2.0 este o solutie de transformare exacta si imediata a oricarui tip de fisier pdf in format editabil, sau de creare a documentelor in format pdf direct din fisiere Microsoft Office. Cu un singur click de mouse fiecare utilizator de PC poate converti documente pdf in format Microsoft Word, Excel, HTML sau Txt. Abbyy     Transformer Pro2.0 este utilitarul perfect deoarece permite: modificari ale documentelor, folosirea si pregatirea rapoartelor in format pdf, trimiterea contractelor in format electronic si publicarea pe site a listelor de pret.
    Abbyy Fine Reader OCR 8.0 este o aplicatie de recunoastere optica a caracterelor (OCR). Aplicatia transforma atat imaginile generate de scanere, multifunctionale periferice, sau camere digitale, cat si documente pdf in formate editabile, pastrand asezarea originala in pagina. Astfel se obtin informatii digitale pe care le putem modifica usor, accesa electronic sau arhiva pe computer.

    Caracteristici importante pentru proiectul SIPADOC ale aplicatiei Abby Fine Reader:
•    OCR multilingv. FineReader recunoaste 179 de limbi, mai mult decat oricare alta aplicatie de conversie a documetelor
•    acuratete mai mare cu suportul dictionarului Microsoft Word. Cu ajutorul integrarii dictionarului Microsoft Word, ABBYY FineReader 8.0. recunoaste corect chiar mai multe cuvinte specifice utilizatorului.
•    Automatizarea Procedurilor. Aplicatia “Automation Manager” integrata in Abby Fine Reader, permite automatizarea procedurii de conversie si export al documentelor. Alternativ, utilizatorii pot crea proceduri proprii cu ajutorul unei aplicatii numita “Automation Wizard”. Aplicatia “Automation Manager” este ideala pentru proceduri de conversie repetate cu regularitate. Procedurile automate pregatite pentru folosinta pot fi repartizate mai multor angajati ai companiei
•    Setarile de securitate PDF si suportul de criptare. FineReader 8.0. ofera suport pentru urmatoarele setari de securitate, facand acest program sa fie potrivit pentru a fi folosit intr-un mediu de lucru guvernamental sau pentru organizatii care cer securitate sporita:
•    Suport pentru parole sau acces liber
•    Le permite utilizatorilor sa restrictioneze printarea, editarea sau extragerea continutului documentelor
Suport bazat pe RC4, 40 bit, 128 bit si AES (Advanced Encryption Standard)

Cerintele necesare pentru definirea arhitecturii unei biblioteci digitale

a)    Actiuni utilizator

Utilizatorii sistemului vor putea indeplinii urmatoarele actiuni:
•    Cautare si download documente
•    Adaugare de documente
•    Comanda operatia de extragere continut din document si realizeaza verificarea a ce se extrage
•    Modificare/adaugare/stergere metadate descriere documente
•    Adaugare de noi sabloane pentru realizarea operatiunii OCR
•    Introducere a noi concepte in ontologie, modificarea conceptelor existente si a relatiilor dintre acestea
•    Administrare portal

b)    Roluri utilizator

In functie de operatiile pe care un utilizator le va putea face asociem urmatoarele roluri:
•    Utilizator – poate efectua cautare si download de documente
•    Utilizator cu drept de adaugare de documente – poate adauga noi documente, modifica/adauga/sterge metadata la documentele care au fost adauga de el, de asemenea poate adauga noi sabloane de caractere pentru realizarea operatiunii de recunoastere optica a caracterelor
•    Administrator ontologie – poate adauga/modifica/sterge concete din ontologie si relatiile dintre acestea
•    Administrator sistem – poate efectua orice operatie asupra sistemului

c)    Cerinte interfata sistem

Interfata utilizatorului cu sistemul va fi un site web de tip portal. Portalul sistemului va contine in mod obligatoriu urmatoarele pagini web sau secvente de pagini:
• pagina incarcarea documentelor de catre utilizatori – in aceasta pagina se vor incarca noile documente si descrierea sumara a documentului. Tot aici se vor prezenta spre validare de catre utilizator rezultatele procesului de recunoastere optica de caractere si apoi daca acestea sunt satisfacatoare se vor prezenta spre validare rezultatele procesului de regasire a continutului
• pagina pentru cautare de documente – vor exista 2 tipuri de cautare a documentelor:

simpla – utilizatorul va introduce un cuvant cheie/fraza pe baza careia sa se caute documentele
complexa – utilizatorul va putea cauta pe dieferite criterii, va putea construi fraze complexe de interogare si va putea adauga cuvinte cheie alegand concepte din ontologie

In pagina de cautare vor fi afisate si rezultatele cautarii, impreuna cu un scor probabil specific fiecarui rezultat
• pagina pentru „rasfoirea” ontolgiei – se va putea naviga pe conceptele din ontologie si sa se vizualizeze documente legate de acele documente;
• pagina pentru prezentarea metadatelor asociate unui intr-un format „inteligibil” – metadatele vor fi stocate in format XML si vor fi prezentate utilizatorului intr-o forma arborescenta, conceptele stocate in metadate vor servi drept link-uri catre paginile de „rasfoire a ontologiei”;
• pagina pentru adaugarea de noi sabloane in vederea realizarii recunoasterii de caractere;

Sistemul informatic al Bibliotecii Nationale a Ungariei

1.    Infrastructura hardware

In Biblioteca Nationala a Ungariei se gasesc aproximativ 500 de calculatoare, utilizate atat de angajatii bibliotecii cat si de vizitatatori. Acestea se afla legate in retea „Ethernet” rata de transfer intre calculatoare fiind de 100MB/s, iar legatura catre exterior are o rata de transfer de 1GB/s.
Pentru vizitatori se mai pune la dispozitie o retea Wireless – 802.11g securizata folosind WPA2 si cu autentificare dot1x. Utilizatorii se vor autentifica in cadrul retelei folosind ca „username” numele lor si parola id-ul inscris pe cardul de vizitator. O caracteristica aparate al retelei este aceea ca un utiliztor poate folosi reteaua inclusiv daca are setat o adresa IP statica care apartine unei alte clase. In acest caz switch-ul isi va defini o interfata ce va avea o adresa IP din acceas clasa cu adresa utilizatorului si va actiona drept „gateway”.
Infrastructura se bazeaza pe mai multe masini server, aflate intr-o camera speciala dotata cu sistem „profesional” de racire. Cea mai importanta masina server este serverul de stocare, cu o capacitate de 5TB si sistem „mirror”. Pe acesta se afla toate bazele de date din cadrul bibliotecii, precum si o mare parte din documentele digitizate.
Dintre alte masini importante se mai merita mentionate:
•    Serverul de aplicatie pentru AMICUS
•    Masinile Firewall redundante
•    Serverul web
•    Serverul de email
•    Masinile terminal server prin care se pot utiliza sistemele de baze de date

2.    Sistemele software

2.1    Sistemul de stocare a cataloagelor AMICUS

AMICUS este un sistem integrat interbiblioteci pentru mentinerea cataloagelor si a arhivelor.
Sistemul AMICUS a fost initial dezvoltat pentru Biblioteca Nationala a Canadei si apoi extins pentru a fi un sistem interbiblioteci in folosit de majoritatea bibliotecilor din Canada.
Folosind AMICUS se poate realiza un cadru de cooperare interbiblioteci prin tinerea intr-un mediu comun a bazelor de data (cataloagelor) mai multor biblioteci. Fiecare biblioteca poate efectua cautari atat in propriile cataloage cat si in cataloagele celorlate biblioteci, asigurandu-se astfel o regasire rapida a informatiei.
Sistemul AMICUS are capabilitatea de a se adapta pe specificul fiecarei biblioteci. Astfel, pentru o intrare de catalog se pot mentine pana la 16 view-uri, astfel fiecare biblioteca poate gasi documentele conform specificului fiecareia. De exemplu o biblioteca poate tine descrierea ISBN completa a unui document, cauta si indexa dupa aceasta, dar o alta poate tine doar denumire, autor si anul publicarii. Fiecare poate cauta in catalogul celeilalte folosind specificul propriu. Exista si un view special – V2 care este specific pentru indexarea articolelor aparute in publicatii periodice. Fiecare utilizator isi poate seta o ordine de preferinte (care baze de date/biblioteci au intaietate la cautare, ce „view” poate sa folosesca pentru cautare, etc). De asemenea exista posibilitatea ca bibliotecile sa isi poata seta anumite restricii – unele intrari de catalog sa nu apara la cautarea efectuata de alte biblioteci.
AMICUS foloseste un sistem de baze de date relationale ORACLE. Acestea pot fi interogate folosind protocolul SQL sau Z39.50. Folosind protocolul Z39.50 si extensiile acestuia SRU/SRW se poate interoga sistemul AMICUS folosind servicii WEB sau prin alte aplicatii externe.

Z39.50 este un protocol client server folosint pentru cautarea si obtinerea informatiei din baze de date aflate pe calculatoare la distanta. Este acoperit de standardele ANSI Z39.50 si de standardul ISO 23950. Standardele sunt intretinute de Biblioteca Congresului Statelor Unite.
Z39.50 este in special folosit in biblioteci si este adesea incorporat in sisteme integrate pentru biblioteci si in sisteme de mentinere a cataloagelor. Sistemele interbiblioteci de cautare si imprumutare a cartilor sunt implementate folosind interogari Z39.50.
Sintaxa limbajului Z39.50 este abstracta relativa la structura bazei de date. Acest lucru permite ca interogarile Z39.50 sa fie formulate fara sa se stie ceva despre structura bazei de date, dar resultatele unei interogari pot varia intre diferite servere. Acest nejuns este remediat printr-o solutie numita „Bath Profile”. Prin acesta se specifica sintaxa folosita pentru cautari bibliografice si forma raspunsurilor oferita de serverele Bath- compliante.
Z39.50 este o tehnologie premergatoare WEB-ului. S-au facut eforturi pentru modernizarea protocolului, pentru a merge peste HTTP si integrarea cu servicii web. In acest sens au fost dezvoltatea protocoalele SRU/SRW.
In cadrul Biblioteci Nationale a Ungariei, sitemul AMICUS foloseste ca interfete utilizator sistemele OPAC/Librivision, prin care se poate interoga baza de date.

Interfata pentru interogarea bazei de date AMICUS – se alege care biblioteca sa fie interogata

Bazele de date care pot fi interogate prin AMICUS

Interfata folosita pentru interogarea bazelor de date

Servicii oferite utilizatorilor

Libinfo este un sistem oferit utilizatorilor de Biblioteca Nationala a Ungariei prin care acestia pot adresa diverse intrebari bibliotecarilor, legate de diversii domenii unde bibliotecari ii pot ajuta sa regaseasca informatii. Sistemul functioneaza din 1999 timp in care au fost adresate aproximativ 400.000 de intrebari.
Utilizatorii adreseaza intrebarile prin intermediul unui formular web, unde sunt obligati sa complecteze datele personale – nume, telefon, profesie, varsta, adresa de email si sa aleaga limba in care este pusa intrebarea (maghiara, engleza, germana, franceza, spaniola). De asemenea se mentioneaza in ce tip de resurse vrea sa regaseasca informatia: carti, ziare, internet, istorie.

Forma prin care utilizatorii pun intrebarile

Odata pusa, intrebarea ajunge la personalul dedicat din Biblioteca Nationala a Ungariei. Acestia pot raspunde sau o pot reasigna catre alte persoane din biblioteci partenere care ofera ajutor in acest serviciu. Cei care primesc intrebarea prin reasignare, nu o mai pot asigna mai departe.
Exista si conceptul de raspuns partial la o intrebare. Astfel un raspuns partial poate fi completat de un alt bibliotecar.
Personalul bibliotecilor prin raspunsurile pe care le dau incearca sa ii si invete pe utilizatori cum pot ca data viitoare sa gaseasca raspuns la propriile intrebari, astfel pe langa raspunsul explicit se prezinta si modul cum informatia a fost gasita. In general raspunsurile vin in 2 zile lucratoare de la punerea intrebarii. Toate intrebarile puse se gasesc intr-o arhiva astfel cand o noua intrebare este pusa, personalul se poate uita daca o intrebare similara a mai fost pusa si astfel sa i-a raspunsul de acolo.
In portalul Libinfo exista si o sectiune de link-uri catre alte pagini si surse de informatii unde utilizatorii pot gasi singuri informatiile pe care le cauta. Aici se afla aproximativ 400 de link-uri.
Pe viitor se doreste sa se implementeze un chat pentru intrebarile care pot fi raspunse intr-un timp foarte scurt. Pentru acest serviciu de chat Biblioteca Nationala a Ungariei va aloca 2 sau 3 persoane.

Un alt serviciu - eod (detalii pe situl biblioteci inationale) eBooks
se scaneaza documentele pe care le vor utilizatorii contra unei plati
utilizatori pot decide: poze sau text
sunt putini utilizatori care vor sa cumpere

MATARKA – documente scanate pentru utilizatori
Contine un catalog de articole din 1990
Utiliz pot alege ce versiune sa fie scanata
Utiliz trebuie sa completeze un formular, apoi primesc documentele scanate pe CD, email
Serviciu este de 1 an

Sistemul de catalog online a biblioteci nationale
-    contine 15 baze de date avand o singura interfata
-    se pot face cautari in toate sau fiecare in parte
-    se pot face cautari dupa mai multe criterii, sau combinat
-    este o baza de articole
-    baza cu articole separate de publicati, magazine contine literatura, documente vechi
-    cautarea se face doar intern, in biblioteca

MOKKA serviciu de cataloage
Digitalizarea nu este completa se cauta in mai multe cataloage, pentru carti vechi
Se face cautarea in mai multe cataloage
Sistemul nu este complet
Utilizatori pot acesa bazele de date numai din biblioteca

Hungarian Electronic Library – Proiect dezvoltat la Biblioteca nationala Anexa 1
www.mek.oszk.hu

www.corvina.oszk.hu

-    face parte din digitalizarea
-    manunscrise vechi , doar poza
-    si alte detalii despre manuscrise rare
-    s-au creat mai multe homepages, pentru a oferi mai multe servicii

“Magyar internet archivum” – un nou proiect de arhivare

Au fost implementate “song books” , existand un system pentru a inregistra astfel de carti si pentru a fi transformate in format mp3

Portalul The European Library portal – colecteaza cataloage de la toate bibliotecile nationale
www.theeuropeanlibrary.org

www.digitallibrary.eu
EDLnet

Tags: