Nr 29

Laadi alla

Jaga

Prindi

Eesti veebiarhiiv rahvusliku kultuuripärandi säilitajana

  • Jaanus Kõuts

    Jaanus Kõuts

    Eesti Rahvusraamatukogu veebiarhiveerimise juhtiv spetsialist

Kultuuripärand ei ole terviklik, kui jätame veebis avaldatu arhiveerimata.

See, kellele on vähe antud,
kannab seda oma südame kohal.
See, kellele on palju antud,
pillab kõik käest maha.

(Karl Ristikivi)

 

Kultuuripärandit antakse edasi põlvest põlve, iga põlvkond lisab sellesse midagi omalt poolt. Eesti elanikele on veebi kasutamine loomulik ja iseenesestmõistetav, üksnes võrguühenduse katkestus laseb meil põgusalt mõista, et veebita oleme kohati sama abitud kui kalad kuival – peamiselt veebi kaudu pakutavate teenuste nagu e-posti, e-panganduse ja kaugtöö võimaluse tõttu, mille puudumine tavapärast toimetamist segab. Tähtis koht on ka veebi inforuumil, sest suur osa teabest jõuab meieni uudisteportaalide, uudisvoogude, blogide, suhtlusvõrgustike jms vahendusel.

Lihtsaks muutunud avaldamisvõimaluste tõttu on paljudest infotarbijatest saanud ka info loojad – veebi kaudu jagatav teave hõlmab peaaegu kõiki elualasid ja ühiskonnanähtusi. Keskealised ja vanemad ehk mäletavad veel eelmise sajandi lõpust hüüdlauset: „Kui sind ei ole internetis, siis sind ei ole olemas!” Praegu ongi igal aktiivses elus kaasa lüüa soovival seltsil, ühendusel, ettevõttel ja eraisikul oma veebisait või suhtlusvõrgustiku avalik konto. Enamik selle kaudu avaldatud tekste, pilte, helisalvestisi ja videoid eksisteerib digitaalsena ning vaid väike osa sellest teabest on leidnud tee trükipressi alla või mõne meediakanali eetrisse ja leiab korraldatud viisil säilitamist. Ükski veebisait ei ole igavene, vaid kaob varem või hiljem, seega tuleb midagi ette võtta, et saidi kaudu avaldatud info säiliks. Jättes arhiveerimata veebis avaldatu, ei ole kultuuripärand terviklik. Võime ette kujutada eesti kultuuri või ühiskonna uurijat aastal 2114, kes leiab 21. sajandi algusest säilinud trükistest, tele- ja raadiosaadetest ohtralt viiteid mitmesugustele veebis avaldatud materjalidele, kuid tal puudub võimalus neid kasutada, sest neid ei arhiveeritud ega säilitatud.

Veebi kasutatakse arenenud riikides 1993. aastast alates. Kohe ilmnesid ka uue meediumi puudused: avaldatud materjali on lihtne muuta, ilma et varasemast sisust jääks jälgegi, ning mis veel hullem – veebisaidi kadumise korral pole selle sisu võimalik taastada. Kui midagi juhtub raamatuga, on sama teost võimalik kasvõi antikvariaadist või bibliofiilidelt hankida, veebisait sarnaneb pigem ainueksemplariga. Me ei saa leppida olukorraga, kus iga päev kaob hulk teavet, millest osal võib olla kellegi jaoks suur väärtus.

Selle probleemi parimaks lahenduseks peetakse praegu veebisaitide arhiveerimist.

Veebiarhiveerimise tehnoloogia

Veebisaidi arhiveerimise käigus laeb arhiveerimisrobot etteantud aadressilt alla veebilehe koos kõigi kuvamiseks vajalike elementidega (pildid, skriptid, stiilifailid, flash-failid jms) ning otsib neist linke, mille abil järgmisi lehti leida ja alla laadida. Robot järgib seda tööd tehes seadistuses etteantud piire. Samasugust tehnoloogiat kasutavad otsimootorid (nt Google ja Neti.ee) veebisaitide kogumisel otsiindeksi loomiseks. Kogutud materjal salvestatakse veebiarhiivi failivormingusse, millest kuvamistarkvara oskab anda kasutaja brauseri ekraanile kõik vajalikud elemendid, et näidata veebisaiti nii, nagu see arhiveerimise ajal veebis paistis. Veebitehnoloogiad lähevad aina keerulisemaks, kiiresti tuleb kasutusele üha uusi tehnilisi võimalusi. Seega on arhiveerimistarkvara arendajail raske ajaga sammu pidada ning kõiki veebisaite ei ole võimalik alati täielikult arhiveerida. Probleemsed on veebisaidid, mis kasutavad rohkesti skripte, suunamisi ja voogmeediat (streaming). Arhiveerimata jäävad veebisaidid või nende osad, mis nõuavad kasutajapoolset autentimist, interaktiivsust või päringut otsinguaknas (deep web).

Rahvusvaheline koostöö ja seadusandlik raamistik

Enamik veebiarhiveerimisega tegelevaid organisatsioone on ühiste ülesannete lahendamiseks liitunud 2003. aastal asutatud konsortsiumiga International Internet Preservation Consortium (IIPC). Sellesse kuulub 2014. aasta märtsi seisuga 48 organisatsiooni peaaegu kolmekümnest riigist. Eesti Rahvusraamatukogu on konsortsiumi liige 2012. aastast.

Konsortsium arendab koostöös Internet Archive’iga vabavaralist tarkvara võrguväljaannete arhiveerimiseks (Heritrix) ja kättesaadavaks tegemiseks (The Wayback Machine), mõlemad on kasutusel ka Eesti Rahvusraamatukogus. Töötatakse välja veebiarhiveerimise standardeid, millest veebiarhiivi failiformaadi standard WARC on kinnitatud ka ISO standardina ja leidnud kasutust ka väljaspool veebiarhiive.

Eesti on paljude teiste riikidega võrreldes kadestamisväärses olukorras, sest sundeksemplari seadus lubab Eesti Rahvusraamatukogul arhiveerida Eesti võrguväljaandeid sundeksemplarina ning teha need veebi kaudu avalikult kättesaadavaks. Väljaande omanikul on seejuures õigus piirata juurdepääsu oma väljaandele avalikus arhiivis. Samasugused arhiveerimissõbralikud õigusaktid on vähestel riikidel, nende hulka kuuluvad Island, Horvaatia, Sloveenia ja Portugal. Avalik huvi on neis üles kaalunud erahuvid. Eesti Rahvusraamatukogu kavandab teavituskampaaniat eesmärgiga anda kõigile väljaannete omanikele teada nende väljaannete arhiveerimisest ning nende õigusest piirata avalikku juurdepääsu arhiveeritud versioonile. Lisaks sellele on vaja hankida teavet väljaannete kohta, mille suhtes on rakendunud kohtumäärus või Andmekaitse Inspektsiooni ettekirjutus, et sulgeda neile juurdepääs avalikus arhiivis.

Täpsemalt tuleks reguleerida veebiarhiivi materjali kasutamist teadustegevuses, kus vajatakse üksiku veebisaidi vaatamise võimaluse asemel pigem suurt hulka veebist kogutud andmeid, et andmekaeve meetodeid kasutades uue teadmiseni jõuda. Samuti on kerkinud küsimus teatud veebisisu (nt avaliku sektori veebide) avaandmetena kättesaadavaks tegemise võimalikkusest. Nende ja teiste õiguslike küsimustega tegelemine vajab eri valdkondade spetsialistide head koostööd.

Eesti Rahvusraamatukogu pikk tee veebiarhiivini

Võrguväljaannete arhiveerimise teemaga on Eesti Rahvusraamatukogu tegelnud 1997. aastast, kui alustati võrguväljaannete monitooringut. 2000–2005 kestnud võrguväljaannete arhiveerimise katseprojekti tulemusel loodi testkeskkond eesti rahvuskultuuri seisukohalt oluliste võrguväljaannete kogumiseks, registreerimiseks ja arhiveerimiseks. 2006. aastal alustati pdf-, txt- ja doc-vormingus võrguväljaannete arhiveerimist digitaalarhiivis DIGAR. Palju arhiveeritud monograafiaid, perioodika- ja jätkväljaandeid, noote ning kaarte on praeguseks veebist juba kadunud.

Ettevalmistustöö veebisaitide arhiveerimiseks on kestnud pikka aega. Mitmesugustel põhjustel on ettevalmistuses olnud mitu katkestust, arhiveerimine taaskäivitati 2010. aastal. Eesti veebiarhiiv avati üldsusele kasutamiseks 27. novembril 2013 aadressil http://veebiarhiiv.digar.ee/. 2013. aasta lõpu seisuga oli arhiveeritud 31 miljonit URL-i kogumahuga 1,6 terabaiti ning teemakataloog sisaldas 1083 veebisaidi kirjet. Esimese 35 päeva jooksul tehti veebiarhiivi üle tuhande külastuse, geograafiliselt tuvastatud külastusi oli 38 riigist. 2014. aasta algul oli Eesti Rahvusraamatukogus veebiarhiveerimisele eraldatud 2,5 ametikohta, kuid ülesande mastaapsuse tõttu on seda vähe. Veebitehnoloogiatega tegelemiseks ja tehnilistele uuendustele reageerimiseks oleks tarvis lisajõudu, arendajat, kuid vahendeid palgafondis selleks esialgu ei ole.

Rahvusliku veebi kui kultuuripärandi osa arhiveerivad peamiselt rahvusraamatukogud. Laiapõhjalise koostöö tagamiseks ning teiste mälu- ja teadusasutuste kaasamiseks loodi Eesti Rahvusraamatukogu eestvedamisel 2010. aasta mais veebiarhiveerimise ekspertide töörühm, kuhu praegu kuulub 23 esindajat 11 organisatsioonist. Töörühm loodi kultuuriministeeriumi kooskõlastusel rahvusraamatukogu peadirektori käskkirjaga, töörühma eesmärk on nõustada rahvusraamatukogu arhiveeritava materjali valikul ning kättesaadavaks tegemisel, seista praeguste ja tulevaste uurijate huvide eest ning levitada sihtrühmadele infot veebiarhiivi kohta. Koostöös töörühmaga on loodud teemakategooriad teemakataloogi jaoks ning need toimivas kasutajaliideses ka rakendatud.

Eesti veebiarhiivi valikupõhimõtted

Veebiarhiveerimise ekspertide töörühmas ettevalmistatud „Eesti veebiarhiivi valikupõhimõtted” kinnitati 4. mail 2011. Need käsitlevad veebisaite, mis vääriksid eriti põhjalikku arhiveerimist. Üldised valikupõhimõtted määratlevad kogumis- ja säilitamisväärse veebiteabena Eesti ühiskonna toimimise ja selle uurimise seisukohalt olulise teabe, üleriigilise ja kohaliku poliitika kujunemisega seonduva teabe ning püsiva kultuuriloolise ja teadusväärtusega kohalikku eripära, eriti kultuurinähtusi väljendava teabe. Kitsamad valikupõhimõtted kujutavad endast hindamiskriteeriume nagu väljaande tähtsus, identifitseeritavus, terviklikkus, kasutatavus ja säilitamiseks vajalik ressurss. Samuti veebisaidil sisalduva teabe uurimispotentsiaal, unikaalsus, usaldusväärsus, ajaraam ja seotus mingi olulise sündmuse või teisel kandjal oleva teabega. Valikupõhimõtete alusel arhiveeritakse näiteks kõik riigi- ja valitsusasutuste, kohalike omavalitsuste ning avalik-õiguslike ülikoolide veebisaidid.

Ühiskonnas toimuvaid protsesse mõjutavad nii üleriigiline kui ka kohalik poliitika, seega on muutuste dokumenteerimise seisukohalt oluline arhiveerida valimistega seotud veebisaidid. Eesti veebiarhiivis on talletatud nii 2011. aasta parlamendivalimiste kui ka 2013. aasta kohalike omavalitsuste valimistega seotud veebisaite. Viimaste valimiste erikogusse kuulub kokku 216 veebisaiti, mille hulgas on valimisliitude (100), valimisliitude kandidaatide (11), erakondade ja nende kohalike esinduste (33), erakondade kandidaatide (51), üksikkandidaatide (10), huvirühmade (4) ja muid veebisaite, nagu näiteks Vabariigi Valimiskomisjoni veebisait ja uudisteportaalide valimisveebid (7).

Sihtasutuse Kultuuripealinn Tallinn 2011 abiga arhiveeriti rohkem kui 1200 välismeediakajastust, mis puudutasid kultuuripealinna sündmusi. Koostööd on tehtud välisministeeriumiga, kes vajas materjale tegevuse lõpetanud Euroopa Nõukogu Tallinna Infotalituse suletud kodulehelt, ning Riigikantseleiga Eesti riigitegelaste mälestusveebide ning Eesti Vabariigi 90. sünnipäeva saidi arhiveerimise puhul. Rahvuskaaslaste programmi toetusega arhiveeriti 2012. aastal üle 200 väliseesti teemaga seonduva veebisaidi ning 2014. aastal eraldati toetus 90 väliseesti teemaga seotud võrgupäeviku arhiveerimiseks. Eesti veebiarhiivi meeskond on teiste riikide vastavate üksustega võrreldes väike ega suuda oma jõududega kõiki põhjalikku arhiveerimist väärivaid väljaandeid tuvastada. Seetõttu on koostöö huvirühmadega sisu valimise puhul väga oluline. Tasapisi kujuneb soovitajate võrgustik, saitide arhiveerimiseks soovitamise võimalus on olemas ka veebiarhiivi lehel. Eelseisvas koostöös on olulisi ülesandeid eesti kultuuri- ja ühiskonnategelaste „digitaalse jalajälje” väljaselgitamine ja kogumine.

Eesti rahvusdomeeni arhiveerimine

Veebis on kajastatud peaaegu kõik eluvaldkonnad ning selles peegelduvad Eesti ühiskonna ja kultuuri arengu aspektid. Seega ei ole ainult valikulise arhiveerimisega võimalik uurijaile tulevikus tagada juurdepääsu enamikule praegu veebis leiduvatele potentsiaalsetele uurimisallikatele. Ka ei suuda me hinnata, milline materjal võib tulevikus vajalikuks ja väärtuslikuks osutuda.

Valikuline arhiveerimine on väljaannete valiku, kvaliteedikontrolli ning kirjeldamise juures hädavajaliku inimtööjõu tõttu ressursimahukam kui näiteks kogu rahvusdomeeni (.ee) arhiveerimine, kus peamine kulu on arhiveeritud andmete hoidmine ja pikaajaline säilitamine. Kogu domeeni arhiveerimise puhul ei ole aga võimalik kõikide arhiveeritud veebisaitide täielikkust tagada.

Selle tõttu ongi maailmapraktikas eelistatud arhiveerida suurem hulk veebisaite automaatselt, millele lisaks arhiveeritakse põhjalikult olulised veebisaidid. Seda mudelit on plaanis rakendada ka Eestis, kus rahvusdomeeni maht on sama mudelit kasutava Taani või Prantsusmaaga võrreldes palju väiksem – hinnanguliselt piisab ühekordse arhiveerimise puhul enam-vähem adekvaatse pildi saamiseks ligikaudu 10 terabaidist. Eesti veebisaitide suuremahulise arhiveerimise katsetusi alustati 2013. aastal ning 2014. aastal on kavas arhiveerida enamik Eesti rahvusdomeenil asuvaid veebisaite.

Väljavaated veebiarhiivi materjali kasutamiseks õppe- ja uurimistöös

Sellest hoolimata, et veeb muutub ajapikku ja esimesel aastakümnel on suur osa veebiarhiivi kogutud materjalist tõenäoliselt veebis veel alles, on juba praegu tekkinud vajadus arhiveeritut kasutada. Mujal maailmas kasutavad veebikorpust kui uurimisallikat paljud sotsiaalteadlased, keeleteadlased ja informaatikud. Eesti juurtega uurija Kalev H. Leetaru (Georgetown University, USA) on soovitanud veebiarhiivi materjale kasutada Eesti ülikoolides suurandmetega tehtavates andmekaeve praktikumides. Üks ülikool on juba tundnud huvi veebiarhiivi andmete kasutamise vastu pilvetehnoloogiat käsitleval kursusel.

Tänapäeval kõneldakse Eesti Vabariigist uhkusega kui e-riigist, võrguühiskonnast, kus suur osa olulisest teabest ei ole mitte paberil, vaid veebis. Just selleks, et meie aja kultuuripärand oleks terviklik, väärib veebis avaldatud teave arhiveerimist. Tulevased uurijad vajavad praegusi allikaid. Meie ülesanne on veebis avaldatut mitte käest pillata, vaid kultuurijätkajatele veebiarhiivi abil edasi anda.

Kasutatud allikad

Tagasiside