28 Linkkimätä + sisältönyrjähdys = viitemätä Merja Kallio Suurin osa netin käyttäjistä on linkkiä seuratessaan saanutkin toivomansa sisällön sijaan virheilmoituksen, useimmiten 404 - sivua ei löydy. Tieteen todistettavuus ja toistettavuus kärsii, jos lähteenä käytettyjä lähteitä ei löydy. Osallistuin avoimen julkaisemisen koulutustilai- suuteen Avoimen julkaisemisen parhaat käytänteet -koulutus tiedelehtien tekijöille 30.–31.1.2017, jossa Kansalliskirjaston erityisasiantuntija Juha Hakalan vetämä työpaja e-viittaamisen käytän- nöistä eri tieteenaloilla1 jäi erityisesti mieleeni. Myöhemmin etsin aiheesta lisätietoa, jota ei kui- tenkaan juurikaan löytynyt suomeksi. Käytän tässä artikkelissa Juha Hakalan käyttä- miä termejä linkkimätä (link rot) ja sisältönyrjäh- dys (content drift) ja samalla kiitän häntä inspi- raatiosta lisätiedon hakemiseen. 404 - sivua ei löydy Linkkimätää tai linkkiruttoa on varmasti ollut yhtä pitkään kuin hyperlinkkejä on käytetty, ja sitä on tutkittukin pitkään. Linkkimädän syinä ovat esimerkiksi sivustojen uudistukset, organi- saatio- ja nimimuutokset tai verkko-osoitteiden muutokset. Joissain tapauksissa verkkosivuja ei vain enää ylläpidetä. Sosiaalisen median käyttäjä saattaa poistaa tuottamansa sisällön tai muuttaa sen yksityisyysasetuksia. Verkkosivun keskimääräinen elinikä on vain 44–100 päivää2. Tieteellisten artikkeleiden suh- teen ongelma tunnistettiin suhteellisen aikaisin ja ratkaisuksi kehitettiin pysyvät tunnisteet, ku- ten DOI, URN ja handle.3 Ongelma onkin laajemmassa verkosta löyty- vässä aineistossa. Paineet paperittomaan julkaise- miseen kasvavat ja esimerkiksi ministeriöiden ja asiantuntijalaitosten raportit siirtyvät vain elekt- roniseen muotoon. Tutkimushankkeiden blogit herättävät keskustelua kommenteissa. Samalla kun elämämme siirtyy verkkoon, siir- tyy myös tutkimusaineisto ja tutkimuksen läh- deaineisto. Viittausten määrä muuhun verkko- aineistoon kuin tieteellisiin artikkeleihin, URI references, kasvaa koko ajan.2,4 Koska tieteellisil- lä artikkeleilla on usein pysyvä tunniste ja niihin suositellaan viitattavaksi hyperlinkin muodossa, käytän tässä muista verkkoaineistoviittauksista sanaa URI-viitteet*. Linkkimädän toteaa myös tavallinen käyttä- jä helposti. Sen tutkiminen voidaan automati- soida, kuten esimerkiksi Hiberlink -projektissa4 , jossa tutkittiin artikkeleita vuosilta 1997–2012, tai Massicotten ja Botterin tutkimuksessa väitös- kirjojen URI-viittauksista5. Massicotte ja Botter tutkivat kanadalaisen Concordian yliopiston väi- töskirjoja ajalta 2011–2015. Tutkimuksen mu- kaan 23 % URI-viittauksista kärsii linkkimädäs- tä. Automaattisessa seulonnassa toimivina URI- viittauksina kuitenkin näyttäytyvät esimerkiksi myynnissä olevat verkko-osoitteet tai räätälöidyt 404-virheilmoitussivut. Eihän tämä olekaan se sama Sisältönyrjähdys eli content drift on sivuston käyt- täjälle vaikeammin havaittava ongelma kuin link- kimätä. URI-viittaus näyttää toimivan ja se saat- taa viedä sivustolle, jonka sisältöä käyttäjä odotti löytävänsä. Kuitenkin vain viittauksen kirjoitta- ja voi tietää täysin, millaista sivustoa hän on kir- 29 joittamishetkellä katsonut. Sisältönyrjähdys on tavallisinta usein päivitty- villä sivustoilla, kuten uutissivustot. Mikäli sivu on muuttunut viimeisen viikon aikana, voidaan olettaa sen muuttuvan yhtä paljon seuraavan vii- kon aikana4. Jopa 65 % sivustoista muuttuu melko usein, 123 tunnin välein. Muutoksia on enemmän ja useammin suosituilla sivustoilla4 ja pitkissä do- kumenteissa6. Jones SM ym.6 vertasivat Hiberlink -projek- tin aineiston URI-viitteitä verkkoarkistoista löy- tyviin versioihin julkaisuajankohdalta ja tote- sivat, että 184.065 URI-viitteen sisältö kaikki- aan 241.091 viitteestä oli muuttunut julkaisu- ja tutkimusajankohtien välillä. Toisin sanoen URI- viitteistä ainoastaan 23,65 % oli pysynyt sisällöl- tään samana. Massicotten ja Botterin5 tutkimuksen tulos oli samansuuntainen. Väitöskirjoissa linkkimädältä välttyneistä URI-viittauksista 11 % sisältö oli ka- donnut täysin, 9 % ohjasi sivustolle, jonka sisäl- tö oli muuttunut niin paljon, ettei viittausta voi- nut enää tutkia, ja 7 % URI-viittauksista ohja- si dynaamisille, jatkuvasti muuttuville sivustoil- le. Reilu kolmasosa, 36 % sivustoista oli muut- tunut vähän, mutta ulkopuolisen on vaikea tie- tää, onko juuri muutos tapahtunut juuri viitta- uksen kohteena olleessa sisällössä. Viitemätä Linkkimädän ja sisältönyrjähdyksen yhteisvaiku- Kuvio 1. Linkkimätä ja sisältönyrjähdys Concordian yliopiston väitöskirjoissa tus on reference rot, kutsutaan sitä tässä yhtenäi- sen linjan säilyttämiseksi viitemädäksi*. Termiä käytettiin ensimmäisenä Hiberlink -projektissa6. Viitemätä aiheuttaa sen, ettei lähteenä käyte- tyn URI-viittauksen nykyinen sisältö vastaa viit- tausajankohdan mennyttä sisältöä. Artikkeli voi olla immuuni, mikäli siinä ei ole lainkaan URI-viittausta; terve, mikäli kaikki ar- tikkelin URI-viittaukset ovat toimivia ja jokai- nen erillinen URI-viittaus on arkistoitu; tai saas- tunut, mikäli jokin URI-viittaus ei toimi tai jo- kaista URI-viittausta ei ole arkistoitu. Saastunei- den artikkeleiden osuus URI-viittauksia sisältä- vistä artikkeleista on jopa 70–80 %.4 Ilman verkkoarkistointia URI-viittauksella on riski kadota jossain vaiheessa. Väitöskirjojen URI-viittauksista tämä riski on noin kolmannek- sella5. Avoimen tieteen periaatteet tutkimuksen tuotosten avoimuudesta ja jatkokäytöstä primää- rilähteistään vaarantuvat7 Viitemätä on ongelma, joka koskee kaikkea tie- teellistä julkaisemista ja jota tulisi aktiivisesti en- naltaehkäistä. Ratkaisuja Viitemätää voidaan torjua lisäämällä tietoisuutta ongelman laajuudesta ja URI-viittausten riskeis- tä sekä ohjaamalla ja tarjoamalla työkaluja tutki- joiden ja kirjastojen käyttöön. Pysyvää tunnistetta, kuten DOI, handle tai URN, tulisi aina käyttää URI-viittauksissa, mi- käli sellainen on saatavilla. Pysyvää tunnistetta 30 käyttävä julkaisija on sitoutunut säilyttämään ai- neiston saatavilla verkkotunnuksista tai sivuston rakenteen muutoksista huolimatta. Oman ko- kemukseni mukaan tutkijoiden tiedot pysyvis- tä tunnisteista ovat rajallisia tietokannoissa käy- tössä olevia DOI-tunnisteita lukuun ottamat- ta, eikä niiden hyötyjä täysin tunnisteta lähtei- siin viitatessa. Mikäli pysyvää tunnistetta ei ole, suositellaan verkkoarkistojen käyttöä. Verkkoarkistoihin tal- lennetaan yleensä kuvakaappaus (snapshot) sivus- ta, joten sivulta eteenpäin vievät linkit eivät toi- mi. Verkkoarkistoista voi etsiä viittausajankoh- dalle vastaavaa versiota. Tällaisesta verkkoarkis- tosta yksi esimerkki on Internet Archive Wayback Machine https://archive.org/web/. Passiivisessa haussa valmiiksi tallennetuista ar- kistoista on kuitenkin muutama ongelma: verk- koarkostosta ei välttämättä löydy juuri oikeata versiota viitatusta verkkosivusta tai verkkoarkis- to ei enää ole käytössä. Verkkoarkistosta etsimistä parempi vaihtoehto on oma aktiivisuus viittaushetkellä. URI-viitteen voi tallentaa itse viittaushetkellä ja varmistaa, et- tä lukijan saatavilla on myöhemminkin sivustos- ta täysin sama versio. Tätä artikkelia kirjoittaes- sani testasin lähteissäni suositeltua WebCitation- sivustoa, joka näytti tallentavan URI-viitteeni ja viiveen jälkeen sain sähköpostin, jossa oli linkki arkistoon. Valitettavasti linkkiä seuratessani sain vastaan virheilmoituksen, joka ei muuttunut si- vua päivittämällä, selaimen vaihdolla tai linkkiä myöhemmin seuraamalla. Suositeltavin vaihtoehto olisi hyödyntää Zotero -viitteidenhallintaohjelmaa ja tallentaa URI-viit- teestä verkkoarkistoon kuvakaappaus (snapshot) heti viittauksen tehdessään. Käyttöä voi helpot- taa Zoteron selaimen laajennuksella4, joka on saa- tavilla Chromelle8 ja Firefoxille. Testatessani Zo- teroa se tuntui toimivan paremmin Firefoxilla, mutta käyttökokemus saattaa johtua myös siitä, että Firefoxin käyttö on minulle luontevampaa. Zotero ei käyttöliittymältään kuitenkaan ole helpoiten lähestyttävissä oleva viitteidenhallinta- ohjelma. Muita ohjelmia käytettäessä URI-viit- teen voi tallentaa esimerkiksi archive.is -sivustol- le osoitteessa http://archive.is/. Tutkimushanke tai väitöskirjan kirjoituspro- sessi saattaa viedä vuosia. Huomio URI-viittauk- siin tulisikin kiinnittää heti projektin alusta läh- tien. Verkkoarkistointi ja oikean URI-viittaus- tapa kannattaa ottaa käyttöön heti aineistonke- ruun kanssa. Muuten toimittajalla tai kustanta- jalla saattaa olla jo ennen julkaisuprosessia käsis- sään aineistoa, jonka URI-viittaukset kärsivät vii- temädästä. Jos URI-viittaukset jätetään julkaisu- ajankohdan jälkeen kirjaston tai arkiston harteil- le, saattaa osa URI-viittauksista olla jo siinä vai- heessa menetetty. *) En löytänyt sanalle suomenkielistä vastinetta. Lähteet 1. Hakala, Juha (2017). E-viittaamisen uudet käytän- nöt (2017). Noudettu 7. huhtikuuta 2017, osoitteesta http://urn.fi/URN:NBN:fi-fe201702061462 2. Habibzadeh, P. (2013). Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals. Applied Clinical Informatics, Vol. 4: Is- sue 4 2013. Noudettu 7. huhtikuuta 2017, osoitteesta https://doi.org/10.4338/ACI-2013-07-RA-0055 3. Hans-Werner Hilse and Jochen Kothe (2006). Imple- menting Persistent Identifiers: Overview of concepts, guidelines and recommendations. London / Amsterdam: Consorti- um of European Libraries and European Commission on Preservation and Access, 2006. ISBN 90-6984-508- 3. Noudettu 7. huhtikuuta 2017, osoitteesta http://nbn- resolving.de/urn:nbn:de:gbv:7-isbn-90-6984-508-3-8 4. Klein, M. (2014). Scholarly Context Not Found: One in Five Articles Suffers from Reference Rot. (Research Article). Kuvio 2. WebCite-palvelun virheilmoitus 31 PLoS ONE, 9(12). Noudettu 7. huhtikuuta 2017, osoit- teesta http://dx.doi.org/10.1371/journal.pone.0115253 5. Massicotte, Mia and Botter, Kathleen (2017). Ref- erence Rot in the Repository: A Case Study of Electronic The- ses and Dissertations (ETDs) in an Academic Library. Infor- mation Technology and Libraries, Vol 36, No 1. Nou- dettu 7. huhtikuuta 2017, osoitteesta http://dx.doi. org/10.6017/ital.v36i1.9598 6. Jones SM, Van de Sompel H, Shankar H, Klein M, Tobin R, et al. (2016). Scholarly Context Adrift: Three out of Four URI References Lead to Changed Content. PLOS ONE 11(12): e0167475. Noudettu 7. huhtikuuta 2017, osoit- teesta http://dx.doi.org/10.1371/journal.pone.0167475 7. Avointiede - Tutkimuksen toistettavuus (2015). Nou- dettu 11. huhtikuuta 2017, osoitteesta http://avointie- de.fi/tutkimus-pas 8. Zotero Blog » Blog Archive » A Better “Save to Zo- tero” Button in Chrome (2016). Noudettu 11. huhti- kuuta 2017, osoitteesta https://www.zotero.org/blog/a- better-save-to-zotero-button-in-chrome/ https://www.zotero.org/groups/lahdemata/items/ Tietoa kirjoittajasta: Merja Kallio Vaasan yliopiston ja Vaasan ammattikorkea koulun julkaisusihteeri, Tritonia. merja.kallio@tritonia.fi