Stofnun Árna Magnússonar í íslenskum fræðum vinnur nú að því, sem hluta af nýbyrjuðu máltækniverkefni stjórnvalda, að bæta textum í safn sitt sem gengur undir heitinu Risamálheild. Þetta er safn fjölbreyttra texta úr ýmsum áttum, nú alls 1,5 milljarðar orða. Stærsti hlutinn er efni úr prentuðum blöðum, tímaritum og vefmiðlum en einnig eru þarna dómar, lagasafnið, Alþingisræður, efni af Vísindavefnum og Wikipediu, og ýmislegt fleira.
Þessir textar eru nýttir á tvo vegu. Annars vegar eru þeir aðgengilegir til leitar í Risamálheildinni http://(https://malheildir.arnastofnun.is) gegnum leitarviðmótið KORP. Þannig nýtast þeir almenningi og fjölmiðlafólki en ekki síst fræðimönnum á ýmsum sviðum – málfræðingum, sagnfræðingum, bókmenntafræðingum, stjórnmálafræðingum, félagsfræðingum o.s.frv. Óhætt er að segja að þessi aðgangur að textunum gerbreyti aðstöðu til ýmiss konar rannsókna í hug- og félagsvísindum, hliðstætt því sem vefurinn http://tímarit.is hefur þegar gert.
Hins vegar eru textarnir nýttir í máltækni, einkum áðurnefndu máltækniverkefni stjórnvalda. Úr þeim má vinna mállíkön – margvíslegar tölfræðilegar upplýsingar um tíðni og notkun orða, orðasambanda og setningagerða o.m.fl. Þessi tölfræðigögn og mállíkön eru undirstaða hvers kyns máltæknibúnaðar – vélrænna þýðinga, talgervla, talgreina, leiðréttingarforrita o.fl. Textarnir eru vistaðir hjá CLARIN-miðstöðinni á Árnastofnun (https://clarin.is) og þangað er hægt að sækja þá til nota í máltækniverkefnum.
Tvennt skiptir meginmáli fyrir nýtingu og gagnsemi textanna: Magn og fjölbreytni. Þótt 1,5 milljarðar orða sé vissulega mikið magn er samt nauðsynlegt að bæta þar verulega við. Fjölbreytnin skiptir þó ekki síður máli. Inn í safnið vantar að mestu leyti útgefnar bækur, bæði skáldverk og fræðibækur. Einnig vantar hvers kyns kennsluefni. Með hverri textategund bætist við ákveðinn orðaforði og setningagerðir, og það myndi því auka notagildi safnsins verulega að bæta slíku efni við.
Áður en textum er komið fyrir í safninu eru þeir meðhöndlaðir á sérstakan hátt. Það sem hér skiptir máli að þeir eru brotnir upp í smáar einingar, yfirleitt um 500 orð. Þessum einingum er síðan raðað saman á tilviljanakenndan hátt áður en textarnir eru gerðir aðgengilegir. Þegar um er að ræða mjög stutta texta eða texta sem í eðli sínu skiptast í litlar einingar, s.s. ljóðabækur, eru þeir brotnir smærra, jafnvel í málsgreinar. Þetta táknar að nær ógerlegt er að „endurgera“ heilan texta upp úr safninu.
Grundvallaratriði af hálfu Árnastofnunar er að söfnun, frágangur og meðferð textanna sé í góðu samráði við rétthafa og með samþykki þeirra. Sú meðhöndlun textanna sem lýst er hér að framan tryggir að ekki er hægt að misnota þá, t.d. með því að dreifa þeim í heilu lagi á netinu eða í prentuðu formi, eða með einhverju öðru móti. Það er því ekki verið að skerða hagsmuni höfunda eða útgefenda á nokkurn hátt með þessari söfnun og nýtingu textanna.
Við höfum sent stjórn Hagþenkis bréf með tilteknum um liðsinni hennar við þetta mál. Stjórnin hefur lagt blessun sína yfir að við leitum til félagsmanna Hagþenkis með ósk um að fá að nýta texta þeirra á framangreindan hátt. Jafnframt hefur stjórnin fallist á að unnið verði út frá ætluðu samþykki höfunda við þessa notkun texta þeirra.
Samkvæmt þessu óskum við eftir samþykki þínu við því að útgefnir textar þínir verði nýttir í Risamálheildinni og máltækniverkefnum með þeim skilmálum og frágangi sem að framan greinir. Jafnframt óskum við þess að þú heimilir að textanna verði aflað hjá útgefendum eða prentsmiðjum þar sem þess er kostur.
Fallist þú á þessa beiðni þarftu ekkert að gera. Viljir þú ekki að texta þinna verði aflað og þeir nýttir á þennan hátt biðjum við þig að láta okkur vita fyrir 1. febrúar nk., með tölvupósti á netfangið http://hih@hi.is eða í síma 661-2780. Þér verður þá send í tölvupósti staðfesting á móttöku, og yfirlýsing um að ekki verði reynt að afla textanna eða nýta þá.
Ef tilkynning frá þér berst ekki fyrir tiltekinn tíma lítum við svo á að þú heimilir Árnastofnun og CLARIN-IS að afla textanna og nýta þá í samræmi við framangreint. Þú getur þó hvenær sem er afturkallað samþykki þitt og verða textar þínir þá fjarlægðir úr Risamálheildinni og eintökum okkar af þeim eytt.
Við leggjum áherslu á að það er í þágu íslenskrar tungu að fá sem flesta og fjölbreyttasta texta í safnið. En jafnframt er það í þágu íslenskra rithöfunda og allra sem skrifa á íslensku vegna þess að textarnir nýtast m.a. til að útbúa margvísleg hjálpargögn við ritun texta – leiðréttingaforrit, orðabækur af ýmsu tagi, þýðingaforrit o.fl.
Við erum að sjálfsögðu reiðubúin að svara öllum spurningum sem kunna að vakna í sambandi við meðferð, frágang og nýtingu textanna.
F.h. Stofnunar Árna Magnússonar í íslenskum fræðum F.h. CLARIN-IS
Hildur Hafsteinsdóttir Eiríkur Rögnvaldsson
starfsmaður máltækniverkefnis hjá Árnastofnun stjórnandi CLARIN-miðstöðvar
http://hih@hi.is http://eirikur@hi.is