Takaisin DigPubin kotisivulle 4 RAKENTEISTEN DOKUMENTTIEN KÄSITTELY

Seuraava Edellinen Alkuun
Seuraava Edellinen Alkuun


  • 4 RAKENTEISTEN DOKUMENTTIEN KÄSITTELY

  • 4.1 Mitä rakenteinen teksti on?
  • 4.2 Formaalit kieliopit rakenteisen tekstin kannalta
  • 4.3 SGML - Standard Generalized Markup Language
  • 4.3.1 Dokumenttien rakenteen määrittely ja esittäminen SGML:n avulla
  • 4.3.2 SGML:n hyödyntäminen
  • 4.3.3 HTML - HyperText Markup Language
  • 4.3.4 SGML:n ja HTML:n vertailua
  • 4.4 Rakenteisten SGML-dokumenttien tuottaminen
  • 4.4.1 Dokumentin rakennemäärittelyn valinta
  • 4.4.2 Dokumentin kirjoittaminen ja jäsentäminen
  • 4.4.3 Dokumentin muuntaminen
  • 4.5 Jyväskylän yliopiston julkaisujen käsittelymalli
  • 4.5.1 Tekstin valmistelu ja tallentaminen ASCII-muotoon
  • 4.5.2 SGML-merkkaus ja jäsentäminen
  • 4.5.3 Muunnokset LaTeX- ja HTML-muotoon
  • 4.5.4 Käsittelymalli PC- ja UNIX-ympäristössä
  • 4.6 Yhteenveto


    4 RAKENTEISTEN DOKUMENTTIEN KÄSITTELY

    Organisaatioissa tuotettavat dokumentit tallennetaan ja käsitellään nykyisin lähes poikkeuksetta elektronisessa muodossa. Dokumenttien tuottamiseen on tarjolla lukuisia erilaisia ohjelmia ja tietoverkkoyhteyksien laajentuessa dokumenttien siirtäminenkin on mahdollista elektronisessa muodossa. Tällainen erilaisten ohjelmistojen, dokumenttien varastoinnin ja siirron monimuotoisuus on tuonut ongelmia dokumenttien yhteensopivuuteen ja käytettävyyteen. Jotta tuotetun tiedon hyödyntäminen ja hallinta toimisi moitteetta organisaation sisällä ja sen ulkopuolella, on tullut tarve käsitellä tietoa yhä vähemmän laiteriippuvassa muodossa. Tämä on mahdollista rakenteisten tekstien avulla, joissa tekstin rakenne noudattaa tarkkoja muodollisia sääntöjä. Näiden yhtenäisten sääntöjen avulla voidaan tunnistaa tekstin rakenne ja jatkaa sen käsittelyä tarvittavaan muotoon (esimerkiksi tulostaa paperille).

    Tässä luvussa kerrotaan ensin yleistä rakenteisten dokumenttien käsittelystä ja formaaleista kieliopeista rakenteisen tekstin kannalta, sitten rakenteisten tekstien käsittelyyn kehitetyn merkkauskielen SGML:n käytöstä, sen hyödyistä ja puutteista sekä mainitaan joitakin sitä hyödyntäviä organisaatioita. Seuraavaksi kerrotaan, kuinka rakenteisia SGML-dokumentteja työstetään ja millaisia ohjelmistoja tarvitaan suunnittelu-, kirjoitus- ja muunnosvaiheissa. Lopuksi esitetään rakenteisiin dokumentteihin perustuva ehdotus Jyväskylän yliopiston julkaisujen käsittelymalliksi.

    4.1 Mitä rakenteinen teksti on?

    Tiedon etsiminen ja hankkiminen elektronisista julkaisuista olisi mahdollisimman joustavaa, jos julkaisumateriaali olisi tallennettu rakenteiseen ja standardoituun muotoon. Yhtenäisen käytännön edellytyksenä on, että kaikkiin muodollisiin yliopistojulkaisuihin määriteltäisiin yhtenäinen, standardoitu ja jopa kansainvälinen rakenne. Tämän lisäksi julkaisujen kirjoittajien tulisi hallita rakenteellisen tekstin tuottaminen ja toisaalta lukijoiden nopeimpien hakutapojen ja saantipolkujen käyttäminen. (Atkinson, 1993)

    Kun puhutaan elektronisesta tekstistä rakenteisena tekstinä tai dokumenttina, korostetaan sitä, että tekstin rakenne noudattaa tarkkoja muodollisia sääntöjä. Tekstinkäsittely-ympäristössä oleva ohjelma tunnistaa rakenteen ja pystyy käyttämään sitä hyödykseen. Usein rakenteinen teksti ymmärretään tekstiksi, jonka looginen rakenne voidaan määritellä erikseen tiettyä sovellusaluetta varten ja tekstiin liittyy yleensä erillinen, eksplisiittinen rakenteen kuvaus. (Salminen, 1992)

    Jos esimerkiksi kirjeen rakenneosat (vastaanottaja, lähettäjä, päiväys jne.) esitetään eksplisiittisesti siten, että tietokoneohjelmat pystyvät ne tunnistamaan ja käsittelemään riippumatta kirjeen ulkoasusta, voidaan sanoa, että kirje on rakenteinen dokumentti. Yleensä rakenteisiin dokumentteihin liitetään myös kuvaus, josta ilmenee, mitkä rakenneosat ovat sallittuja ja missä järjestyksessä ne voivat olla. Dokumentin rakenteen kuvaus antaa mahdollisuuden tietokonekäsittelyyn. Jos tiedetään millaista rakennetta dokumentin tulee noudattaa, voidaan ohjelmallisesti tarkastaa dokumentin rakenteen oikeellisuus. (Kuikka & Nikunen, 1994)

    4.2 Formaalit kieliopit rakenteisen tekstin kannalta

    Monissa tieteellisissä oppiaineissa on huomattu formaalien kielioppien (Salomaa, 1973) tarpeellisuus määriteltäessä tiettyyn tarkoitukseen kehiteltyjä kieliä. Aikaisemmin formaaleja kielioppeja käytettiin lähinnä matemaattisissa yhteyksissä, mutta nykyisin kieliopit ovat yleistyneet myös luonnollisissa kielissä. Rakenteisissa teksteissä periaatteena on, että jokaiseen tekstiin liittyy erillinen kieliopin kaltainen rakenteen määrittely.

    Formaalissa kieliopissa määritellään säännöt, joilla kuvataan miten merkeistä muodostetaan merkkijonoja. Kuvattuja merkkijonoja sanotaan kielen lauseiksi tai kieliopin generoimiksi lauseiksi. Säännöillä ilmaistaan myös miten kielen lauseet muodostetaan osamerkkijonoista. Formaali kielioppi käyttää kahta erilaista äärellistä symbolijoukkoa: perussymboli- ja välikesymbolijoukkoja. Perussymbolit ovat merkkejä, joista kieli koostuu. Välikesymboleita käytetään sanojen muodostamiseen. Kieliopin sydän on joukko muodostussääntöjä, jotka määrittelevät kuinka lauseet kuvataan. Kukin muodostussääntö koostuu kahdesta osasta, joista kutsutaan säännön vasemmaksi ja oikeaksi puoleksi. Kumpikin puoli sisältää joko välike- tai perussymboleja tai molempia. Vasemmalla puolella on kuitenkin vähintään yksi välikesymboli. Lisäksi kielioppiin kuuluu lähtösymboli, joka ilmaisee mitä muodostussääntöä kielen lauseiden muodostaminen käyttää. (Aho & Ullman, 1972)

    Esimerkiksi määriteltäessä kieltä runoille, säännössä

    poem ::= title '\n' stanza+
    stanza ::= line+

    välikesymboleita ovat poem, title, stanza ja line, joista poem on lähtösymboli. Symbolit title ja line voivat edustaa tekstialkioita, jotka koostuvat mistä tahansa muista merkeistä paitsi rivinvaihdosta. Symboli '\n' on perussymboli ja kuvaa rivinvaihtoa. Esimerkissä merkillä ::= erotetaan säännön vasen ja oikea puoli toisistaan.

    Edellisessä kappaleessa esitetyn esimerkin kielioppi luokitellaan yhteysvapaaksi kieliopiksi, koska säännön vasen puoli on vain yksi välikesymboli. Jos säännön vasemmalla puolella olisi useampi välikesymboli, kielioppi muuttuisi yhteydestä riippuvaksi. Yleisin ja tärkein näistä kahdesta on yhteysvapaa kielioppi. (Salminen, 1992)

    Formaalien kielioppien avulla voidaan rakentaa jäsentäjä, jolla on mahdollista analysoida kuuluuko teksti kieliopin mukaiseen kieleen. Ahon ja Ullmanin (1972) mukaan teksti on jäsennetty silloin, kun sen jäsennyspuu tiedetään. Tekstin jäsennyspuu on esitysmuoto, josta käy ilmi osien väliset suhteet toisiinsa. Jäsentäjä analysoi kielioppia ja muodostaa siitä jäsennyspuun, jonka avulla se tarkistaa tekstissä olevien merkkien oikeellisuuden. Jäsennyspuu on järjestetty puu, jossa jokainen solmu on joko kieliopin perussymboli tai välikesymboli siten, että puun juuri on lähtösymboli, haarasolmut välikesymboleita ja päätesolmut perussymboleita. (Salminen, 1992)

    Tietomalleissa määritellään kaavioilla tietyssä sovelluksessa käsiteltävät tiedot. Kaavioista näkyy millaisista tietoelementeistä tieto koostuu ja millaisia suhteita tietoelementeillä on toisiinsa. Tekstitietokannan esittäminen jäsennyspuuna on mahdollista, kun tietokannan kaavio ilmaistaan kieliopin avulla. Kieliopilla voidaan määritellä rakenteinen teksti myös yleisemminkin. Rakenteinen teksti voidaan käsittää pariksi, joka muodostuu kieliopista ja jäsennyspuusta. (Salminen, 1992)

    4.3 SGML - Standard Generalized Markup Language

    Idea tekstin loogisen rakenteen merkkauksesta on lähtöisin kirjapainoalalta. Aikaisemmin kirjapainoissa oli työntekijöitä, jotka merkkasivat käsin kirjan käsikirjoitukseen millaisella kirjasimella, miten sisentäen tai tekstiä korostaen kukin tekstin osa tuli painaa. Tekstisivun laidassa saattoi lukea esimerkiksi:

    Tämä otsikko painetaan 14 pistekoon Times New
     Roman -fontilla, kursiivilla, sivun keskelle. Seuraava kappale
     tasataan vasempaan laitaan 2,2 cm sivun reunasta. Kappaleen oikeaa
     laitaa ei tasata.

    Myöhemmin samaa ideaa käytettiin hyväksi tekstinkäsittelyohjelmissa. Kun havaittiin ongelmat, jotka syntyivät dokumenttien siirrossa järjestelmästä toiseen, keksittiin merkata tekstin loogiset osat erityisillä merkeillä, joita kukin järjestelmä pystyi tulkitsemaan ja muuntamaan tekstin omien määritystensä mukaisiksi. Vähitellen tästä merkkaustavasta laadittiin standardi, SGML (Standard Generalized Markup Language). (Herwijnen, 1990)

    4.3.1 Dokumenttien rakenteen määrittely ja esittäminen SGML:n avulla

    SGML on ISO:n hyväksymä standardi dokumenttien kuvaamiseen. Tarkka kuvaus SGML:n rakenteesta ja käytöstä löytyy Charles F. Goldfarbin kirjasta The SGML Handbook (Goldfarb, 1990) sekä ISO:n standardimäärityksestä 8879 (ISO 8879, 1986). Tämän standardin avulla voidaan parantaa dokumenttien siirrettävyyttä, ylläpitoa ja käsittelyä erilaisissa järjestelmissä. SGML-standardia käytetään yhä useammassa yrityksessä ja rakenteisten dokumenttien käsittelyyn on tarjotaan runsaasti erilaisia kaupallisia ja julkisia ohjelmia.

    Jukka Virtasen (1994) runon Pingviini pakastimessa ensimmäinen ja viimeinen säe näyttävät SGML-merkattuna tekstinä seuraavalta:

      <poem>
        <title>Pingviini pakastimessa</title>
        <stanza>
          <line>Meill&ae; on pingviini pakastimessa.</line>
          <line>Mik&ae;s sen on siell&ae; lekotellessa,</line>
          <line>asia kun on sill&ae; tavalla,</line>
          <line>ett&ae; siell&ae; on kylm&ae; kuin navalla.</line>
        </stanza>
        <stanza>
          <line>Jos tahdot pingviinin tavata,</line>
          <line>sinun t&ae;ytyy pakastin avata.</line>
          <line>Lintu sinut s&ae;ikytt&ae;&ae;</line>
          <line>ja sekamehua silmille l&ae;ikytt&ae;&ae;.</line>
          <line>Se tuntuu kipeelt&ae; p&ae;&ae;ss&ae;</line>
          <line>kun se mehu on aivan j&ae;&ae;ss&ae;</line>
          <line>ja siit&ae; tulee otsaan patti,</line>
          <line>suuri kuin lehm&ae;ntatti.</line>
        </stanza>
      </poem>

    Runon eri osien alku ja loppu on merkattu alku- ja lopputunnisteilla. Alkutunniste sijoitetaan symbolien < ja > väliin ja lopputunniste symbolien </ ja > väliin. Runon aloittaa alkutunniste <poem> ja lopettaa lopputunniste </poem>. Vastaavasti otsikko, säe ja rivi on merkattu nimiä title, stanza ja linie käyttävillä alku- ja lopputunnisteilla.

    SGML on metakieli, joka määrittelee syntaksin standardoidulle merkkauskielelle ja kuvaa miten merkkaus voidaan määritellä. SGML:n abstrakti syntaksi määrittelee standardoidun tavan kuvata dokumenttityyppimäärittely (Document Type Definition, DTD). DTD määrittelee dokumentin loogisen rakenteen sisältäen tekstin elementtien rakenteen ja niiden väliset suhteet, entiteetit sekä elementeille annettavat parametrit eli attribuutit. Elementeillä tässä yhteydessä tarkoitetaan tekstin loogisen rakenteen osia, joita voivat olla esimerkiksi otsikko, kappale, sitaatti tai taulukko. Entiteetit puolestaan ovat eräänlaisia makromäärittelyjä, joiden avulla voidaan esimerkiksi korvata tekstissä esiintyvät ASCII-merkistön ulkopuoliset merkit ASCII-merkeillä. SGML-merkatussa Virtasen runossa ä-kirjaimet on korvattu &ae;-yhdistelmällä. DTD määrittelee myös alku- ja lopputunnisteet eli yhteisesti tunnisteet (tags), joita käytetään tekstiä merkattaessa. Jos oletetaan, että edellä esitetty Virtasen (1994) SGML-merkattu runoteksti kuuluu useamman runon kokoelmaan, sen dokumenttityyppimäärittely voisi olla seuraava (Text Encoding Initiative, 1994):

    <!ENTITY % doctype "anthol"	-- Document type GI -->
    
    
                    <!-- ELEMENTS                       -->
    <!--      ELEMENTS       MIN  CONTENT               -->
    <!ELEMENT %doctype;      - - (poem+)                  >
    <!ELEMENT poem           - - (title?,stanza+)         >
    <!ELEMENT title          - O (#PCDATA)                >
    <!ELEMENT stanza         - O (line+)                  >
    <!ELEMENT line           - O (#PCDATA)                >
    
    <!ENTITY ae SDATA '\{a}'>
    <!ENTITY Ae SDATA '\{A}'>
    <!ENTITY oe SDATA '\{o}'>
    <!ENTITY Oe SDATA '\{O}'>
    
    

    Esimerkissä on määritelty vain elementtejä poem, title, stanza ja line, joita kutsutaan nimellä anthol, sekä entiteettejä. Koko runokokoelmaa vastaavan entiteetin nimeksi on määritelty dokumenttityyppinimi eli anthol. Entiteetteinä on lisäksi määritelty ä-, ö-, Ä- ja Ö-kirjaimet. Viivat (-) elementin nimen jäljessä kuvaavat elementin alku- ja lopputunnisteiden pakollisuutta. Viivan paikalla oleva O-kirjain tarkoittaa, että alku- tai lopputunniste voidaan jättää merkkaamatta (esimerkiksi title-elementin alkutunniste on pakollinen, mutta lopputunniste ei). Näitä merkintöjä kutsutaan minimointirajoitteiksi. Merkintä poem+ tarkoittaa, että runokokoelmassa toistuvat elementit, joiden nimi on poem, eli yhteen runokokoelmaan kuuluu yksi tai useampi runo. Merkintä title?, stanza+ puolestaan tarkoittaa sitä, että runorakenteen alussa voi olla otsikko, mutta se ei ole pakollinen, ja että mahdollista otsikkoa seuraa yksi tai useampi säe. Title-elementin jälkeen oleva määrittely #PCDATA kuvaa sitä, että otsikko ei enää jakaannu pienempiin osiin.

    4.3.2 SGML:n hyödyntäminen

    SGML-standardi ei ota kantaa siihen, mitä merkkejä tekstin merkkaukseen käytetään ja mikä niiden merkitys on. Tämän vuoksi SGML-dokumentit voidaan siirtää tietoverkkojen välityksellä koneesta toiseen dokumentin sisällön ja merkintöjen pysyessä muuttumattomana. Jotta vastaanottaja pystyy käsittelemään tekstiä, sekä lähettäjän että vastaanottajan täytyy käyttää samaa dokumenttityyppimäärittelyä (Barron, 1989). Se, miten vastaanottajat pystyvät hyödyntämään SGML-merkattuja dokumentteja, riippuu heidän käytössään olevista SGML:ää hyödyntävistä ohjelmistoista. Vaikka merkattu teksti ei näytä kovin luettavalta, se on kuitenkin suhteellisen helposti tulkittavaa ja ymmärrettävää. Siksi SGML sopii hyvin dokumenttien pitkäaikaiseen arkistointiin. (Salminen, 1995)

    Koska SGML-dokumentissa rakennemäärittely liittyy dokumenttiin eikä tiettyyn sovellukseen, kuten yleisissä tekstinkäsittelyjärjestelmissä, on mahdollista kehittää erilaisia algoritmeja, jotka muuttavat dokumentteja automaattisesti eri muotoihin. Erilaisilla muunnosmäärittelyillä voidaan yhdestä tekstistä muodostaa useita ulkomuodoltaan erilaisia tekstejä. Tämä tekstin monikäyttöisyys vähentää tarvetta kirjoittaa tekstistä useita eri versioita, ja siten SGML:n käyttö voi vähentää elektronisten tekstien tulvaa. Asioiden haku elektronisesta tekstistä on joustavaa ja vähentää tarvetta laajojen paperidokumenttien tulostamiseen ja kopioimiseen. (Salminen, 1995).

    Yhtenä tärkeimpänä etuna SGML:n käytössä on sen tarjoama tuki dokumenttien siirrossa (DeRose et al., 1990). Teksti voidaan kirjoittaa, lukea ja muokata millä tekstinkäsittelyohjelmistolla tahansa, eikä käyttäjä ole sidottu mihinkään ohjelmistoon tai toimittajaan. Yleisten standardien kirjoittajille SGML:n hyödyllisyys on ilmeistä. Artikkelit voidaan siirtää konekielisessä muodossa, ja teksti on mahdollista tulostaa monessa eri muodossa tekstin tuottamisen eri vaiheissa.

    Salmisen (1995) mukaan SGML tukee monella eri tavalla organisaation tietojen hallintaa. Ensiksikin ennen SGML:n käyttöönottoa täytyy organisaation dokumentit analysoida. SGML tarjoaa menetelmän ja määrittelykielen organisaation oman standardin kehittämiseen tietojen ja asioiden hallintaa varten. SGML:n käyttö lisää organisaation tietojen luotettavuutta, sillä SGML-dokumenttien käsittely-ympäristössä on aina dokumentin rakennetta kontrolloiva ohjelma. Lisäksi tietojen etsimistä ja löytämistä voidaan helpottaa SGML:n dokumenttirakennetta käyttämällä ja liittämällä tekstiin lisätietoja attribuuttien avulla.

    Jotta SGML:n tuomat edut saavutettaisiin, on kehitettävä ohjelmistoja tekstin käsittelemiseen, ja kirjailijoiden ja julkaisijoiden on muutettava työskentelytapojaan. Kirjailijat eivät välttämättä ole innokkaita laittamaan standardoituja ja sovittuja merkkejä tuottamiinsa teksteihin. Tällöin ongelmana on, kuka tarkastaa merkkien oikeellisuuden. Salminen (1995) korostaa, että SGML:n onnistunut käyttöönotto vaatii ohjelmistojen kehittämisen lisäksi perusteellista organisaation dokumenttien ja niiden elinkaaren analysointia, perusteellista työskentelytapojen analysointia ja kehittämistä sekä laajaa yhteistyötä dokumenttityyppien määrittelyssä.

    Dokumenttien vaihtoon organisaation sisällä on jo paljon ennen SGML:n kehittämistä rakennettu useita tehokkaita ohjelmia (esimerkiksi LaTeX), jotka ovat pitkälle kehitettyjä ja testattuja päinvastoin kuin SGML:ää ja DTD:tä hyödyntävät ohjelmat. SGML:n käyttäjä on lisäksi aina sidoksissa tiettyyn DTD-määritykseen. Vaikka SGML:n käyttö voi olla hankalampaa kuin pitkään käytössä olleiden muokkausohjelmien, se on kuitenkin ajan mittaan parempi vaihtoehto. Yksi SGML:n etu on, että DTD määrittelee sallittujen merkkien lisäksi niiden suhteet määräten dokumentin rakenteen, jonka SGML-jäsentäjä tarkastaa. SGML sopii hyvin monimutkaisten dokumenttien esittämiseen sekä niiden siirtoon ja informaation levittämiseen multimedian avulla. (Barron, 1989)

    SGML:ää käyttävistä organisaatioista voi mainita erityisesti tieteellistä kirjallisuutta julkaisevat kustantajat Elsevier sekä Oxford University Press. Tiedemaailmassa mm. American Chemical Society sekä American Mathematical Society julkaisevat digitaaliset julkaisunsa SGML:ää käyttäen. Myös organisaatiot, jotka käsittelevät suuria määriä tietoja, kuten esimerkiksi International Standards Organization (ISO), Euroopan Komissio sekä Yhdysvaltain puolustusministeriö, hyödyntävät SGML:n ominaisuuksia dokumenttiensa käsittelyssä. Kaikki suurimmat UNIX-ohjelmistojen ja -laitteistojen tuottajat jakelevat uusimmat dokumentointiversionsa SGML-muodossa. (The SGML Project, 1994) Suomessa esimerkiksi Lakimiesliiton Kustannuksen vuosittain julkaisemat Suomen Laki I ja II julkaistaan SGML:ää hyödyntäen.

    4.3.3 HTML - HyperText Markup Language

    Ehkä yleisimmin tunnettu SGML:ään pohjautuva esitystapakieli on HyperText Markup Language eli HTML. HTML on rakenteeltaan yksinkertainen rakenteisen tekstin merkkauskieli, joka on kehitetty siirrettävien ja laiteympäristöriippumattomien hypertekstidokumenttien tuottamiseen. Tämä on mahdollista, koska dokumenttien merkkaustapa on yhteisesti sovittu. HTML on ollut käytössä WWW:ssä julkaistavissa dokumenteissa vuodesta 1990 alkaen (Berners-Lee & Connolly, 1993). HTML-merkkauskieli on kehittynyt muutaman viime vuoden aikana nopeasti ja tällä hetkellä ollaan vähitellen siirtymässä versioon 3.0. Tämä vaikeuttaa dokumenttien päivittämistä ja HTML:n käyttäjät ovatkin alkaneet kiinnostua yhä enemmän SGML:n käytön mahdollisuuksista WWW:ssä yleisemminkin kuin vain HTML:ään rajoittuen.

    Tällä hetkellä käytössä oleva HTML-merkkauskielen versio asettaa tarkat rajoitukset WWW:n välityksellä julkaistavien dokumenttien rakenteen merkkaamiselle. HTML:n tekstielementtien valikoima on rajallinen, jolloin tärkeiden tekstielementtien erotteleminen voi tuottaa vaikeuksia. Esimerkiksi tekstilukujen erotteleminen on tällä hetkellä mahdollista vain yhden tunnisteen (<P>) avulla, jolloin kaikki kappaleet on käsiteltävä saman tasoisina. Tämä aiheuttaa ongelmia silloin, jos teksti on tarpeen jaotella tietyn tasoisten kappaleiden mukaan. Vaikka HTML on saavuttanut suosiotaan yksinkertaisuutensa ansiosta, toivoisi seuraavien versioiden kuitenkin tarjoavan edistyneemmille käyttäjille laajemman merkkausvalikoiman. Mitä rajallisempia tekstin muotoilumahdollisuudet ovat, sitä vähemmän verkkojulkaisujen ulkoasuun on mahdollista vaikuttaa. Tästä johtuneekin se, että tällä hetkellä verkon välityksellä julkaistut tekstit ovat tylsistyttävän yhdennäköisiä tekstin sisällöstä tai tyylistä huolimatta. (Price-Wilkin, 1994)

    Price-Wilkinin (1994) mukaan HTML:n rajoittuneisuus ilmaista monimutkaisia rakenteita on usein liitetty WWW:n rajallisiin ominaisuuksiin hakea rakenteeltaan monimutkaisia dokumentteja. Jos tekstissä on eroteltu erilaisia rakenteita, WWW ei pysty käsittelemään tällaista yhtä rakenneosaa, vaan tuo esille aina koko dokumentin. Tämä on ongelmallista varsinkin isojen dokumenttien osalta, sillä halutessa tarkastella esimerkiksi vain kirjan sisällysluetteloa, käyttäjä saa käsiteltäväkseen koko kirjan. Tällaisissa tapauksissa verkkoa kuormitetaan turhaan isoilla tiedonsiirtomäärillä. Tekstin eri osien käsittelyn lisäksi WWW kärsii myös dokumenttien hallinnan puutteesta. Osaksi tämä johtuu merkkauskielen rajoittuneisuudesta ja osaksi protokollan suunnittelun puutteista.

    Greenspun (1995) tuo artikkelissaan esille HTML:n rajoittuneisuuden myös siinä mielessä, että sen avulla merkityt dokumentit näyttävät kaikki lähes samanlaisilta. Ei ole merkitystä, onko lukemassa Raamattua vai Encyclopedia Britannicaa, sillä teksti on muotoiltu näyttöruudulla teoksen sisällöstä huolimatta aina samalla tavalla. Lukijat voivat kuitenkin jossain määrin vaikuttaa sivujen ulkoasuun oman HTML-selaajansa asetuksia muuttamalla. Greenspunin mielestä olisi järkevintä antaa dokumentin ulkoasun suunnittelu muutaman ammattilaisen tehtäväksi ja merkata tekstin tunnisteet valmiiksi WWW:ssä esitettävään dokumenttiin kuin, että jokainen WWW:n kymmenistä miljoonista käyttäjistä muotoilisi tekstin itse.

    Price-Wilkin (1994) toteaa, että HTML-käyttäjät saattavat katua lyhytnäköisyyttään muutaman vuoden kuluttua, koska monimutkaisten dokumenttien merkkaaminen julkaisun rakenteeseen paremmin sopivaan SGML-muotoon antaa laajemmat mahdollisuudet sekä tekstin rakenteen merkkaamiseen että sen muuntamiseen käytettävän julkaisukanavan vaatimaan muotoon. Vaikka HTML tulee kehittymään ja laajenemaan yhä enemmän, se säilyttää asemansa enemmän tekstin muotoilukielenä kuin loogisen rakenteen merkkauskielenä (Treloar, 1995).

    4.3.4 SGML:n ja HTML:n vertailua

    ECHT94-konferenssin (European Conference on Hypermedia Technology) paneelissa "HTML: Poison or Panacea" on käsitelty SGML:n ja HTML:n keskinäistä suhdetta SGML- ja HTML-asiantuntijaryhmän toimesta. Seuraavassa on kerrottu keskustelupaneelin keskeisimmistä huomioista, joita eri asiantuntijaryhmät esittivät.

    SGML-asiantuntijoiden näkemyksen mukaan HTML ei ole syntaksiltaan SGML sovellus, koska sen tulkitsemiseen tarvittavat selaajat eivät vaadi tarkkaa tekstin rakennemäärittelyn noudattamista, vaan hyväksyvät myös rakenteeltaan virheellisiä dokumentteja. Tästä johtuen käyttäjiä ei ole kehotettu laittamaan kaikkia dokumenttejaan HTML-muotoon, koska niitä ei voi muuntaa SGML-muotoon, kun taas muunnos SGML:stä HTML:ään on helposti toteutettavissa. SGML-asiantuntijoiden mielestä SGML ei ole niin monimutkainen, kuten yleisesti uskotaan. HTML menettää tehokkuuttaan yksinkertaisuutensa kustannuksella. Useat tarjolla olevat SGML-selaajat sisältävät monipuolisia hakuominaisuuksia, kun HTML/Mosaic mahdollistaa vain dokumenttien selaamisen. SGML-asiantuntijat vetoavat SGML:n ylivoimaisuuteen myös sillä, että SGML ei ilmestynyt yhdessä yössä, kuten HTML, vaan 20 vuoden dokumenttien käsittelykokemusten tuloksena. (Glushko, 1994)

    HTML-asiantuntijaryhmä korostaa sitä, että HTML:n vahvuus on sen helppoudessa, jonka ansiosta useat ihmiset ovat voineet julkaista tekstejään elektronisessa muodossa ilman koulutusta. HTML on saavuttanut suosiotaan myös ilmaiseksi saatavilla olevien selaajien ansiosta. HTML-asiantuntijaryhmän mielestä Mosaic-selaajaa ei olisi vieläkään olemassa, jos HTML:stä olisi tehty yhtä monipuolinen kuin SGML-sovellus parhaimmillaan on, koska tällöin sen kehittäminen olisi kestänyt paljon kauemmin. SGML ei ole kasvattanut suosiotaan monimutkaisuutensa takia, eikä saatavilla ole myöskään ollut ilmaisia tai edullisiakaan SGML-selaajia. Tähän asti nopeasti kehitetyistä ja ilmestyneistä uusista versioista huolimatta HTML:n tulevat versiot ovat yhteensopivia nykyisten kanssa. Tällä hetkellä eniten kritisoituun HTML:n URL-osoitteiden paikkasitoutuvuuteen on tulossa parannusta URN-osoitteiden (Universal Resource Names) avulla. Lopuksi HTML-asiantuntijaryhmä mainitsee, että HTML on tarjonnut paljon julkisuutta SGML:lle, johon se itse ei olisi kyennyt yli kahteen vuosikymmeneen. (Glushko, 1994)

    Kun keskustelupaneelin osallistujilta kysyttiin, ovatko yritykset menossa oikeaan suuntaan HTML:n käytössä, he korostivat vastauksessaan, että HTML ja siihen tarvittavat selaajat ovat hyvä mekanismi dokumenttien jakeluun, mutta huono strategia dokumenttien hallintaan. Paneelin lopuksi todettiin, että HTML:n suosion perustuessa sen yksinkertaisuuteen ja helposti saatavilla oleviin selaajiin SGML on ominaisuuksiltaan vahva, mutta voi kasvattaa suosiotaan vain, jos tulevaisuudessa on saatavilla ilmaisia SGML-selaajia. Tärkeänä pidettiin myös sitä, että SGML- ja HTML-leirien tulisi yhdistää voimansa oppiakseen toistensa kokemuksista. (Glushko, 1994)

    4.4 Rakenteisten SGML-dokumenttien tuottaminen

    Rakenteisia dokumentteja voidaan tuottaa joko muuntamalla ei-rakenteinen dokumentti rakenteiseksi tai käyttämällä syntaksiohjattua editoria (syntax-directed editor) (Salminen, 1992, Furuta et al., 1988), jossa dokumenttiin liittyvät rakennemäärittelyt ovat valmiina, ja kirjoittaja lisää tekstin määrittelyjen joukkoon. Syntaksin ohjaamassa editoinnissa ovat mahdollisia vain sellaiset toimenpiteet, jotka on mainittu rakenteen määrittelyssä (Salminen, 1992). Tässä tutkielmassa keskitytään käsittelemään rakenteisten dokumenttien tuottamista ensimmäisen vaihtoehdon mukaan, eli muuntamalla ei-rakenteinen teksti rakenteiseksi.

    Dokumentin muuntaminen rakenteiseen muotoon aloitetaan tekstin luonteeseen sopivan dokumenttityyppimäärittelyn tekemisellä. Yleensä organisaatioiden käytössä on useita dokumenttityyppimäärityksiä, joista kukin soveltuu vain tiettyä rakennetta noudattaville dokumenteille. Esimerkiksi kirja-muotoisen dokumentin rakennemäärittely saattaa olla liian laaja lyhyempien raporttien rakenteeseen. Huolellisen tekstirakenteiden analysoinnin tuloksena syntyneitä rakennemäärittelyitä on helppo hyödyntää ja niitä on mahdollista muokata käyttöönoton jälkeenkin. Tällöin on kuitenkin huomioitava muutosten vaikutus jo olemassa oleviin merkattuihin teksteihin.

    Dokumenttityyppimäärittelyt ovat perustana tekstin rakenteen merkkaamiselle ja jäsentämiselle. Ne muodostavat myös perusrungon erilaisten SGML-dokumentin muunnoksien tekemiselle esimerkiksi HTML-muotoon. Seuraavassa on kerrottu tarkemmin näistä rakenteisten dokumenttien tuottamisen eri vaiheista.

    4.4.1 Dokumentin rakennemäärittelyn valinta

    Rakenteisten dokumenttien keskeinen piirre on dokumentin sisällön ja loogisen rakenteen erottaminen toisistaan. Looginen rakenne kuvataan dokumenttityyppimäärittelyn eli DTD:n avulla, jossa määritellään dokumenttiin merkattavat elementit, entiteetit ja attribuutit. Dokumentin rakennemäärittelyn voi joko suunnitella itse omia tarpeitaan vastaavaksi tai käyttää valmiita tyyppimäärityksiä. Valmiita tyyppimäärityksiä on saatavilla lähinnä kirjojen ja artikkeleiden määrittelemiseen. Lisäksi on tarjolla laaja valikoima erilaisia erityismerkkimäärityksiä (eli entiteettikokoelmia), joita käyttämällä voi hyödyntää vaikkapa japanilaisia aakkosia. Tässä tutkielmassa käytetyn DTD:n, docbook2.2.1.dtd:n hyödynnetyt elementit attribuutteineen on kuvattu liitteessä 1. Varsinainen dokumenttityyppimäärittely dokumentointeineen on löydettävissä osoitteesta http://www.ora.com/davenport/docbook.2.2.1/. Docbook.dtd on kehitetty erityisesti tietojärjestelmien dokumentointiin, eli käyttöohjeita ja ohjelmaviittauksia varten. Sen on suunnitellut ja sitä ylläpitää nk. Davenport-ryhmä, joka on useita eri yrityksiä edustavien henkilöiden yhteinen keskustelufoorumi.

    Dokumenttityyppimäärittelyn valinta kannattaa tehdä harkiten, sillä se määrää miten dokumenttia voidaan myöhemmin käsitellä: muunnosohjelmat muokataan DTD:n perusteella kyseistä dokumenttia vastaaviksi ja mahdolliset tietokantarakenteet määräytyvät DTD:n perusteella. DTD ei kuitenkaan ota kantaa dokumentin ulkoasuun, kuten kirjasinlajiin tai -kokoon, vaan tarkoituksena on saada aikaan laitteistoriippumaton esitys dokumentista.

    Docbook.dtd valittiin tämän tutkielman dokumenttityyppimäärittelyksi, koska se oli riittävän laaja kuvaamaan tutkielman eri rakenteet. Valintaan vaikutti myös docbook.dtd:n kohtuullisen selkeä dokumentaatio, joka helpotti määrittelyyn tutustumista. Docbook.dtd on Internetin uutisryhmissä käydyn keskustelun perusteella käytössä yleisesti niin yliopistoissa kuin yritysmaailmassakin. Muita kokeiltuja dokumenttityyppimäärittelyjä olivat qwertz.dtd ja general.dtd. Qwertz.dtd olisi ollut laajuudeltaan tutkielman merkkaukseen riittävä, mutta se ei ole niin yleisesti käytetty kuin docbook.dtd. General.dtd puolestaan ei ole riittävän tarkka akateemisen tutkielman merkkaukseen ja sen dokumentaatio on puutteellinen.

    4.4.2 Dokumentin kirjoittaminen ja jäsentäminen

    Varsinaisen dokumentin kirjoittaminen voidaan tehdä millä tahansa tekstinkäsittely- tai -muokkausohjelmistolla. Jos valitussa ohjelmistossa ei ole SGML-tukea, DTD:n mukaiset merkinnät on tehtävä itse ja merkintöjen tarkistus on suoritettava erikseen. Tällainen toimintatapa on organisaation kannalta edullinen, koska useimmissa organisaatioissa on jo valmiina jonkinlainen tekstinkäsittelyohjelmisto. Käyttäjän kannalta käytäntö ei välttämättä ole paras mahdollinen, koska ohjelmisto ei tarjoa minkäänlaista tukea tai opastusta elementtien merkkausta varten. Tekstinkäsittelyohjelmisto, jossa on SGML-tuki, osaa tunnistaa käytettävän dokumenttityyppimäärittelyn ja siten ohjata kirjoittajaa elementtien merkinnässä. Samalla ohjelmisto voi tarkastaa merkintöjen oikeellisuuden, jolloin varmistutaan siitä, että dokumentti on rakenteellisesti oikean muotoinen. Tekstin sisältöön ei luonnollisestikaan voida ottaa kantaa. (Pepper, 1995) Liitteessä 2 on esimerkki SGML-merkatusta tekstistä, jossa DTD:nä on tämän tutkielman rakenteen määrittelyyn valittu docbook.dtd. Esimerkistä näkyy miten luvun alku, lista ja kuva määritetään käyttäen docbook.dtd -dokumenttityyppimäärittelyä.

    Valmiiseen dokumenttiin voidaan lisätä DTD:n mukaiset merkinnät tekstinkäsittelyohjelmien avulla, jolloin jo aiemmin luodut dokumentit voidaan muuttaa SGML-standardin mukaisiksi. Merkintöjen lisääminen jälkeenpäin mahdollistaa myös sen, että dokumenttien varsinaiset kirjoittajat voivat kirjoittaa samalla tavoin kuin aiemminkin ja julkaisija lisää tekstiin tarvittavat merkinnät. Tällöin kirjoittajien ei tarvitse huolehtia dokumenttiensa rakenteesta, mutta yhden dokumentin käsittelyyn kuluva kokonaisaika lisääntyy.

    Koska SGML on alunperin suunniteltu tietokoneita eikä ihmisiä ajatellen, tietokoneen on helppo ymmärtää merkattua tekstiä, mutta ihmisen on vaikea tuottaa sitä. Siksi tarvitaankin nykyistä kehittyneempiä tekstinkäsittelyohjelmistoja, jotta ihmisen kannalta vaikeinta rakenteisten dokumenttien käsittelyvaihetta, rakenteen merkkausta, voitaisiin helpottaa. Esimerkiksi PC-ympäristöön löytyy ohjelmia, joissa merkinnät tehdään käyttäen eri tyylejä, joita normaalistikin käytetään tekstin ulkoasun määrittämiseen. Tällöin käyttäjän tehtäväksi jää ns. mapping-tiedoston kirjoittaminen, jossa määritellään, mitä SGML-tunnistetta mikäkin tyyli vastaa. Ongelmana vain on tyylien riittämättömyys monipuolisiin SGML-rakenteisiin verrattuna. Tottuneelle tyylien käyttäjälle tämä on kuitenkin yksinkertainen tapa saada aikaan SGML-merkattua tekstiä.

    Merkkauksen jälkeen SGML-dokumentti käydään läpi jäsentäjällä, joka tarkistaa, että dokumentin määritykset ovat DTD:n mukaisia (Warmer & van Vliet, 1991). Jäsennys voidaan tehdä tekstinkäsittelyohjelmasta riippuen joko ohjelmassa tai erikseen käyttöjärjestelmätasolla. Jäsentäjät ilmoittavat vain rakennevirheistä, mutta kehittyneemmät ohjelmat analysoivat, mistä virhe aiheutuu ja miten sen voisi korjata.

    4.4.3 Dokumentin muuntaminen

    SGML-muotoon tallennettu dokumentti on sellaisenaan käyttökelpoinen vain organisaatioiden väliseen tai sisäiseen tiedonsiirtoon. SGML-tekstien muokkaamiseen tarkoitetuista tekstieditoreista ainoastaan WYSIWYG-periaatteella toimivien avulla on mahdollista käsitellä SGML-tekstiä tulostusasun mukaisessa muodossa. Toisaalta SGML-tekstejä voidaan lukea ja tulostaa myös SGML-selaajien avulla. SGML-muotoisessa tekstissä elementtimerkkaukset vaikeuttavat lukemista, eikä varsinaisia SGML-selaajia useiden erilaisten DTD-määritysten takia ole kovin laajassa käytössä.

    Yksi tärkeä rakenteisten tekstien käytön eduista on niiden muunneltavuus eri tarpeita vastaaviin muotoihin. Koska tekstin rakenteisuus perustuu erilaisiin merkattuihin tekstiosiin, niitä voidaan hyödyntää myös dokumentin muuntamisessa. SGML-muotoisen dokumentin muuntamisessa perusperiaatteena on se, että merkatut tunnisteet etsitään tekstistä ja korvataan muunnoksen kohteena olevan tekstimuodon (yleensä tekstin muotoilukomentojen) mukaan muunnosohjelman avulla. SGML-dokumentin muuntamisessa on noudatettava tapauskohtaista lähestymistapaa. Esimerkiksi <title>-tunniste voi esiintyä sekä artikkelin että tekstikappaleen otsikon erottelevana merkintänä. Kuitenkin näissä tapauksissa tulisi noudattaa erilaista tekstin ulkoasun muotoilukäytäntöä, joten niitä molempia ei voi korvata esimerkiksi HTML-muunnoksessa tunnisteella <H1>. Niinpä muunnoksessa tulisi huomioida se laajempi tekstikokonaisuus, johon käsiteltävä otsikko kuuluu. Esimerkiksi tekstikappaleen otsikko on yleensä jonkin tekstiluvun (<sect1>) sisällä. Muunnoksessa tulee siis testata kaikki eri tekstirakennevaihtoehdot, joihin <title>-tunniste voi kuulua.

    SGML-muotoisia dokumentteja varten on olemassa valmiita muunnosohjelmia, joiden avulla dokumentti saadaan muunnettua paperille tulostettavaan muotoon (esimerkiksi LaTeX-muotoisena) tai HTML-muotoon, jolloin dokumenttia on helppo selailla WWW:ssä HTML-selaajalla, esimerkiksi Netscapella. Valmiiden muunnosohjelmien käyttäminen edellyttää kuitenkin sen DTD:n käyttämistä, johon muunnosohjelman toiminta perustuu. Toinen tapa SGML-tekstin muuntamiseen on muunnosohjelman tekeminen itse, jolloin DTD voidaan valita ilman muunnosohjelman asettamia rajoituksia. Muunnosohjelman ohjelmointiin voidaan käyttää tehokkaita tekstimuotoisen tiedon käsittelyyn tarkoitettuja ohjelmointikieliä kuten Tcl- (Tool Command Language) tai Perl-kieltä.

    Itse tehty muunnosohjelma, joka muuntaa dokumentin SGML:stä esimerkiksi LaTeX -muotoon on muokattava erikseen jokaista eri dokumenttityyppimääritystä varten. Onkin suositeltavaa valita organisaatiossa mahdollisimman pieni valikoimia dokumenttityyppimäärityksiä, jotta muunnosohjelmia ei tarvitsisi muokata useita. Muunnosohjelman muokkauksessa tarvitaan tietoa sekä käytetystä DTD:stä että kohdemuodosta. Lisäksi ohjelmien muokkaajilla oletetaan olevan ohjelmointitaitoja jollakin merkkijonojen käsittelyyn tarkoitetulla kielellä. Muunnosohjelmaa tehtäessä on vaikea huomioida niitä tekstin rakenteeseen tehtäviä muutoksia, jotka vaikuttavat myös muunnosohjelman toimintaan. Varsinkin uudet, tekstiin lisätyt rakenteet vaativat muutoksia myös muunnosohjelmaan. Toisaalta yhden muunnosohjelman avulla ei voida tuottaa useita, ulkoasultaan erilaisia dokumentteja, jolloin ohjelmat eivät ole erityisen yleiskäyttöisiä. Siksi dokumenttien rakenteiden käsittely ja muuntaminen tulisikin määritellä mahdollisimman yhtenäiseksi ja kattavaksi eri dokumenttien kesken. Itse tehtyjä muunnosohjelmia on työläämpi päivittää kuin valmisohjelmien muunnosmäärittelyjä, mutta toisaalta muunnoksen kohdemuoto tai ulkoasun muotoilumahdollisuudet eivät muodostu rajoituksiksi. Itse ohjelmoiduille muunnoksille rajoituksia asettanee vain kohdemuodon tarjoamat mahdollisuudet.

    4.5 Jyväskylän yliopiston julkaisujen käsittelymalli

    Edellä esitettyyn rakenteisten dokumenttien käsittelyvaiheisiin perustuen voidaan muodostaa Jyväskylän yliopiston julkaisuille yleinen käsittelymalli, joka sisältää julkaisujen käsittelyn eri vaiheet tekstin tuottamisesta tekstinkäsittelyohjelmalla sen muuntamiseen LaTeX- tai HTML-muotoon. Seuraavassa on esitetty julkaisujen käsittelymalli yleisellä tasolla ohjelmistoriippumattomasti. Mallin eri vaiheisiin soveltuvien ohjelmistojen testaustulokset ja ohjelmistovalinnat sisältävä käsittelymalli on esitetty myöhemmin luvussa 6.

    4.5.1 Tekstin valmistelu ja tallentaminen ASCII-muotoon

    Kuvassa 3 on esitetty julkaisujen käsittelymalli, joka on suunniteltu pääasiallisesti UNIX-laiteympäristöön, koska tämän tutkimuksen tavoitteena on ollut tutkia UNIX-yhteensopivia rakenteisten tekstien käsittelyyn ja muuntamiseen valmistettuja julkisohjelmia. Kuvassa 3 esitetty käsittelymalli sisältää vaihtoehdot tekstin tuottamiseen ja tallentamiseen joko PC- tai UNIX-laitteella. Lähtökohtana tekstin muokkaamiseksi SGML-muotoon on ASCII (American Standard Code for Information Interchange) -muotoinen julkaisu, joka on tallennettuna UNIX-laitteelle. Jos tekstin tuottaminen tehdään PC-laitteella jollakin tekstinkäsittelyohjelmalla (esimerkiksi tämän tutkielmatekstin tapauksessa Microsoftin Word v.2.0 -ohjelmalla), se on siirrettävä ASCII-muotoon tallennettuna UNIX-laitteelle ennen SGML-merkkauksen aloittamista.

    Tekstin tuottamisen tapahtuessa ainoastaan UNIX-laiteympäristössä tekstin kirjoittaminen ja SGML-merkkaaminen voidaan tehdä joko samanaikaisesti tai erikseen. Tästä on kerrottu tarkemmin seuraavassa kappaleessa.

    Kuva 3. Julkaisujen käsittelymalli

    4.5.2 SGML-merkkaus ja jäsentäminen

    ASCII-muotoisen tekstin seuraavana käsittelyvaiheena on sen muuntaminen SGML-muotoon. Ennen varsinaista tekstin merkkauksen aloittamista on valittava tekstin rakenteen perustana käytettävä DTD. DTD:n valinnassa tulisi ottaa huomioon sekä julkaistavan tekstin rakenne että myöhemmin SGML-muotoiselle tekstille tehtävät muunnokset, jotka perustuvat DTD:n rakenteeseen. Valmiit SGML-tekstien muunnosohjelmat perustuvat tiettyihin DTD-määrittelyihin, joten muunnettavan tekstin on sovelluttava niiden määrittelemään rakenteeseen. Sopivan DTD:n valitsemisen jälkeen teksti käydään läpi ja merkataan DTD:n mukaisilla elementeillä. Tässä vaiheessa on myös huomioitava kaikki erikoismerkit (esimerkiksi skandinaaviset merkit), jotka on merkattava erikseen.

    Tekstin SGML-rakenteen oikeellisuutta tarkistetaan merkkausvaiheen aikana ja sen päätteeksi SGML-jäsentäjän avulla. Jäsentäjän tuottamaa tulosta käytetään hyväksi myös muunnoksissa, joita SGML-muotoiselle tekstille tehdään. Tekstin rakenteen oikeellisuus on kuitenkin hyvä tarkistaa jäsentäjän avulla jo tekstin SGML-merkkausvaiheessa, jotta muunnosta tehtäessä ei tarvitse enää kiinnittää huomiota SGML-rakenteen oikeellisuuteen.

    Jos tekstin tuottaminen tehdään ainoastaan UNIX-laiteympäristössä, tekstin SGML-merkkaus voidaan yhdistää tekstin kirjoitusvaiheeseen. Tällöin tekstin kirjoittamisen yhteydessä merkataan myös tekstin rakenne DTD:n mukaisilla tekstitunnisteilla. Vaihtoehtoisesti SGML-merkkaus voidaan tehdä erikseen varsinaisen tekstin kirjoittamisvaiheen jälkeen, jolloin merkkaamisessa voidaan keskittyä vain tekstin rakenteeseen. Työskentelytavan valinta jää käyttäjän tehtäväksi. Tätä tutkielmatekstiä kirjoitettaessa työskentelytavat vaihtelivat kirjoituksen yhteydessä ja sen jälkeen tapahtuvan merkkauksen välillä. Yleisesti käytäntönä oli, että keskeisimmät tekstitunnisteet (luku, kappale, otsikko) merkattiin tekstin kirjoittamisen yhteydessä, mutta tarkemmat tunnisteet (linkkiviittaukset, erikoismerkit) vasta kirjoittamisen jälkeen. Esimerkiksi erikoismerkkien merkkaamiseen kannatti käyttää tekstinkäsittelyohjelman etsi-korvaa -toimintoa.

    4.5.3 Muunnokset LaTeX- ja HTML-muotoon

    Julkaisumallin muodostamiselle asetettiin tavoitteeksi, että sen avulla täytyy saada aikaan sekä paperimuotoinen että tietoverkon välityksellä julkaistava julkaisu. Koska julkaistava teksti merkataan rakenteiseen SGML-muotoon, erilaisten julkaisuversioiden tuottaminen on mahdollista muuntamalla teksti tarvittavaan muotoon. Paperiversion tuottamiseksi julkaistava teksti muunnetaan LaTeX-muotoon, joka on monipuolinen tekstinmuotoiluohjelma jopa matemaattisten kaavojen muotoiluun. Tällä hetkellä Internet-verkon välityksellä julkaistava teksti on muunnettava HTML-muotoon, jotta sitä voidaan käsitellä erilaisten WWW:ssä käytettävien HTML-selaajien avulla.

    Rakenteisen tekstin keskeisin etu on sen muunneltavuus. Koska tekstin rakenne on merkattu SGML-tunnisteiden avulla, teksti saadaan muunnettua tarvittavaan muotoon korvaamalla SGML-merkkaukset kohteena olevan muodon tekstinmuotoilukomennoilla. Sekä LaTeX että HTML on tarkoitettu tekstin ulkoasun muotoiluun, joten molemmissa muunnoksissa keskeisenä ideana on sijoittaa SGML-tunnisteiden tilalle niitä muotoilukomentoja, joita LaTeXissa ja HTML:ssä käytetään.

    Sen lisäksi, että SGML-muotoinen teksti voidaan tässä käsittelymallissa muuntaa sekä LaTeX- että HTML-muotoon, HTML-muotoinen julkaisu voidaan tuottaa myös dokumentin LaTeX-versiosta. Tämä muunnosmahdollisuus otettiin mukaan julkaisumalliin, koska LaTeX-muotoisen dokumentin muuntaminen HTML-muotoon on helppo toteuttaa LaTeXin perustuessa määrättyihin tekstinmuotoilukomentoihin. SGML-muotoisen tekstin muunnoksesta tekee monimutkaisemman se, että tekstin rakennemäärittelynä voidaan käyttää mitä DTD:tä tahansa, jolloin sen muuntamiseen tarvitaan tapauskohtaisemmat toimenpiteet.

    Tämän tutkimuksen tuloksena muodostuneen SGML-muotoisen dokumentin LaTeX-versio noudattelee yleisiä pro gradu -tutkielman ulkoasuvaatimuksia, joten muunnokset ovat aina tapauskohtaisia vaihdellen halutun dokumentin ulkoasun mukaan. HTML tarjoaa huomattavasti rajallisemmat mahdollisuudet tekstin muotoiluun, eikä toisaalta tietoverkko julkaisukanavanakaan edellytä tai anna mahdollisuuksia tarkkojen ulkoasumäärittelyiden (esimerkiksi marginaaliasetuksien) tekemiseen.

    4.5.4 Käsittelymalli PC- ja UNIX-ympäristössä

    Edellä esitetty Jyväskylän yliopiston julkaisujen käsittelymalli keskittyy UNIX-laiteympäristöön pääasiallisesti siitä syystä, että tämä tutkimus rajattiin käsittämään vain UNIX-laiteympäristöön tarjolla olevat SGML-muotoisten tekstien hallintaan tarkoitetut julkisohjelmat. Koska julkaistavien tekstien kirjoittajat käyttävät useimmiten tekstin tuottamiseen PC-laiteympäristöön tarjolla olevia tekstinkäsittelyohjelmia, tekstin vaihtoehtoinen tuottamistapa PC-laiteympäristössä katsottiin tarpeelliseksi huomioida tässä käsittelymallissa.

    Käsittelymallin lähtökohtana on ASCII-muotoinen teksti, joka voidaan muodostaa myös PC:llä tekstinkäsittelyohjelmalla tuotetusta tekstistä. Erillisen, PC:llä tuotetun ja muotoillun tekstinkäsittelyversion ylläpitäminen vaatii kuitenkin omat toimenpiteensä. Kun teksti on merkattu SGML-muotoon, tekstin sisältöä koskevat päivitykset on tehtävä erikseen UNIX-laiteympäristössä tuotettuun tekstiin ja PC:llä tuotettuun tekstinkäsittelyversioon. Tekstin tuottaminen PC:llä edellyttäisikin tekstin sisällön olevan mahdollisimman julkaisuvalmis, jotta tekstiin kohdistuvien muutoksien päivittäminen sekä PC- että UNIX-versioon voitaisiin minimoida.

    Edellä esitetty käsittelymalli soveltuu parhaiten tilanteisiin, joissa dokumentista ei ole tarvetta ylläpitää tai edes tehdä erillistä PC-versiota. Tällöin dokumenttiin kohdistuvat päivitykset tehdään suoraan SGML-muotoiseen tekstiin UNIX-ympäristössä, jolloin tekstin versiohallinta on helppoa ja se säilyy rakenteeltaan oikeana päivityksen yhteydessä tapahtuvan SGML-merkkauksen ja -jäsentämisen ansiosta. Tässä tapauksessa julkaistavan tekstin käsittelymahdollisuuksia saattaa kuitenkin heikentää puuttuvan PC-version lisäksi UNIX-ympäristön alkeellisemmat tekstinkäsittelyohjelmat PC-ympäristöön verrattuna.

    SGML-muotoisen tekstin muuntaminen LaTeX- tai HTML-muotoon tehdään tässä esitetyssä julkaisujen käsittelymallissa aina UNIX-ympäristössä. Käsittelymallin testaukseen käytettyjen SGML-välineiden soveltuvuudesta eri laiteympäristöihin sekä testattujen muunnosohjelmien asettamista vaatimuksista SGML-tekstin muodolle on kerrottu tarkemmin luvussa 6.

    4.6 Yhteenveto

    Rakenteisten tekstien teoreettinen tausta on löydettävissä formaalien kielioppien teoriasta, ja niiden käsitteleminen perustuu tekstin rakenteen tuntemiseen. Tässä tutkielmassa on keskitytty yhteen rakenteista tekstiä määrittävään standardiin eli SGML:ään. SGML:n ydin on dokumenttityyppimäärittely, jossa kuvataan dokumentin rakenteen osat ja niiden suhde toisiinsa. Dokumenttityyppimäärittelyn mukaisesti merkattua SGML-tekstiä voidaan hyödyntää siirrettäessä dokumentteja organisaatioiden sisällä sekä niiden välillä. Siirrettävyyden lisäksi rakenteisten dokumenttien ilmeinen etu on myös niiden muunneltavuus, koska yhdestä tekstitiedostosta voidaan muunnoksien avulla muodostaa useita ulkoasultaan erilaisia dokumentteja.

    Tunnetuin SGML:n sovellus on HyperText Markup Language eli HTML. Sitä on kritisoitu varsinkin sen rajallisista tekstin rakenteiden ja muotoilujen määrittelymahdollisuuksista. Yksinkertaisuutensa ansiosta HTML:n käyttöönotto on helppoa ja sen käyttö on yleistynyt tietoverkon käyttäjäkunnan laajetessa. On myös tärkeä muistaa, että laajan käyttäjäkunnan ansiosta HTML on tehnyt tunnetuksi rakenteisten tekstien yleistä ajatusmallia ja terminologiaa.

    Jyväskylän yliopistoon suunnitellussa julkaisumallissa on otettu huomioon rakenteisten tekstien käsittelyn eri vaiheet: kirjoittaminen, jäsentäminen ja tekstin muuntaminen ulkoasultaan tarkoituksenmukaiseen muotoon. Mallin mukaan tekstin voi kirjoittaa millä tekstinkäsittelyohjelmistolla tahansa, kunhan se tallennetaan ASCII-muotoon. ASCII-muotoiseen tekstiin merkataan valitun dokumenttityyppimäärittelyn mukaiset tunnisteet ja merkattu teksti käydään läpi SGML-jäsentäjän avulla. Jäsentäjän tuottamaa tulosta käytetään hyväksi muunnosohjelmissa, joiden avulla teksti muunnetaan sekä paperille tulostettavaan että WWW:stä luettavissa olevaan HTML-muotoon.



    SeuraavaEdellinenYlös
    Seuraava Edellinen Alkuun