Mikä tekee tekstityksestä saavutettavan?

Viimeistään saavutettavuuslainsäädännön tultua voimaan ihmiset ja organisaatiot ovat havahtuneet siihen, että monet videot verkkojakelussa tarvitsevat tekstityksen. Vaikka saavutettavuuslainsäädäntö ei koske yksityishenkilöiden tuottamaa videomateriaalia, uskon, että useimmat tiedostavat, että tekstitys mahdollistaa videon levityksen ja toiston niissäkin tilanteissa, missä videota ei voi katsella äänet päällä. Kaikki tekstitykset eivät kuitenkaan ole saavutettavia. Mikä siis tekee tekstityksestä saavutettavan?

Saavutettavan tekstityksen määritelmä

Saavutettavuuden ydinperiaatteet ovat havaittavuus, hallittavuus, ymmärrettävyys ja toimintavarmuus (engl. POUR: Perceivable, Operable, Understandable, Robust). Ensimmäinen ja kolmas periaate ovat varsin suoraviivaisia: tekstityksen täytyy näkyä videotallenteella, eli olla havaittavissa, ja sen sisältöä täytyy voida ymmärtää. Toimintavarmuus tarkoittaa, että tekstitys toimii odotetusti – ilman virheitä tai käyttöliittymäongelmia videon toistossa.

Hallittavuus on usein kompastuskivi: käyttäjällä täytyy olla mahdollisuus kytkeä tekstitys päälle tai pois, säätää sen kokoa, väriä ja taustaa. Tämä ei onnistu, jos tekstitys on niin sanottu poltettu tekstitys (open captions), joka on kiinteä osa videokuvaa. Tällainen tekstitys ei täytä WCAG 2.1:n A-tason saavutettavuusvaatimuksia, koska käyttäjä ei voi hallita sen esitystapaa. Määritelmän täyttämiseksi tarvitaan vähintään erillinen tekstitystiedosto (esim. SRT), jota käyttäjä voi ohjata.

Valitettavasti pelkkä SRT-tiedoston tarjoaminen ei vielä riitä täyttämään saavutettavuusvaatimuksia. Myös tekstityksen sisällön ja muotoilun laatu vaikuttavat merkittävästi saavutettavuuteen. Alla keskeiset saavutettavan tekstityksen vaatimukset, jotka perustuvat alan vakiintuneisiin ohjeistuksiin (mm. YLE, BBC, Netflix, Ofcom):

Saavutettavan tekstityksen keskeiset vaatimukset

  • Enintään 12 merkkiä sekunnissa (CPS): Nopeus, jolla tekstitys etenee, ei saa ylittää noin 12 merkkiä sekunnissa. Tämä on yleisesti hyväksytty yläraja, jonka tavoitteena on säilyttää luettavuus eri käyttäjäryhmille.

  • Yhdellä rivillä enintään 37 merkkiä: Liian pitkät rivit vaikeuttavat lukemista ja voivat peittää tärkeää visuaalista sisältöä. Useat organisaatiot, kuten YLE ja BBC, suosittelevat 32–37 merkin enimmäispituutta per rivi.

  • Korkeintaan kaksi riviä kerrallaan: Kahden rivin rajoitus parantaa visuaalista selkeyttä ja estää tekstityksen kasvamasta liian suureksi kuva-alueeseen nähden.

  • Lauseiden ja lausekkeiden katkaisu loogisissa kohdissa: Tekstitys tulee jakaa kielellisesti järkeviin kohtiin, kuten lause- tai lausekekatkoihin – ei mekaanisesti merkkimäärän mukaan. Tämä tukee ymmärrettävyyttä.

  • Puhujan tunnistaminen: Jos puhujia on useita, tai puhuja ei näy ruudulla, tekstityksessä tulee ilmaista, kuka puhuu. Tämä voidaan tehdä esimerkiksi kirjoittamalla puhujan nimi tai muu tunniste ennen repliikkiä.

  • Muu ääni-informaatio: Saavutettava tekstitys ei kata vain puhetta, vaan myös merkitykselliset äänet (esim. [naurua], [ovikello soi], [iloista musiikkia]) tulisi sisällyttää tekstitykseen, jos niillä on merkitystä sisällön ymmärtämiselle.

Vaikka WCAG ei anna tarkkoja lukuarvoja merkki- tai rivimäärille, yleisesti hyväksytyt alan standardit ja käytännöt tukevat näitä rajoja saavutettavan, helposti luettavan ja ymmärrettävän tekstityksen takaamiseksi.

Onko automaattitekstitys saavutettava?

Automaattitekstitykset, kuten YouTuben tarjoamat automaattisesti luodut tekstitykset, ovat parantuneet merkittävästi viime vuosina. Ne hyödyntävät puheentunnistusta, mikä tuottaa varsin tarkan tekstin erityisesti selkeästä, yksikielisestä puheesta. Tästä huolimatta automaattitekstitys ei sellaisenaan täytä saavutettavan tekstityksen vaatimuksia, eikä sitä voida pitää WCAG 2.1:n tarkoittamana tekstityksenä ilman erillistä tarkistusta ja muokkausta.

Automaattitekstitysten puutteet liittyvät usein seuraaviin asioihin:

  • Merkkirajat puuttuvat: Automaattisesti luodut tekstitykset voivat olla liian pitkiä yhdelle riville, eikä niissä noudateta suosituksia (esim. max. 37 merkkiä/rivi tai 12 merkkiä/sekunti). Tämä heikentää luettavuutta.

  • Lausejako on usein virheellinen: Puheentunnistus ei yleensä tunnista lauseiden ja lausekkeiden luonnollisia katkaisukohtia, vaan jakaa tekstiä satunnaisesti ajan tai taukojen perusteella. Tämä vaikeuttaa sisällön seuraamista ja ymmärtämistä.

  • Puhujien erottelua ei ole: Automaattitekstitys ei pysty osoittamaan, kuka puhuu. Tämä on ongelmallista, jos videolla esiintyy useita henkilöitä tai puhujan vaihtuminen ei ole ilmeistä.

  • Käyttöliittymä- ja kieliongelmat: Automaattitekstityksessä voi esiintyä sanatunnistusvirheitä, käännösvirheitä tai puutteita oikeinkirjoituksessa, mikä heikentää ymmärrettävyyttä, etenkin kielillä, joissa ei ole vakiintunutta puheentunnistustukea.

Osaako AI tehdä saavutettavia tekstityksiä?

Teoriassa kyllä – käytännössä ei vielä täysin. Tekoäly (AI) pystyy tuottamaan hyvin tarkkaa ja nopeasti generoituvaa tekstitystä, mutta aidosti saavutettavan tekstityksen tuottaminen edellyttää enemmän kuin pelkkää puheen muuttamista tekstiksi. Useimmat tekoälypohjaiset tekstitysohjelmat, myös kaupalliset, eivät tällä hetkellä täytä saavutettavan tekstityksen kaikkia vaatimuksia ilman ihmisen tekemää tarkistusta ja viimeistelyä.

Miksi AI ei vielä ole riittävän hyvä?

Teksti jaetaan usein teknisin perustein, ei kielellisesti: Useimmat AI-pohjaiset tekstitysohjelmat jakavat tekstin kiinteän merkkimäärän tai ajastuksen mukaan, eivät luonnollisen lauserakenteen perusteella. Tulos voi olla luettavuudeltaan sekavaa: lauseet katkeavat epäkohdista, lausekkeet menevät poikki, ja merkitys kärsii.

  • Puhujien tunnistaminen on puutteellista: Vaikka jotkin kehittyneet mallit kykenevät ääniprofiilien erottamiseen (esim. "Speaker 1", "Speaker 2"), ne harvoin osaavat nimetä puhujat tai tunnistaa asiayhteyksiä. Tämä on erityisen ongelmallista keskusteluissa tai haastatteluissa.

  • Ei-puhutun äänen kuvaus puuttuu lähes aina: Saavutettava tekstitys sisältää myös musiikin, taustaäänien ja äänitehosteiden kuvaukset. Tekoäly ei yleensä lisää näitä, ellei sitä ole erikseen ohjeistettu ja koulutettu siihen.

  • Kontekstin ymmärrys on rajoittunutta: AI voi tuottaa oikein kirjoitetun sanan, mutta väärässä asiayhteydessä. Esimerkiksi sanat kuten "kuusi" voivat tarkoittaa lukua tai puuta, ja tekoäly ei aina pysty päättelemään oikeaa vaihtoehtoa ilman lisätietoa.

  • Kuvailutulkintaa ei ole: Tekoäly ei pysty automaattisesti tuottamaan kuvailutulkintaa tai muuta saavutettavuussisältöä visuaalisesti merkittävistä tapahtumista, ellei sitä ole siihen erikseen suunniteltu.

AI voi tukea saavutettavan tekstityksen tekemistä, mutta se ei vielä kykene tuottamaan saavutettavaa tekstitystä virheettömästi. Lopputulos vaatii yhä ihmisen tekemää editointia, puhujien merkitsemistä, lauserakenteen korjaamista ja ääni-informaation lisäämistä. Hyvä tekoälytyökalu toimii siis parhaimmillaan työkaluna, ei itsenäisenä ratkaisuna saavutettavuuteen.

Miten videolle siis tehdään saavutettava tekstitys vuonna 2025?

Vuonna 2025 saavutettava tekstitys tarkoittaa muutakin kuin puheen litterointia – se on kohderyhmälähtöistä viestintää, joka ottaa huomioon sekä tekniset että kielelliset vaatimukset. Prosessi alkaa laadukkaasta lähdemateriaalista ja päättyy huolella toimitettuun tekstitystiedostoon, joka tukee videon käyttöä kaikilla alustoilla ja kaikille käyttäjille. Saavutettavan tekstityksen tekeminen vaatii osaamista, teknistä ymmärrystä ja kielellistä tarkkuutta.

Suomessa toimii useita tekstityspalveluntarjoajia, jotka ovat erikoistuneet tuottamaan saavutettavaa tekstitystä erilaisiin videomateriaaleihin – olivat kyseessä sitten seminaaritallenteet, koulutusvideot, Teams-keskustelut tai esittelyvideot. Nämä ammattilaiset osaavat:

  • valita oikean tekstitysmuodon (esim. SRT, VTT, TTML),

  • säätää tekstityksen ajoituksen suositusten mukaiseksi (esim. max. 12 merkkiä/sekunti),

  • merkitä puhujat ja muut äänet saavutettavuusvaatimusten mukaan,

  • katkaista lauseet kielellisesti loogisiin kohtiin,

  • huomioida visuaalisen tilan, kontrastin ja luettavuuden.

On myös tilanteita, joissa saavutettavan tekstityksen tuottaminen ei ole käytännössä mahdollista. Esimerkiksi:

  • Jos puhenopeus on hyvin suuri, eikä sisältöä voi tiivistää tai yksinkertaistaa muuttamatta merkitystä, tekstitys ei pysy suositelluissa lukemissa (esim. max. 12 merkkiä/sekunti).

  • Jos lähdemateriaali on kielellisesti kaoottista (päällekkäistä puhetta, epäselvää ääntä, puuttuvia visuaalisia vihjeitä), saattaa saavutettavuusvaatimusten täyttäminen olla mahdotonta ilman muuta tukisisältöä.

Tällaiset tapaukset ovat kuitenkin harvinaisia. Useimmat videot ovat muokattavissa saavutettaviksi pienin parannuksin: selkeyttämällä puhetta, tarjoamalla täydentävää materiaalia tai muokkaamalla tekstitystä ymmärrettävämpään muotoon.

On tärkeää muistaa, kenelle saavutettava tekstitys on tarkoitettu. Se ei ole vain henkilöille, joilla on kuulo- tai oppimisvaikeuksia, vaan myös niille, jotka katsovat videota ilman ääntä, opiskelevat vierasta kieltä, tai tarvitsevat tekstin tukea esimerkiksi keskittymiseen tai tilanteen ymmärtämiseen. Hyvin tehty tekstitys hyödyttää videon kaikkia katsojia.

Yhteistyö ammattilaisten kanssa varmistaa, että sisältö on saavutettavaa mahdollisimman monelle – myös niille, joiden tarpeet saattavat jäädä piiloon.

Seuraava
Seuraava

Opas: Kuinka ostan hyvän kannettavan tietokoneen?