Levenstein coding
Levenshtein-koodaus (myös universaali koodaus) on tietotekniikassa käytetty menetelmä, joka mahdollistaa datan pakkaamisen ilman, että tietoa menetäisi. Tämä menetelmä perustuu Levenshtein-etäisyyden konseptiin, joka mittaa kahden merkkijonon välisen eron. Levenshtein-koodaus on erityisen tehokas toistuvien symbolien esiintyessä datassa.
Perusteet[muokkaa]
Levenshtein-koodaus perustuu Levenshtein-etäisyyteen, joka on mittaa, joka kuvaa kahden merkkijonon välisen eron. Tämä etäisyys määritellään merkkijonojen välisen muutosten määrän perusteella, jotka ovat lisäys, poisto tai korvaus. Levenshtein-koodaus käyttää tätä periaatetta pakkaamalla data siten, että minimoidaan tämän etäisyyden arvoa.
Sovellukset[muokkaa]
Levenshtein-koodaus on erityisen hyödyllinen sellaisissa sovelluksissa, joissa data sisältää paljon toistuvia symboleita tai merkkijonoja. Esimerkiksi tekstinkäsittelyssä ja DNA-analysoinnissa Levenshtein-koodaus voi olla tehokas tapa pakata data ilman, että tietoa menetäisi.
Esimerkki[muokkaa]
Olkoon kaksi merkkijonoa "kissa" ja "koira". Levenshtein-etäisyys näiden merkkijonojen välillä on 3, koska tarvitaan kolme muutosta (poisto, lisäys tai korvaus) muuttaakseen "kissa" muotoon "koira". Levenshtein-koodaus käyttää tätä periaatetta pakkaamalla data siten, että minimoidaan tämän etäisyyden arvoa.
Lähteet[muokkaa]
- [Levenshtein coding on Wikipedia](https://en.wikipedia.org/wiki/Levenshtein_coding)
- [Levenshtein distance on Wikipedia](https://en.wikipedia.org/wiki/Levenshtein_distance)