Pala nettiä järjestyksessä

Vietin juuri leijonanosan sunnuntai-illastani järjestäen del.icio.us-tagikirjastoani. Aika nörttiä. Mutta pidän listoista ja asioiden luokittelusta, ja oli myös hauskaa käydä läpi puolentoista vuoden käytön aikana kertyneitä linkkejä. Kipinä järkkäilyyn syntyi, kun selailin Aukian Jannen vastaavaa kirjastoa, ja bongasin sieltä hyödyllisiä linkkejä dippaani liittyen.

Nyt minulla on siis oma pieni pala WWW:tä hienosti järjestettynä, ja samaa järjestettyä arkistoa voivat hyödyntää myös muut! Hienoa. Paitsi että järjestäminen oli aika vaikeaa, ja nyt saattaisin jo tehdä kaiken toisin. Jälleen kerran havaitsin, kuinka kertakaikkisen vaikeaa on pyrkiä järjestämään vähänkään suurempaa joukkoa käsitteitä (minun tapauksessani 356 tägia) minkäänlaiseen hierarkiaan (sain kasaan yhteensä 34 “täginippua”).

Monelle sanalle ei kerta kaikkiaan löytynyt sopivaa luokkaa, vaan ne päätyivät yksinkertaisesti “käsitteet”-nippuun. Näitä olivat esimerkiksi “crowdsourcing”, “identity” ja “happiness”. Muihinkaan en ole täysin tyytyväinen, ja ne ovat osin päällekkäisiä.

Huomasin myös konkreettisesti, miksi semanttiset teknologiat olisivat tarpeen. Jouduin tarkastamaan, mihin linkkeihin viittasivat tägit “vr” (rautatieyhtiön sijasta virtuaalitodellisuuteen) ja “smalltalk” (ohjelmointikieleen; tämä kertoo ehkä jotain minusta…).

Prosessin aikana kävivät varsin hyvin selväksi sekä del.icio.usin tyylisen lajittelusysteemin mahdollisuudet että se, missä se epäonnistuu pahoin ja miksi kehitystä tarvitaan edelleen. Periaatteessahan del.icio.us tekee juuri sitä, mitä aiemmin arvelin haun tulevaisuudeksi: se yhdistää sosiaalisuuden (kaverin kokoelman penkominen) semanttisuuteen (käyttäjien linkeille antamat merkitykset).

Mutta ihmiset ovat erilaisia, ja niin ovat myös heidän tapansa jäsentää maailmaa. Ja siksi semanttisuus on lopulta aika ohutta. Kenelle on hyötyä siitä, että minä luokittelen “crowdsourcingin” nippuun “käsitteet”, “plasticin” luokkaan “technology” ja “historyn” luokkaan “research”? Näihin melko eriskummalliselta kuulostaviin ratkaisuihin päädyin, enkä jaksa enää miettiä vaihtoehtoja. Linkkien tägäämiseen del.icio.us antaa sentään vihjeitä muilta käyttäjiltä saadun informaation perusteella, mutta täginippujen kanssa käyttäjä on omillaan. Tägit ovat helppoja, mutta hierarkia ja sen myötä asioiden todelliset merkitykset paljon vaikeampia.

Tämän blogin tämänhetkiset kategoriat ovat toinen hyvä esimerkki lajittelun vaikeudesta. Yksi kategorioista on web, mikä tuntuu varsin tyhmältä, koska melkein kaikki kirjoitukset liittyvät siihen. Toisaalta jos sitä ei olisi mukana, joillekin kirjoituksille olisi todella vaikea keksiä järkevää kategoriaa. Alahierarkiat, tägipilvet ja muut hienoudet puuttuvat kokonaan, mutten oikein osaa sanoa, toisivatko ne blogiin järjestystä vai kaaosta.

Lajitellessani 400 linkin kokoelmaani tajusin myös, miten utopistiselta ajatukselta semanttinen web tuntuu. Olen varma, että kukaan toinen ei päätyisi samanlaiseen järjestelytapaan lajittelemissani linkeissä, vaikka ne ovat vielä suhteellisen suppealta aihealueelta eikä niitä ole kovin paljon. Miten ikinä voi olla mahdollista järjestää koko internet siten, että kaikki pystyisivät löytämään haluamansa tiedon siitä paikasta, mistä olettavat sen löytyvän?

Metsään mennään juuri siinä vaiheessa, kun käsitteitä pyritään laittamaan hierarkioihin. Kaiken järjestäminen koneellisesti ei vain toimi, ja jos ihminen on mukana järjestämisprosessissa, on järjestys aina jonkun toisen, todennäköisesti useimpien, mielestä väärä.

Tags: , , , ,

1 comment

  1. Uskon, että käyttäjien luomat omat tägimääritelmät ovat hyvä lähtökohta yleiselle datan järjestämiselle. Vaikka kaikki käyttäjät eivät luokittelisikaan dataa samoin tägein, voidaan koneoppimismenetelmin löytää mäppäyksiä eri käyttäjien käyttämien luokitteluiden välille.

    Tämän jälkeen voidaan tehdä eri käyttäjille omia näkymiä käyttäen heidän omaa kieltään: kun haet tiettyen tägien alla olevaa tietoa, järjestelmä osaa ehdottaa sinulle oikeaa sisältöä sen mukaan, mitä tägejä olet itse käyttänyt. Tietysti tällä ei saada luotua universaalia kieltä, vaan ainoastaan kerrottua, miten eri käyttäjien omat, henkilökohtaiset kielet kääntyvät toisiksi kieliksi.

    Tämä lipesi vähän ajatuksenvirraksi :). Kuitenkin, tällaisia fiiliksiä mulle tulee tägeistä, koneoppimisesta ja semanttisesta webistä puhuttessa. Yleisesti ottaen, semanttisen webin tutkimukseen pitäisi saada enemmän koneoppimismagiaa mukaan!