26
Jan 09

Pala nettiä järjestyksessä

Vietin juuri leijonanosan sunnuntai-illastani järjestäen del.icio.us-tagikirjastoani. Aika nörttiä. Mutta pidän listoista ja asioiden luokittelusta, ja oli myös hauskaa käydä läpi puolentoista vuoden käytön aikana kertyneitä linkkejä. Kipinä järkkäilyyn syntyi, kun selailin Aukian Jannen vastaavaa kirjastoa, ja bongasin sieltä hyödyllisiä linkkejä dippaani liittyen.

Nyt minulla on siis oma pieni pala WWW:tä hienosti järjestettynä, ja samaa järjestettyä arkistoa voivat hyödyntää myös muut! Hienoa. Paitsi että järjestäminen oli aika vaikeaa, ja nyt saattaisin jo tehdä kaiken toisin. Jälleen kerran havaitsin, kuinka kertakaikkisen vaikeaa on pyrkiä järjestämään vähänkään suurempaa joukkoa käsitteitä (minun tapauksessani 356 tägia) minkäänlaiseen hierarkiaan (sain kasaan yhteensä 34 “täginippua”).

Monelle sanalle ei kerta kaikkiaan löytynyt sopivaa luokkaa, vaan ne päätyivät yksinkertaisesti “käsitteet”-nippuun. Näitä olivat esimerkiksi “crowdsourcing”, “identity” ja “happiness”. Muihinkaan en ole täysin tyytyväinen, ja ne ovat osin päällekkäisiä.

Huomasin myös konkreettisesti, miksi semanttiset teknologiat olisivat tarpeen. Jouduin tarkastamaan, mihin linkkeihin viittasivat tägit “vr” (rautatieyhtiön sijasta virtuaalitodellisuuteen) ja “smalltalk” (ohjelmointikieleen; tämä kertoo ehkä jotain minusta…).

Prosessin aikana kävivät varsin hyvin selväksi sekä del.icio.usin tyylisen lajittelusysteemin mahdollisuudet että se, missä se epäonnistuu pahoin ja miksi kehitystä tarvitaan edelleen. Periaatteessahan del.icio.us tekee juuri sitä, mitä aiemmin arvelin haun tulevaisuudeksi: se yhdistää sosiaalisuuden (kaverin kokoelman penkominen) semanttisuuteen (käyttäjien linkeille antamat merkitykset).

Mutta ihmiset ovat erilaisia, ja niin ovat myös heidän tapansa jäsentää maailmaa. Ja siksi semanttisuus on lopulta aika ohutta. Kenelle on hyötyä siitä, että minä luokittelen “crowdsourcingin” nippuun “käsitteet”, “plasticin” luokkaan “technology” ja “historyn” luokkaan “research”? Näihin melko eriskummalliselta kuulostaviin ratkaisuihin päädyin, enkä jaksa enää miettiä vaihtoehtoja. Linkkien tägäämiseen del.icio.us antaa sentään vihjeitä muilta käyttäjiltä saadun informaation perusteella, mutta täginippujen kanssa käyttäjä on omillaan. Tägit ovat helppoja, mutta hierarkia ja sen myötä asioiden todelliset merkitykset paljon vaikeampia.

Tämän blogin tämänhetkiset kategoriat ovat toinen hyvä esimerkki lajittelun vaikeudesta. Yksi kategorioista on web, mikä tuntuu varsin tyhmältä, koska melkein kaikki kirjoitukset liittyvät siihen. Toisaalta jos sitä ei olisi mukana, joillekin kirjoituksille olisi todella vaikea keksiä järkevää kategoriaa. Alahierarkiat, tägipilvet ja muut hienoudet puuttuvat kokonaan, mutten oikein osaa sanoa, toisivatko ne blogiin järjestystä vai kaaosta.

Lajitellessani 400 linkin kokoelmaani tajusin myös, miten utopistiselta ajatukselta semanttinen web tuntuu. Olen varma, että kukaan toinen ei päätyisi samanlaiseen järjestelytapaan lajittelemissani linkeissä, vaikka ne ovat vielä suhteellisen suppealta aihealueelta eikä niitä ole kovin paljon. Miten ikinä voi olla mahdollista järjestää koko internet siten, että kaikki pystyisivät löytämään haluamansa tiedon siitä paikasta, mistä olettavat sen löytyvän?

Metsään mennään juuri siinä vaiheessa, kun käsitteitä pyritään laittamaan hierarkioihin. Kaiken järjestäminen koneellisesti ei vain toimi, ja jos ihminen on mukana järjestämisprosessissa, on järjestys aina jonkun toisen, todennäköisesti useimpien, mielestä väärä.


30
May 08

SELECT * FROM Web

Tähän päivään asti minulle on ollut jossain määrin epäselvää se, mitä hyötyä semanttisesta hakukoneesta oikeasti olisi.

Hyvä on, tiedän, semanttisuus mahdollistaa sen, että kone oikeasti ymmärtää tekstien sisällön ja tuottaa sen perusteella relevantteja hakutuloksia. Mutta millä tavalla hakutulokset sitten paranevat? Tosiasia kuitenkin on, että Google toimii aika hyvin. Sanahaun lisäksi se osaa jopa jossain määrin vastata kysymyksiin. Jos tiedustelen, milloin Suomi itsenäistyi, saan välittömästi oikean vastauksen.

Toisaalta monet semanttiseen hakuun liitetyt odotukset ovat ylimitoitettuja. Kone on kuitenkin aina kone, eikä opi täysin ymmärtämään ihmistä. Paraskaan semanttinen hakupalvelu ei osaa vastata, jos siltä kysytään vaikkapa “Millainen olisi minulle parhaiten soveltuva lomamatka?”

Juuri äsken lukemani artikkeli kuitenkin valaisi minulle, mihin semanttista webiä tarvitaan. Sitä tarvitaan, jotta voidaan esittää relaatiokyselyjä webiin. SQL-tietokantakielellä ilmaistuna: SELECT * FROM Web.

Tai oikeastaan juuri nimenomaan tuota kyselyä ei esitetä. Relaatiokyselyjen idea on, että koska kaikki relaatiotietokannassa olevien asioiden väliset suhteet tiedetään, voidaan hakea hyvin eksaktisti juuri halutut asiat, eikä mitään ylimääräistä.

Käytännön esimerkki voisi olla vaikkapa seuraava: “Ketkä kaikki Keskustan kansanedustajat jättivät ilmoittamatta tai ilmoittivat vain osittain eduskuntavaaleihin 2007 saamansa vaalituen määrän.” Tällaiseen kysymykseen ei Google pysty vastaamaan, mutta relaatiotietokannasta tieto löytyy vaivatta.

Tällainen hakukone voisi todella olla Googlen tappaja. Miksei sellaista ole vielä olemassa? Syy ei ole siinä, että hakualgoritmi olisi niin vaikea toteuttaa. Tarvittava hakuteknologia on ollut olemassa jo pitkään.

Ongelma on nimeämisessä. Web on massiivinen tietovarasto, jota ei ole järjestetty millään tavalla. Sen organisoiminen edes etäisesti relaatiotietokantaa muistuttavaan muotoon tuntuu lähes mahdottomalta urakalta, varsinkaan kun nimeämispolitiikasta on vaikea päästä yksimielisyyteen. Tavaraa ja toimijoita on yksinkertaisesti niin paljon.

Silti pikku hiljaa juuri tuota tavoitetta kohti ollaan menossa. Ehkä jo muutaman vuoden päästä pystyn esittämään esimerkkikysymykseni hakukoneelle ja saan tuloksena oikean vastauksen.


06
Feb 08

Tietävätkö kaverit paremmin kuin Google?

Yksi Internetin tulevaisuutta keskeisimmin määrittävistä tekijöistä on kysymys siitä, miten tieto järjestetään ja organisoidaan tehokkaimmin – ja miten tietoa haetaan.

Aiemmassa postauksessa käsittelin yhtä mahdollista tulevaisuudennäkymää, semanttista webiä. Samaan aikaan etenee vahvasti myös toinen vallitseva suuntaus, ns. sosiaalinen haku.

Sosiaalisen haun idea on, että perinteisten hakukoneiden tuloksia painotetaan tiedoilla siitä, mitä hakijan omat sosiaaliset verkostot pitävät tärkeinä tuloksina. Tämän tiedon saamiseen on erilaisia tapoja.

Uusi israelilainen(!) yritys nimeltä Delver uskoo sosiaalisen haun voimaan. Delverin kaksi vuotta kehitteillä ollut teknologia pyrkii kartoittamaan hakijan online-lähipiirin: kaverit sosiaalisissa verkostopalveluissa, blogit jne.

Kun haussa voi ottaa mukaan vielä kavereiden kaveritkin, löytyy todennäköisesti aina joku, joka tietää jotain haetusta asiasta. Koska hakijalla on näin jokin yhteys tietolähteeseen, tuntuu informaatio luotettavammalta. Näin Delverin porukka ainakin arvelee.

Toistaiseksi Delverin haku ei ole vielä toiminnassa. Sen verran mielenkiintoiselta se kuitenkin vaikutti, että ilmoittauduin vapaaehtoiseksi betatestaajaksi. Lisää aiheesta seuraa, jos ja kun haku piakkoin avautuu testaajille.

Googlekin on herännyt. Kun vielä aiemmin firman hakujohtaja Marissa Meyer suhtautui epäilevästi sosiaaliseen hakuun ja Facebookiin sen mahdollisena toteuttajana, on hän nyt kääntänyt kelkkansa ja uskoo, että sosiaalisessa haussa on tulevaisuus. Googlen tapauksessa luonteva lähestymistapa olisi lähteä Gmailin kontaktilistasta ja laajentaa sitten kolmansien osapuolien palveluihin, kuten MySpaceen, joka jo nyt käyttää Googlen hakua.

Toisenlainen, hyvin tehokas sosiaalinen hakupalvelu on ollut toiminnassa jo pitkään. Vanhan tutun sosiaalisia kirjanmerkkejä ylläpitävän del.icio.usin tietokantaan voi suorittaa tehokkaita hakuja käyttäjien kirjanmerkkeihin liittämien tägien perusteella. Tulosten priorisoinnissa voidaan käyttää hyväksi tietoa siitä, kuinka moni on lisännyt kyseisen linkin listalleen.

Del.icio.usissa on myös mahdollista verkostoitua muiden käyttäjien kanssa, mutta toistaiseksi verkostoa ei juuri hyödynnetä hakuominaisuudessa. Tämä toisi hakuun vielä uuden sosiaalisen ulottuvuuden: sen voisi ulottaa koskemaan pelkästään ystävien tai näiden ystävien linkkejä.

Myös semanttista webiä kehitettäessä aletaan ottaa huomioon sosiaalisen haun mahdollisuuksia. FinnONTO-hankkeen juuri julkistettu jatkoprojekti on nimeltään Semantic Web 2.0. Sen tavoitteena on pyrkiä yhdistämään semanttisen webin tekniikat sosiaaliseen mediaan.

Kuulostaa juuri sellaiselta pelinavaukselta, jota semanttinen web tarvitsee päästäkseen tunkkaisista tutkijankammioista kaiken kansan työkaluksi. Toivottavasti kaunis ajatus pystytään myös konkretisoimaan käytännön palveluiksi.


23
Jan 08

Semanttiset hakukoneet tulevat

Puhuttaessa internetin tulevaisuudesta tai “web 3.0″:sta mainitaan usein yhtenä mahdollisena kehityssuuntana siirtyminen kohti semanttista webiä. Tavoitteena on saada hakukoneet todella ymmärtämään, mistä sisällöissä on kysymys, ja saada näin parempia hakutuloksia.

Jo 2004 kehitettiin Swoogle, joka yhdistää Googlen haku- ja pagerank-algoritmien piirteitä semanttisen webin dokumenttien hakuun. Tavalliselle tiedonhakijalle siitä ei kuitenkaan ainakaan toistaiseksi ole paljon iloa, sillä semanttisesti järjestetyn tiedon määrä on vielä melko vähäinen. RDF-muotoisten dokumenttien lukeminen ei myöskään onnistu suoraan selaimella, vaan siihen tarvitsee erillisen ohjelmiston.

Mielenkiintoinen uusi tulokas on israelilainen SemantiNet, joka pyrkii tekemään täysin uudenlaisen, semanttisiin tekniikoihin perustuvan hakupalvelun. Toistaiseksi palvelua ei kuitenkaan ole vielä olemassa, eikä tekniikastakaan kerrota tarkemmin. Yritys sai kuitenkin hiljattain 1,7 miljoonaa dollaria riskirahaa, joten ehkä firma on todella tehnyt jonkin suuren innovaation.

Toisenlaisen lähestymistavan on valinnut Mahalo, joka mainostaa itseään sanoilla “human-powered search engine”. Se ei hyödynnä semanttisen webin teknologiaa lainkaan, vaan sen ytimessä ovat linkit, jotka yrityksen työntekijät ovat merkinneet “hyviksi”. Ideana on suodattaa vähemmän relevantit hakutulokset pois. Esimerkiksi hakiessa tietoja jostakin tuotetyypistä suodattuisivat turhat mainokset pois, ja jäljelle jäisi vain oleellinen. Jos arkistossa ei ole “hyviä” linkkejä haetusta aiheesta, näytetään Googlen ensimmäiset osumat.

Mahalon idea kuulostaa kovin tutulta. Suurin piirtein samalla ideallahan toimii esimerkiksi Yahoo! Directory, joka eli kukoistuskauttaan 2000-luvun taitteessa. Siitä on kuitenkin aika jättänyt. Web laajenee valtavaa vauhtia, joten tarvittaisiin valtava määrä ihmisiä tiedon manuaaliseen organisointiin. Samaan aikaan monet linkit vanhenevat nopeasti, joten tuloksia täytyisi jatkuvasti tarkistaa. Tähän kaatui Yahoo! Directory ja hieman epäilen, että sama kohtalo saattaa odottaa myös Mahaloa.

Jos semanttinen web kiinnostaa, on nyt oiva aika ottaa selvää, missä suomalainen tutkimus on menossa. Viisivuotisen FinnONTO – Suomalaiset semanttisen webin ontologiat -hanke on päättynyt ja sen tulokset julkistetaan perjantaina Semanttinen web kansalliseksi voimavaraksi -tapahtumassa Otaniemessä.

Itse en valitettavasti ole paikkakunnalla enkä siis pääse paikalle. Se harmittaa, sillä olin jo viittä vaille lähdössä mukaan hankkeen toteuttamiseen viime keväänä, kunnes Hongkongin reissu tuli väliin. Odotan kuitenkin mielenkiinnolla, millaisia tuloksia projektissa on saatu ja käynnistääkö hanke mahdollisesti jatkotutkimusta. Toivottavasti. Jos semanttinen web todella on “web 3.0:n” keskeinen elementti, siihen kannattaa panostaa nyt.