Tähän päivään asti minulle on ollut jossain määrin epäselvää se, mitä hyötyä semanttisesta hakukoneesta oikeasti olisi.
Hyvä on, tiedän, semanttisuus mahdollistaa sen, että kone oikeasti ymmärtää tekstien sisällön ja tuottaa sen perusteella relevantteja hakutuloksia. Mutta millä tavalla hakutulokset sitten paranevat? Tosiasia kuitenkin on, että Google toimii aika hyvin. Sanahaun lisäksi se osaa jopa jossain määrin vastata kysymyksiin. Jos tiedustelen, milloin Suomi itsenäistyi, saan välittömästi oikean vastauksen.
Toisaalta monet semanttiseen hakuun liitetyt odotukset ovat ylimitoitettuja. Kone on kuitenkin aina kone, eikä opi täysin ymmärtämään ihmistä. Paraskaan semanttinen hakupalvelu ei osaa vastata, jos siltä kysytään vaikkapa “Millainen olisi minulle parhaiten soveltuva lomamatka?”
Juuri äsken lukemani artikkeli kuitenkin valaisi minulle, mihin semanttista webiä tarvitaan. Sitä tarvitaan, jotta voidaan esittää relaatiokyselyjä webiin. SQL-tietokantakielellä ilmaistuna: SELECT * FROM Web.
Tai oikeastaan juuri nimenomaan tuota kyselyä ei esitetä. Relaatiokyselyjen idea on, että koska kaikki relaatiotietokannassa olevien asioiden väliset suhteet tiedetään, voidaan hakea hyvin eksaktisti juuri halutut asiat, eikä mitään ylimääräistä.
Käytännön esimerkki voisi olla vaikkapa seuraava: “Ketkä kaikki Keskustan kansanedustajat jättivät ilmoittamatta tai ilmoittivat vain osittain eduskuntavaaleihin 2007 saamansa vaalituen määrän.” Tällaiseen kysymykseen ei Google pysty vastaamaan, mutta relaatiotietokannasta tieto löytyy vaivatta.
Tällainen hakukone voisi todella olla Googlen tappaja. Miksei sellaista ole vielä olemassa? Syy ei ole siinä, että hakualgoritmi olisi niin vaikea toteuttaa. Tarvittava hakuteknologia on ollut olemassa jo pitkään.
Ongelma on nimeämisessä. Web on massiivinen tietovarasto, jota ei ole järjestetty millään tavalla. Sen organisoiminen edes etäisesti relaatiotietokantaa muistuttavaan muotoon tuntuu lähes mahdottomalta urakalta, varsinkaan kun nimeämispolitiikasta on vaikea päästä yksimielisyyteen. Tavaraa ja toimijoita on yksinkertaisesti niin paljon.
Silti pikku hiljaa juuri tuota tavoitetta kohti ollaan menossa. Ehkä jo muutaman vuoden päästä pystyn esittämään esimerkkikysymykseni hakukoneelle ja saan tuloksena oikean vastauksen.
Yksi Internetin tulevaisuutta keskeisimmin määrittävistä tekijöistä on kysymys siitä, miten tieto järjestetään ja organisoidaan tehokkaimmin - ja miten tietoa haetaan.
Aiemmassa postauksessa käsittelin yhtä mahdollista tulevaisuudennäkymää, semanttista webiä. Samaan aikaan etenee vahvasti myös toinen vallitseva suuntaus, ns. sosiaalinen haku.
Sosiaalisen haun idea on, että perinteisten hakukoneiden tuloksia painotetaan tiedoilla siitä, mitä hakijan omat sosiaaliset verkostot pitävät tärkeinä tuloksina. Tämän tiedon saamiseen on erilaisia tapoja.
Uusi israelilainen(!) yritys nimeltä Delver uskoo sosiaalisen haun voimaan. Delverin kaksi vuotta kehitteillä ollut teknologia pyrkii kartoittamaan hakijan online-lähipiirin: kaverit sosiaalisissa verkostopalveluissa, blogit jne.
Kun haussa voi ottaa mukaan vielä kavereiden kaveritkin, löytyy todennäköisesti aina joku, joka tietää jotain haetusta asiasta. Koska hakijalla on näin jokin yhteys tietolähteeseen, tuntuu informaatio luotettavammalta. Näin Delverin porukka ainakin arvelee.
Toistaiseksi Delverin haku ei ole vielä toiminnassa. Sen verran mielenkiintoiselta se kuitenkin vaikutti, että ilmoittauduin vapaaehtoiseksi betatestaajaksi. Lisää aiheesta seuraa, jos ja kun haku piakkoin avautuu testaajille.
Googlekin on herännyt. Kun vielä aiemmin firman hakujohtaja Marissa Meyer suhtautui epäilevästi sosiaaliseen hakuun ja Facebookiin sen mahdollisena toteuttajana, on hän nyt kääntänyt kelkkansa ja uskoo, että sosiaalisessa haussa on tulevaisuus. Googlen tapauksessa luonteva lähestymistapa olisi lähteä Gmailin kontaktilistasta ja laajentaa sitten kolmansien osapuolien palveluihin, kuten MySpaceen, joka jo nyt käyttää Googlen hakua.
Toisenlainen, hyvin tehokas sosiaalinen hakupalvelu on ollut toiminnassa jo pitkään. Vanhan tutun sosiaalisia kirjanmerkkejä ylläpitävän del.icio.usin tietokantaan voi suorittaa tehokkaita hakuja käyttäjien kirjanmerkkeihin liittämien tägien perusteella. Tulosten priorisoinnissa voidaan käyttää hyväksi tietoa siitä, kuinka moni on lisännyt kyseisen linkin listalleen.
Del.icio.usissa on myös mahdollista verkostoitua muiden käyttäjien kanssa, mutta toistaiseksi verkostoa ei juuri hyödynnetä hakuominaisuudessa. Tämä toisi hakuun vielä uuden sosiaalisen ulottuvuuden: sen voisi ulottaa koskemaan pelkästään ystävien tai näiden ystävien linkkejä.
Myös semanttista webiä kehitettäessä aletaan ottaa huomioon sosiaalisen haun mahdollisuuksia. FinnONTO-hankkeen juuri julkistettu jatkoprojekti on nimeltään Semantic Web 2.0. Sen tavoitteena on pyrkiä yhdistämään semanttisen webin tekniikat sosiaaliseen mediaan.
Kuulostaa juuri sellaiselta pelinavaukselta, jota semanttinen web tarvitsee päästäkseen tunkkaisista tutkijankammioista kaiken kansan työkaluksi. Toivottavasti kaunis ajatus pystytään myös konkretisoimaan käytännön palveluiksi.
Puhuttaessa internetin tulevaisuudesta tai “web 3.0″:sta mainitaan usein yhtenä mahdollisena kehityssuuntana siirtyminen kohti semanttista webiä. Tavoitteena on saada hakukoneet todella ymmärtämään, mistä sisällöissä on kysymys, ja saada näin parempia hakutuloksia.
Jo 2004 kehitettiin Swoogle, joka yhdistää Googlen haku- ja pagerank-algoritmien piirteitä semanttisen webin dokumenttien hakuun. Tavalliselle tiedonhakijalle siitä ei kuitenkaan ainakaan toistaiseksi ole paljon iloa, sillä semanttisesti järjestetyn tiedon määrä on vielä melko vähäinen. RDF-muotoisten dokumenttien lukeminen ei myöskään onnistu suoraan selaimella, vaan siihen tarvitsee erillisen ohjelmiston.
Mielenkiintoinen uusi tulokas on israelilainen SemantiNet, joka pyrkii tekemään täysin uudenlaisen, semanttisiin tekniikoihin perustuvan hakupalvelun. Toistaiseksi palvelua ei kuitenkaan ole vielä olemassa, eikä tekniikastakaan kerrota tarkemmin. Yritys sai kuitenkin hiljattain 1,7 miljoonaa dollaria riskirahaa, joten ehkä firma on todella tehnyt jonkin suuren innovaation.
Toisenlaisen lähestymistavan on valinnut Mahalo, joka mainostaa itseään sanoilla “human-powered search engine”. Se ei hyödynnä semanttisen webin teknologiaa lainkaan, vaan sen ytimessä ovat linkit, jotka yrityksen työntekijät ovat merkinneet “hyviksi”. Ideana on suodattaa vähemmän relevantit hakutulokset pois. Esimerkiksi hakiessa tietoja jostakin tuotetyypistä suodattuisivat turhat mainokset pois, ja jäljelle jäisi vain oleellinen. Jos arkistossa ei ole “hyviä” linkkejä haetusta aiheesta, näytetään Googlen ensimmäiset osumat.
Mahalon idea kuulostaa kovin tutulta. Suurin piirtein samalla ideallahan toimii esimerkiksi Yahoo! Directory, joka eli kukoistuskauttaan 2000-luvun taitteessa. Siitä on kuitenkin aika jättänyt. Web laajenee valtavaa vauhtia, joten tarvittaisiin valtava määrä ihmisiä tiedon manuaaliseen organisointiin. Samaan aikaan monet linkit vanhenevat nopeasti, joten tuloksia täytyisi jatkuvasti tarkistaa. Tähän kaatui Yahoo! Directory ja hieman epäilen, että sama kohtalo saattaa odottaa myös Mahaloa.
Jos semanttinen web kiinnostaa, on nyt oiva aika ottaa selvää, missä suomalainen tutkimus on menossa. Viisivuotisen FinnONTO - Suomalaiset semanttisen webin ontologiat -hanke on päättynyt ja sen tulokset julkistetaan perjantaina Semanttinen web kansalliseksi voimavaraksi -tapahtumassa Otaniemessä.
Itse en valitettavasti ole paikkakunnalla enkä siis pääse paikalle. Se harmittaa, sillä olin jo viittä vaille lähdössä mukaan hankkeen toteuttamiseen viime keväänä, kunnes Hongkongin reissu tuli väliin. Odotan kuitenkin mielenkiinnolla, millaisia tuloksia projektissa on saatu ja käynnistääkö hanke mahdollisesti jatkotutkimusta. Toivottavasti. Jos semanttinen web todella on “web 3.0:n” keskeinen elementti, siihen kannattaa panostaa nyt.