30
May 08

SELECT * FROM Web

Tähän päivään asti minulle on ollut jossain määrin epäselvää se, mitä hyötyä semanttisesta hakukoneesta oikeasti olisi.

Hyvä on, tiedän, semanttisuus mahdollistaa sen, että kone oikeasti ymmärtää tekstien sisällön ja tuottaa sen perusteella relevantteja hakutuloksia. Mutta millä tavalla hakutulokset sitten paranevat? Tosiasia kuitenkin on, että Google toimii aika hyvin. Sanahaun lisäksi se osaa jopa jossain määrin vastata kysymyksiin. Jos tiedustelen, milloin Suomi itsenäistyi, saan välittömästi oikean vastauksen.

Toisaalta monet semanttiseen hakuun liitetyt odotukset ovat ylimitoitettuja. Kone on kuitenkin aina kone, eikä opi täysin ymmärtämään ihmistä. Paraskaan semanttinen hakupalvelu ei osaa vastata, jos siltä kysytään vaikkapa “Millainen olisi minulle parhaiten soveltuva lomamatka?”

Juuri äsken lukemani artikkeli kuitenkin valaisi minulle, mihin semanttista webiä tarvitaan. Sitä tarvitaan, jotta voidaan esittää relaatiokyselyjä webiin. SQL-tietokantakielellä ilmaistuna: SELECT * FROM Web.

Tai oikeastaan juuri nimenomaan tuota kyselyä ei esitetä. Relaatiokyselyjen idea on, että koska kaikki relaatiotietokannassa olevien asioiden väliset suhteet tiedetään, voidaan hakea hyvin eksaktisti juuri halutut asiat, eikä mitään ylimääräistä.

Käytännön esimerkki voisi olla vaikkapa seuraava: “Ketkä kaikki Keskustan kansanedustajat jättivät ilmoittamatta tai ilmoittivat vain osittain eduskuntavaaleihin 2007 saamansa vaalituen määrän.” Tällaiseen kysymykseen ei Google pysty vastaamaan, mutta relaatiotietokannasta tieto löytyy vaivatta.

Tällainen hakukone voisi todella olla Googlen tappaja. Miksei sellaista ole vielä olemassa? Syy ei ole siinä, että hakualgoritmi olisi niin vaikea toteuttaa. Tarvittava hakuteknologia on ollut olemassa jo pitkään.

Ongelma on nimeämisessä. Web on massiivinen tietovarasto, jota ei ole järjestetty millään tavalla. Sen organisoiminen edes etäisesti relaatiotietokantaa muistuttavaan muotoon tuntuu lähes mahdottomalta urakalta, varsinkaan kun nimeämispolitiikasta on vaikea päästä yksimielisyyteen. Tavaraa ja toimijoita on yksinkertaisesti niin paljon.

Silti pikku hiljaa juuri tuota tavoitetta kohti ollaan menossa. Ehkä jo muutaman vuoden päästä pystyn esittämään esimerkkikysymykseni hakukoneelle ja saan tuloksena oikean vastauksen.


18
May 08

Nettiyhteisöt: kuka on Suomen suurin?

Suomessa on kaksi maan suurinta verkkoyhteisöä: Suomi24 ja IRC-Galleria. Näin ainakin, jos uskoo yhteisöjen omia mainoslauseita. IRC-galleria tosin käyttää sanamuotoa “Internet-yhteisö”, mutta näiden termien välille en ainakaan minä keksi merkityseroja.

Kiinnostavaa olisi tietää, millä yhteisöt väitteitään perustelevat. Suuruutta kun voi mitata monella mittarilla. Kaksi selkeintä ovat rekisteröityneiden käyttäjien määrä ja päivittäisten/viikottaisten/kuukausittaisten kävijöiden määrä. Näistä jälkimmäinen antaa mielestäni paremmin todellisuutta vastaavan kuvan. Miljoonasta rekisteröityneestä käyttäjästä ei ole paljon iloa, jos kukaan heistä ei palvelua (enää) käytä.

Muita mahdollisia mittareita ovat esimerkiksi käyttäjien palvelussa viettämä aika sekä palvelun kasvuvauhti.

Olisi kiinnostavaa saada näistä jotain lukuja. IRC-galleria käyttää mainonnassaan mielellään puolta miljoonaa hipovaa rekisteröityneiden käyttäjien määrää. Suomi24:stä en heti saanut vastaavaa tietoa irti. Luotettavaa dataa päivittäisten käyttäjien määrästä ei taida kertoa kumpikaan. Jos joku tietää, mistä moisen tiedon saisi selville, vinkatkaa ihmeessä.

On myös syytä pohtia, mitä tarkoittaa “Suomen suurin”. Jos se tarkoittaa suomalaisten perustamaa/omistamaa niin hyvä. Mutta jos sillä tarkoitetaan palvelua, jota suomalaiset käyttävät eniten, ei voittajaksi taida yltää kumpikaan kilpakumppaneista.

Tällä hetkellä suurin osa suomalaisista viettää aikaansa ennen muuta Facebookissa. Palvelussa on tällä hetkellä rekisteröityneenä hieman yli 400 000 suomalaista. Se ei siis vielä aivan yllä IRC-gallerian tasolle, mutta lähestyy uhkaavasti.

Lukujen puutteessa valistunut arvaukseni on, että kaikilla muilla mittareilla Facebook vie voiton. Sillä on eniten päivittäisiä kävijöitä, sen parissa vietetään eniten aikaa, ja kasvuvauhti on viimeaikaisesta hidastumisesta huolimatta edelleen huomattavasti kovempi kuin IRC-gallerialla.

Sekä Facebookin että IRC-gallerian käyttäjänä ennustan, että “Galtsu” tulee kuolemaan kolmen seuraavan vuoden kuluessa. Facebook on kerta kaikkiaan ominaisuuksiltaan niin paljon parempi, etten näe Galtsun olemassaololle enää tarkoitusta. Viimeisetkin palvelua käyttävät teinit siirtyvät Facebookiin viimeistään aloittaessaan opiskelun.

Suomi24 selvinnee paremmin. Aktiivisine keskustelupalstoineen ja uutispalveluineen se ei ole Facebookin suora kilpailija, vaan palvelut täyttävät hieman erilaisia tarpeita. Silti sekin alkaa olla palveluna vanhentunut.

Kolme vuotta on pitkä aika. Voi olla, ettei kukaan enää silloin käytä Facebookiakaan. Joka tapauksessa varmaa on, että “Suomen suurimmat” Suomi24 ja IRC-galleria joutuvat tekemään todella radikaaleja uudistuksia hyvinkin pian, jos haluavat pysyä kelkassa mukana.

EDIT 15.7.2008 TNS Gallupin sivuilla on listaus suomalaisten web-sivustojen viikkoluvusta. Niiden mukaan Suomi24 päihittää Galtsun. Facebookia listalta ei valitettavasti löydy, sen luvut olisi hauska saada vertailukohdaksi. Kiitos linkistä Karille.


07
May 08

Ilmaisuus yllätti ilmaisuusaktivistit

Ilmaisuus on seuraava iso juttu. Näin väittää ainakin The Long Tail -kirjasta tuttu Chris Anderson tulevassa opuksessaan Free. Andersonin perusväittämä on, että perinteiset ansaintalogiikat muuttuvat, kun yhä useammat palvelut ovat ilmaiseksi käyttäjien saatavilla.

Ja toden totta: ilmaiseksi tarjotaan nykyisin muun muassa pelejä, ohjelmistoja, musiikkia ja kännykkäliittymiä ja autojakin saa aika halvalla. Vaikka tekijänoikeusjärjestöt haraavatkin musiikin ja elokuvien suhteen vastaan, joutuvat ne kuitenkin perääntymään askel askeleelta.

Siirtymä uuteen ajattelutapaan ei kuitenkaan ole helppo. Ilmaisuuden suurimpia puolestapuhujia ovat tyypillisesti bloggaajat. Nyt heidätkin on kuitenkin yllättänyt se, mitä ilmaisuusajattelu todella tarkoittaa.

Uudehkon sosiaalisen verkostopalvelun Shyftrin keskeinen ajatus on, että käyttäjät pystyvät sen kautta jakamaan toisilleen mitä tahansa RSS-feedejä. Kuka tahansa voi siis tarjota omassa profiilissaan muille mitä tahansa sisältöä, jonka ovat kirjoittaneet aivan muut tahot.

Blogiversumi älähti. Bloggaajien mukaan heiltä ei saa noin vain riistää oikeutta tekstiinsä, vaikka monien mielestä esimerkiksi musiikintekijät eivät tätä oikeutta tarvitse.

Suurin piirtein samasta asiasta on kyse saksalaisen yhtiön hankkeessa julkaista Wikipedian parhaita artikkeleita kirjamuodossa. Monet Wikipedia-aktivistit ovat suuttuneet, koska eivät saa osaansa kirjojen tuotoista. Ainoastaan Wikipedia-säätiö saa euron jokaisesta myydystä julkaisusta.

Voi kysyä, onko aktivistien suuttumuksella perusteita. Kaikki tieto on edelleen saatavissa ilmaiseksi Wikipediasta. Kirjat ainoastaan tuovat tiedon uusien ihmisten ulottuville. Samaa voi sanoa Shyftristä ja sen feedeistä. Molemmissa tapauksissa tiedon etsijät voittavat: tietoa on tarjolla enemmän ja monipuolisemmin kuin aiemmin.

On toki myönnettävä, että vaikeita kysymyksiä on vielä ratkaisematta. Sisällöntuottajien on jatkossakin syötävä. Vielä ei ole täysin selvää, millä tavoin työn tuloksilla ansaitseminen onnistuu jatkossa. Ehdotuksia uudenlaisiksi ansaintamalleiksi on kuitenkin olemassa. Tätä aihetta pohdin laajemmin tulevassa postauksessa.