[tilbakemelding] [Gisle Hannemyrs hjemmeside] [opp] [forrige] [neste]

DEN SEMANTISKE VEVEN

Verdensveven er ikke et bibliotek, men den kan bli det

av Gisle Hannemyr

Det er nå mer en ti år siden Tim Berners-Lee første gang slapp løs World Wide Web og dermed skapte den største omveltningen siden Guten­berg i hvordan vi reproduser og distribuerer informasjon. Nå foreslår han at verden tar det neste steget på veien mot informasjonssamfunnet.  Konseptet han nå forsøker å få aksept for er «den semantiske veven».

World Wide Web brakte med seg så mange endringer i forhold til tradisjonelle medier som bøker og fjernsyn at det ikke er plass til å beskrive alle her. Men en av de viktigste endringene som World Wide Web, sammen med den underliggende infrastrukturen vi kaller Internett, brakte med seg var, på godt og ondt, en enorm demokratisering i adgang til å være «utgiver». Mens man før helst burde eie et forlagshus og ha adgang til et større distribusjonsapparat gjennom biblioteker og bokhandler for å kunne publisere noe som hadde nedslagsfelt utenfor den nære familie og vennekrets, ga World Wide Web sammen med Internett enhver med en datamaskin og minimale kunnskaper om å bruke et redigeringsprogram et redskap der man bokstavelig talt for noen få hundrelapper hadde adgang til et medium og et distribusjonsapparat som hadde hele verden som sitt nedslagsfelt.

Resultatet har blitt en eksplosjon av publikasjoner. Legger vi sammen det antall «sider» med tekst som i dag ligger offentlig tilgjengelig i World Wide Web, så dreier det seg om mer enn 7 milliarder. Det er langt flere sider enn det som for tiden befinner seg i verdens største bibliotek, amerikanske Library of Congress.

Likevel er det feil å sammenligne World Wide Web med en bibliotek. I et bibliotek er verkene i samlingen kategorisert og katalogisert, og de administreres av en kunnskapsrik stab som kan hjelpe brukerne til rette i informasjonsjungelen. Ikke noe av dette finner vi på verdensveven. Selv slike selvsagte kategorier i bibliotekssammenheng som «forfatter» og «utgiver» kan det være en utfordring å finne ut av når vi står foran en nettpublikasjon.

Det er dette problemet som Tim Berners-Lee håper den semantiske veven skal bøte på. Ordet semantikk betegner blant annet forholdet mellom en tekst og dens mening. Det er viktig å understreke at ordet «mening» her brukes om (tilsynelatende) ganske banale sammenhenger. Det er ikke snakk om å avdekke hva som «egentlig» menes med en komplisert litterær tekst, men å kunne fastslå enkle sammenhenger, som for eksempel at teksten «Gisle Hannemyr» som du finner øverst på denne siden faktisk angir hvem som har forfattet teksten.

I dag kan du gå inn i et hvilket som helst bibliotek og lett finne de bøker som en bestemt forfatter står bak. Å søke etter en bestemt forfatter på World Wide Web er langt mer vanskelig. Ingen av de store søkemotorene lar deg spesifisere forfatter eksplisitt. Du kan riktignok finne en del slike tekster ved å søke på forfatterens navn, men noen pålitelig metode er det ikke. Søker du for eksempel på «George W. Bush» finner du stort sett bare medieomtaler av mannen - og ikke de sparsomme ytringene som han selv (i det minste på papiret) står som forfatter av.

For å realisere den semantiske veven har World Wide Web Consortium (W3C) tatt fram to nye teknologier: XML (eXtensible Markup Language) og RDF (Resource Description Framework).

XML er, som HTML, et markeringsspråk. Mens HTML er statisk, er XML, som navnet tilsier, utvidbart. Det betyr at XML gjør det mulig å lage helt nye markeringer. XML er også objektorientert og tilbyr oss en lang rekke nyttige anvendelser som det ikke er plass til å komme inn på her. Her skal vi i stedet konsentrere oss om en bestemt teknologi som lar seg realisere i XML, nemlig RDF.

Kort fortalt er RDF er et rammeverk, tuftet på XML, som gjør det mulig å uttrykke enkle, meningsfylte utsagn om dokumenter (dvs. ressurser) som befinner seg på verdensveven (og også andre steder). Et utsagn i RDF retter seg alltid mot en URI (Universal Resource Identifier). Skjemaet for RDF er alltid basert på følgende enkle triplett: Ressurs X har egenskap Y med verdi Z. For eksempel kan forfatterskap uttrykkes slik: Dokument med URI http://hannemyr.com/ har egenskapen «forfatter» som har som verdi «Gisle Hannemyr».

Et problem gjenstår imidlertid. Mens du og jeg sannsynligvis har en rimelig god forståelse av hva begrepet «forfatter» innebærer, så er dette uttrykket for en datamaskin bare en samling tegn uten noen særlig mening. For at maskinene skal forstå meningen med et RDF-utsagn må maskinene vite om hvilke egenskaper som eksisterer og hva betydningen av disse egenskapene er.

XML gjør også dette mulig ved å tillate de som skaper nye markeringer å registrere navnerom (namespaces) og i den forbindelse gjøre det klart hvordan ymse begreper er å forstå innenfor det angitte navnerommet.  Dermed blir det heller ikke lenger noe problem om ulike aktører bruker samme navn på ulike egenskaper, så lenge disse befinner seg i disjunkte navnerom.

Det er mulig (og til og med enkelt) å opprette private navnerom for anvendelser som ekstranett og intranett, der aktører i en liten gruppe blir enig om hvilke egenskaper som skal karakterisere ressursene og hvordan disse skal forstås.

I tillegg finnes det store og globale navnerom, som det er meningen at alle som ønsker å støtte opp om den semantiske veven skal dele. RDF og de markeringene som inngår selv er et slikt navnerom, som forvaltes av W3C. Et annet viktig navnerom i denne forbindelse er Dublin Core (dc) som administreres av Dublin Core Metadata Initiative (les mer på dublincore.org). Dette er et internasjonalt konsortium som arbeider med å definere en «kjerne» med egenskaper som stort sett samsvarer med de kategorier bøker er klassifisert etter i et godt bibliotek (opphavs­person, utgiver, utgivelsesdato, osv.).

Det er enda for tidlig å si om det noen gang vil lykkes Tim Berners-Lee og venner å skape den semantiske veven. Mine egne undersøkelser av tingens tilstand indikerer at så langt er det dessverre svært få som faktisk bruker de mulighetene som XML og RDF innbyr til når de publiserer sitt materiale på web. En forklaring er nok at de publiseringsverktøyene som eksisterer fortsatt har dårlig støtte for akkurat dette. Jeg vil imidlertid benytte anledningen til å oppfordre de av spaltens lesere som er engasjert i webpublikasjon til å se nærmere på XML og RDF, og forsøke å finne ut av hvordan de kan bruke dette i sitt eget arbeide.


Creative Commons License Først publisert i: PC World Norge, nr. 4, 2002, s. 12.
Copyright © 2002 Gisle Hannemyr. Noen rettigheter reservert. Dette verket er tilgjengelig under en Creative Commons Navngivelse-Ikkekommersiell-Del på samme vilkår 3.0 Lisens.


[Engelsk innholdsfortegnelse] [Norsk innholdsfortegnelse]
[tilbakemelding] [Gisle Hannemyrs hjemmeside] [opp] [forrige] [neste]