Det semantiske internet - indholdsbaseret søgning

I takt med internettets udvidelse opstår et øget behov for intelligente søgemaskiner til fremskaffelse af relevant information. I dag arbejdes og forskes der i at udvikle internettet i retning af et semantisk internet, hvori man i højere grad tillægger ord betydning. Popolært siges det, at hvor internettets indhold i dag er designet for mennesker, vil det semantiske net i højere grad gøre det muligt for computere, herunder søgemaskiner, at "forstå" data. I projektet skal et system til indholdsbaseret søgning i tekstdata ved brug af begrebshierarkier, også kaldet ontologier, beskrives og konstrueres. Systemet vil kunne udgøre et muligt element i det semantiske net.

Projektet kan naturligt opdeles i følgende punkter:
1. Udvælg et passende domæne (=emneområde) (fx elektronisk handel eller dyreverdenen) og fremskaf relevant tekstmateriale inden for området. Materialet skal opdeles i en række små artikler, der skal fungere som testdata.
2. Udvælg de relevante begreber for domænet og inddel dem i over- og underbegreber samt synonymbegreber. Det svarer til at opstille et begrebshierarki for domænet.
3. Konstruer et simpelt forespørgselssystem, der kan udvælge de artikler hvori et enkelt forespørgselsbegreb forekommer.
4. Udvid systemet så det kan håndtere mere komplicerede forespørgsler bestående af flere begreber. Systemet skal ved brug af begrebshierarkiet returnere de mest relevante artikler hvori begreberne forekommer. Dette kræver opstilling af en passende søgestrategi, beskrevet som en algoritme.

Der findes en populærbeskrivelse af det semantiske net på: http://www.sciam.com/2001/0501issue/0501berners-lee.html

Opgavestillere

Ph.d.-studerende Nikolaj Oldager
IMM/CST, bygn. 322, lok. 120, tlf. 4525 3717, Email: sno@imm.dtu.dk

Lektor Hans Bruun,
IMM/CST, bygn. 322, lok. 117, tlf. 4525 3709, Email: hab@imm.dtu.dk