Seminar om mapping til Dewey

Nasjonalbiblioteket, i samarbeid med HiOA, og med innspill fra NKKI, planlegger et heldagsseminar den 11. juni 2012 med temaet mapping av andre vokabularer til Dewey.

Her er det tenkt flere presentasjoner med ulike perspektiver på mapping, blant andre en oversikt over mappingarbeid gjort i ulike bibliotek i verden og en presentasjon om aktuelt internasjonalt arbeid med å standardisere mappingrelasjoner (ISO 25964-2). I tillegg kommer Ingrid Berg og Pia Leth fra Kungliga biblioteket for å fortelle om sine erfaringer med å mappe SÄO til Dewey.

Etter presentasjonene kommer vi til å arbeide videre i mindre grupper med ulike temaer.

Seminaret vil være åpent for alle, og fullstendig program med påmeldingsinformasjon kommer etter hvert.

Håper dette kan være interessant for deg!

1 kommentar

Prosjekt om Dewey Linked data

I fire uker før jul hadde vi på Nasjonalbiblioteket en student fra DILL-programmet (International Digital Library Learning) ved HiOAK som praktikant. Praktikanten var nederlandske Hugo Huurdeman. DILL-programmet er et mastertilbud til personer som har studert/jobber innen informatikk, og som vil lære om digitale bibliotek. Hugo har fra før en mastergrad i informatikk. Han var interessert i å lære mer om rdf-representasjonene av Dewey-systemet og om SPARQL-spørringer. Til prosjektet sitt lagde han et søkegrensesnitt som bygget på Dewey Linked data og Linked data fra Freebase

Prosjektet finner du her: http://www.timelessfuture.com/apps/semanticsearch/

Der kan en søke etter ord fra klassebetegnelsene i de tre øverste nivåene i Dewey-hierarkiet (det vil si 000, 001, 002, 003, 004 etc. til 999)

Man kan klikke på enkelte ord i klassebetegnelsene, og sende et søk videre til Freebase. For eksempel kan du søke på ”craft” og trykke på ”hovercraft”. Da søker du videre i Freebase og får opp ulike emner som inneholder eller relaterer direkte til ordet hovercraft.

Du kan også velge å søke videre på klassifikasjonsnummeret i Worldcat ved å trykke på Worldcatlogoen ved siden av emneinnførselen.

Det er imidlertid noen utfordringer med å jobbe slik med Dewey: Å vise klassebetegnelser i riktig faglig kontekst. Dette gjelder for eksempel ledelse (management) som finnes i mange ulike kontekster. Løsningen Hugo fant er å mappe Dewey-kategorier med Freebase-domener.

Resultatet av bare fire ukers arbeid ble et morsomt program som blant annet avdekker noen av utfordringene med å bruke klassebetegnelsene fra Dewey til andre ting enn klassifikasjon

Prøv dere gjerne frem!

1 kommentar

Hvordan katalogisere med dewey for at det skal kunne brukes

Med ferdigstillelsen av norsk webDewey får vi en omfattende database med strukturert, norskspråklig informasjon knyttet til hvert deweynummer. Dette kaller vi for deweydata, og et av hovedmålene våre er at deweydata skal benyttes i sluttbrukersystemer.

En av de enkleste måtene å gjøre dette på, er ved å utnytte seg av koblingen mellom ord (i klassebetegnelser, registertermer og tilmappede emneord) og numre. Dette er metoden som er brukt i det tyske søkesystemet Melvil Search, der sluttbrukere kan søke med ord og få adgang til klassifikasjonsnumre og tilhørende klassifiserte dokumenter.

Sammen med det tyske nasjonalbiblioteket og Kungliga biblioteket i Sverige, er vi nå i planleggingsfasen med å lage et nytt søkesystem (som vil bli tilgjengelig for alle) basert på Melvil Search: WebDeweySøk. Vi kommer tilbake med mer informasjon om WebDeweySøk etterhvert.

En viktig forutsetning for at deweydata kan bli utnyttet i et sluttbrukersystem er at den er registrert på riktig måte. I tillegg til selve klassifikasjonsnummeret, er det 3 viktige elementer som alltid bør med i katalogiseringen av et deweynummer, uavhengig av hvilket format som brukes i katalogiseringsarbeidet. Jeg legger til et fjerde element som strengt tatt ikke er nødvendig for å tolke nummeret, men som kan være nyttig å ha med.

  1. Utgavetype
  2. Utgavenummer
  3. Språk
  4. Institusjonen som klassifiserer

Hvorfor holder det ikke med å bare registrere nummeret? La oss si at vi har en bok som handler om medisinske aspekter ved skarlagensfeber:

Scarlet Fever: A Medical Dictionary, Bibliography, and Annotated Research Guide to Internet References / ICON Health Publications (2004)

 

Vi bruker deweyutgaven vi har for hånda og klassifiserer den i 616.91. Vi registrerer dette nummeret i den bibliografiske posten for boka (eller lager en fin RDF-trippel der nummeret blir knyttet til boka, eller …). Er det ikke nok informasjon i selve nummeret til å kunne utnyttes i søkesystemer?

1. Utgavetype

Det finnes per i dag 3 forskjellige deweyutgavetyper: forkortede utgaver, fullstendige utgaver, og midt-i-mellom utgaver (delvis forkortet, delvis fullstendig). DDK5 er et eksempel på en midt-i-mellom utgave.

Dersom vi ikke vet hvilken type utgave vi har med å gjøre, er det vanskelig å vite nøyaktig hvilke emner som dekkes av 616.91.

I DDK5, finner vi blant andre emnene meslinger, røde hunder og skarlagensfeber i 616.91.

I DDC21 (som DDK5 baserer seg på, og som er en fullstendig utgave), må vi nedover i hierarkiet til henholdsvis 616.915, 616.916 og 616.917 for å finne ovennevnte emner. 616.91 er her et overordnet nummer beregnet til oversiktsverker om sykdommer med utslett.

Hva betyr så dette? Et søkesystem basert på data fra DDC21 vil ikke uten videre kunne finne dokumenter klassifisert etter DDK5. Det vil si: et søk etter skarlagensfeber vil kun gi treff på dokumenter som er klassifisert i 616.917. Vi vil dermed ikke få treff på Scarlet Fever, som vi nettopp klassifiserte.

Men, hvis vi registrerer utgavetype sammen med deweynummeret, vil et søkesystem kunne klare å skille mellom dokumenter som er klassifisert etter fullstendig utgave, og de som er klassifisert etter forkortet eller midt-i-mellom utgave. Dermed vil søket gi treff på dokumenter som er klassifisert i 616.917 med DDC21 OG de som er klassifisert i 616.91 med DDK5.

2. Utgavenummer

Den observante leseren vil legge merke til at det finnes ulike numre i den ovennevnte omtalen av deweyutgaver. DDK5 er altså den femte midt-i-mellom utgave av Deweys desimalklassifikasjon. DDK4 og de tre Arnesen-utgavene utgjør de andre numrene i denne gruppen.

DDC21 er den 21. fullstendige utgaven av Dewey. Det finnes totalt 23 forskjellige utgaver av Dewey, og de finnes i mange forskjellige språk. (Når vi begynner å bruke norsk webDewey, tar vi i bruk den norskspråklige 23. utgave av den fullstendige Dewey).

Det finnes 15 utgaver av den forkortede Dewey, oversatt til ca 10 språk.

Med hver ny utgave, kommer det endringer i tabellene som (hovedsakelig) reflekterer endringer i verdensbildet vårt. Noen emner blir flyttet til nye fagområder, nye emner finner plass i eksisterende eller nye numre, og emner som ikke er så relevante lenger blir opphørt. Det hender også at man endrer på inndelingsprinsippene innen enkelte fag.

Et eksempel av sistnevnte finner vi nettopp i forskjellen mellom plasseringen av skarlagensfeber i DDC21 og DDC22. I DDC21 skilte man mellom sykdommer med utslett (616.91) og bakterie- og virussykdommer (616.92). De fleste sykdommer med utslett skyldes imidlertid enten bakterier eller virus. I arbeidet med DDC22, ble det bestemt at man heller skulle skille mellom bakteriesykdommer (616.92) og virussykdommer (616.91). Sykdommer med utslett som skyldes virus beholdt sine plasser, mens de som skyldes bakterier ble flyttet til underinndelinger av 616.92. Skarlagensfeber skyldes streptokokker, og fikk dermed et nytt nummer i DDC22: 616.92987.

Klassifikasjonsnumre knyttet til skarlagensfeber:

DDK4: 616.91
DDK5: 616.91
DDK21 (fullstendig): 616.917
DDC14 (forkortet): 616.9
DDC22 (fullstendig): 616.92987

[Et par ord her om webDewey kontra trykte utgaver av Dewey:

Som nevnt er norsk webDewey en oversettelse av DDC23. Det som skiller webDewey og trykte utgaver av Dewey er at mens de trykte utgavene oppdateres fra utgave til utgave, blir webutgaven kontinuerlig oppdatert. Dette innebærer at et emne kan ha to forskjellige klassifikasjonsnumre i samme utgave. Det vil på sikt være nødvendig å registrere et eller annet form for tidsstempel i tillegg til utgavenummeret, men det er per i dag ikke avklart hvordan dette best skal gjøres.  ]

3. Språk

À propos kontinuerlig oppdatering: På sikt kan det oppstå et visst etterslep i oppdateringene mellom de ulike språkutgaver av webDewey. Da vil det være helt nødvendig å vite hvilken oversettelse som ble brukt i klassifiseringen. Dette gjelder også for eventuelle avvik (som helst ikke skal forekomme, men som likevel gjør det!) i oversettelsene fra originalen og fra hverandre.

4. Institusjonen som klassifiserer

Det er flere grunner til hvorfor man bør registrere hvilken institusjon som klassifiserer. For det første, vil det muliggjøre at man på sikt lager løsninger som rangerer treff etter hvilke biblioteker har klassifisert dokumentene. Klassifikasjon er ofte sterkt knyttet til samlinger, og det kan være greit å få muligheten til å avgrense trefflister til de dokumentene som er blitt klassifisert av ens eget bibliotek.

Videre kan det nevnes at noen bibliotek velger å bruke tillatte løsninger i tabellen, mens andre lar være. Med institusjonskoder vil man kunne sette likhetstegn mellom et nummer fra en tillatt løsning og dets tilsvarende standardnummer fra tabellen.

Og til slutt (puh!): Noen eksempler på katalogiseringen av dewey

Dewey i MARC21 : felt 082

1. indikator => utgavetype (fullstendig = 0, forkortet = 1, annen (midt-i-mellom) = 7)
2. indikator => er det LoC som har klassifisert, eller ikke (ikke = 4)
$a => deweynummer
$2 => deweyutgavenummer + språk
$q => institusjonen som klassifiserer

082 74$a616.91$25/nor$qNO-OsNB => 616.91 fra norsk DDK5 klassifisert av NB
082 04$a616.917$221$qNO-BeU => 616.917 fra engelsk DDC21 klassifisert av UBB
082 74$a616.92987$223/nor$qNO-OsBA => 616.92987 fra norsk DDC23 klassifisert av Biblioteksentralen

Dewey i NORMARC : felt 082

1. indikator => utgavetype (fullstendig = 0, forkortet = 1, DDK = 3, Arnesen = 4)
2. indikator => klassifikasjonskilde (institusjonen som klassifiserer) (NB = 0, BibSent = 1, annen = 2)
$a => deweynummer
$2 => deweyutgavenummer
(OBS: her får man ikke frem språket eller andre institusjoner enn NB og BibSent)

082 30$a616.91$25 => 616.91 fra DDK5 klassifisert av NB
082 01$a616.917$221 => 616.917 fra DDC21 klassifisert av Biblioteksentralen

Dewey som en URI (til potensiell bruk i RDF)

[hvem publiserer deweydataen/tabellinformasjon/deweynummer/utgavetype og -nummer/tidsstempel/dette er en URI som beskriver nummeret, ikke selve nummeret/språk]

http://nbfiktiv.info/class/616.92987/F23/2012/03/about.no

(OBS: Eksempelet over er basert på OCLCs modellering av deweydata (dewey.info) og viser én mulighet for hvordan man kunne publisert norsk deweydata med bruk av URI’er. Her får man blant annet frem nummeret, utgavetype og -nummer, samt et tidsstempel. Det vil antakeligvis være lurest å registrere informasjon om hvem som klassifiserer utenfor URI’en!)

13 kommentarer

Oversettelse av “rhetoric” i 800-klassen

WebDeweygruppen jobber nå med oversettelse av de tre øverste nivåene av Deweytabellen. Det er mange utfordringer med å oversette termer fra engelsk til norsk. Noen termer betyr noe annet på engelsk enn norsk. Noen termer betyr noe annet på fagspråk enn i dagligtalen. Vi ønsker at webDewey skal være et godt verktøy både for generalister og eksperter, og både for folkebibliotek og fagbibliotek. Så bør begrepsbruken også gjenspeile litteraturbelegget. Vi har møtt på et problem- hva gjør en når fagekspertene sier en ting og ordbøkene en annen? Skal vi gå mot samtlige norske ordbøker og Store norske leksikon?

Rhetoric. Engelsk term. På engelsk brukes ”rhetoric” i 800-klassen der vi på norsk har brukt ”litterær komposisjon”. Ved første øyekast virker dette rart, ”rhetoric” burde da enkelt kunne oversettes til ”retorikk”?

På engelsk brukes retorikk om overtalelse og argumentasjon i tale eller tekst, altså i betydningen effektiv bruk av språk uansett om det er muntlig eller skriftlig. Dermed kan en på engelsk snakke om retorikk i drama, romaner eller poesi. Tilsvarende betydning av ordet ”retorikk” brukes også i økende grad i det norske fagspråket. Bachelorprogrammet i retorikk ved UiB skriver om studiet: ” Retorikk er læra om føremålstenleg kommunikasjon. Det er læra om korleis ein appellerer overtydande til sine medmenneske. Anten du diskuterer med vener, held ein politisk tale, skriv ein omtale eller utviklar ein reklamekampanje, så utøver du retorikk.” Dette tilsvarer til en stor grad den engelske forståelsen av begrepet.

Fra DDK5 er vi vant til at retorikk plasseres i 808.5- Litterær komposisjon i taler (retorikk). Dette er velkjent ”deweyspråk”, og de fleste av oss er vant til å tenke at retorikk er synonymt med talekunst. Det er ikke feil, når vi konsulterer Store norske leksikon og norske ordbøker forklares retorikk som læren om veltalenhet, talekunst, eller overtalelse.

Fra en fagekspert får vi vite:

”Den hverdagslige forståelsen av retorikk på norsk er talekunst, mens det i litteraturvitenskapen i dag forstås både i den klassiske betydningen studiet av talekunst (som i Aristoteles’ retorikk), av litterær komposisjon (Boots The Rhetoric of fiction) og av språklige figurer og gestikk (de Mans). ”

Innenfor faget litteraturvitenskap, blir det dermed helt riktig å oversette ”rhetoric” med ”retorikk” i stedet for ”litterær komposisjon”. Men når vi bruker ”litterær komposisjon”, unngår vi tvetydighetene i språket.

Debatten er ikke avgjort, men det kan se ut som at vi vil beholde ”litterær komposisjon” som oversettelse for ”rhetoric” og lager følgende noter:

I 808: ”Her: Retorikk i betydningen effektiv bruk av språk”

I 808.5 ”Her: Retorikk i betydningen talekunst”

 

Høres det ut som en grei løsning?

Skriv en kommentar

Geografisk inndeling av Norge (kommuneinndeling)

Inndelingen av norske steder i Deweys desimalklassifikasjon har sin opprinnelse i dokumentet Geografisk inndeling av Norge etter Melvil Deweys System, som ble utarbeidet i forbindelse med utgivelsen av DDK 4. Her ble inndelingen av Norge utvidet fra to til fire nivåer: landsdeler, fylker, distrikter og kommuner. Tidligere var Norge inndelt etter landsdel og fylke, et inndelingsnivå som er basert på nivået brukt i den amerikanske utgaven av Dewey, DDC. Utvidelsen av norske stedsnavn på distrikts- og kommunenivå bryter med ordningsprinsippene som blir brukt for å inndele steder i DDC. Ordningsprinsippet i Hjelpetabell 2 er at steder som fysisk befinner seg ved siden av hverandre skal være ved siden av hverandre i tabellen. Den norske distriktsinndelingen er basert på inndelingen i UDK og er tilnærmet lik ordningsprinsippet i DDC, mens kommuneinndelingen er ordnet i alfabetisk rekkefølge innenfor hvert distrikt.

Konsekvenser av måten kommuneinndelingen er gjort på i DDK er at:

  • Fysiske særtrekk, som elver og fjellkjeder går ofte på tvers av kommunegrensene. Når kommunene er i alfabetisk rekkefølge, vil disse særtrekkene få en tilfeldig plassering på et høyere nivå og må dermed alltid legges i inkluderer-noter fremfor her-noter
  • Det alfabetiske ordningsprinsippet er tilfeldig: det brytes ved skifte av kommunenavn, sammenslåing av kommuner, osv

Fordeler med å endre inndelingen til måten det er gjort på i DDC er at:

  • Vi får mer fleksibilitet iht. inndelingen av fysiske særtrekk
  • Integriteten i tabellen påvirkes ikke av politiske endringer av stedsnavn og sammenslåinger

Ulemper med å endre er:

  • Det vil forekomme mange endringer i numrene for norske kommuner og distrikter i Hjelpetabell 2, og mange av numrene vil bli gjenbrukt med nytt innhold
  • Det vil bli arbeidskrevende for biblioteker som klassifiserer på kommunenivå og som velger å omklassifisere
  • Det er mulig vi mister en del koblinger (ikke alle registrerer dewey-utgave i MARC-felt 082) som vil føre til ufullstendige trefflister ved søk, samt ulike hylleplasseringer av lokallitteratur (forutsatt at man ikke omklassifiserer)

Nasjonalbiblioteket sendte ut en liten spørreundersøkelse til et tilfeldig utvalg (ca 40) folkebibliotek hvor vi har spurt hvordan de ser på en evt. endring av kommuneinndelingen. Tilbakemeldingen var klar: ulempene ved å bytte er større enn fordelene.

Saken ble tatt opp på NKKI-møtet sist fredag (2.9.2011) og følgende ble vedtatt:

Vedtak: NKKI foreslår at kommuneinndelingen i DDK 5 blir videreført.

 

Skriv en kommentar

Reisebrev fra USA: Dag 3 og 4

Jeg var på besøk hos Dewey-redaksjonen i Washington DC i uke 21. Legger med dette ut reisebrevene jeg sendte hjem hver kveld til redaksjonsgruppen vår her på NB.

Hei

Ble litt hektiske dager mot slutten av uka i USA, så jeg rakk ikke å sende reiserapport. Er tilbake i Oslo nå, og sender her en oppsummering av de siste to dagene.

Onsdag 25.5 startet jeg dagen med et møte med Joan. Tema: hvordan vise historikk i Dewey-klassene og planer for publiseringen av en norsk webDewey. Historikkdiskusjonen var todelt: 1. Hvordan vise historikk til klassifikator (som hjelpemiddel). 2. Hvordan utnytte seg av historikk i sluttbrukersystemer.

  1. OCLC forsker nå på forskjellige måter å vise historikken (tilbake til DDC20) til et
    nummer i webDewey-grensesnittet. Tanken er at en klassifikator skal kunne klikke på en lenke der det står ”Vis historikk” (eller lignende) og få frem alle endringene som er blitt gjort i denne klassen de siste 20 årene. Dette vil _tildels_ være interessant for norske klassifikatorer: man vil kunne sammenligne en klasse med DDC21-nivået, samt se DDK5 forkortelsesangivelsen. Men det vil ikke være mulig å vise DDK5-historikken i seg selv. For å gjøre dette, diskuterte vi muligheten for å lenke til noe som sammenligner DDK5 med DDC23. Enten noe enkelt som et excel-ark som viser endringer i numre fra DDK5 til DDC21 til 22 til 23 (OCLC har et excel-ark med DDC-endringene), eller lage noe litt mer avansert, a la svenskenes sab til dewey konverteringstabell. Litt opp til hvor mye arbeid vi vil gjøre her.
  2. Enda viktigere (etter min mening) er utnyttelsen av klassifikasjonsdata for å samle dokumenter som er klassifisert etter forskjellige utgaver av dewey. Dette er
    noe vi har snakket lenge om her (internt, med systemsutviklere og i KORG-presentasjonen): Hvordan utnytte historikk-metadata slik at brukeren får en sømløs søkeopplevelse? Dvs, hvordan samle sammen dokumenter om et emne som har fått forskjellige klassifikasjonsnumre i ulike utgaver? Dette er et tema som er interessant for flere enn oss: de fleste omklassifiserer ikke samlingene sine. Enda viktigere er det for oss som ikke har et nasjonalt emneordssystem.
    Og enda mer komplisert blir det for oss som må vise til DDC22, DDC21 og DDK5
    (og evt DDK4). Joan ba meg om å skrive en kort paper til neste EPC-møte (om to
    uker) der jeg drøfter problemstillingen med et par eksempler og ber OCLC se
    nærmere på løsninger.

Ellers synes Joan at tidsplanen vår for publiseringen av en ”blandet” utgave av norsk webDewey til en intern gruppe + NKKI + referansegruppen høres veldig fornuftig ut. I tillegg til å oversette de 3 øverste nivåene og H1, fortalte jeg at vi ville få ut 900-klassen (spesielt med endringene i nordisk historie) og H2 (spesielt dersom vi må endre norske kommuner) slik at vi kan få kommentarer til dette og begynne å utvikle en strategi for hvordan bibliotek bør håndtere de store endringene. Hun rådet videre at vi ser på 340 og 370 så snart som mulig slik at vi forberede folk på mulige endringer her óg og teste disse. I tillegg til de ovennevnte, mener Joan at vi bør vurdere å inkludere en gruppe med systemsutviklere (Bibsys, osv) til å få adgang til en blandet norsk webDewey allerede i høst. Hun skal sjekke med Libby ang. hva vi har i kontrakten vår ang. lisenser til en testversjon (til både klassifikatorer og systemsutviklere).

Neste møte på agendaen var med Juli og Rebecca ang. norsk språk og litteratur.

  • Det ble anbefalt å ”flytte” Språkstrid og målsak til 306.449, dvs å ikke få inn et eget nummer på 439.82, da det egentlig ikke hører til faget lingvistikk.
  • Jeg fikk en kort innføring i H3. Veldig hjelpsomt! Og ikke så komplisert. Det ser ut som om vår H3 er en blanding mellom T3A og B, og at vi har utelatt C (temaer) totalt. Dersom vi har gode grunner for det, kan vi antakeligvis fortsette å blande A og B og legge til C, men da får vi flere restriksjoner i klassifiseringen.
  • Vi må se nærmere på periodeinndelingen av nordisk litteratur i DDC23. Dersom vi ser at det fortsatt er behov for en videreinndeling av nordisk språk i sin helhet, må vi lage noter som forklarer hva som skal klassifiseres hvor. Per i dag står det, for eksempel, at dansk-norsk litteratur skal klassifiseres med norsk litteratur. Dersom vi fortsetter å tillate videreinndeling av nordisk litteratur i sin helhet, må vi forklare spesifikt hva slags litteratur dette gjelder for.

Editorial meeting etter lunsj. Veldig interessant å få et nærmere innblikk i måten de arbeider på! Spes. interessant å høre om utfordringer i automatiseringen av forkortelsesnivåer. Nevnte jeg forresten at de skal forkorte USA i H2 for oss? :-)
Ellers drakk jeg kaffe med LoC-bibliotekaren som har ansvar for innkjøp av nordisk litteratur. Imponerende fyr som har tatt norsk og islandske språkkurs til nettopp dette formålet. Avsluttet dagen med en veldig hyggelig middag sammen med Joan og en som tidligere var sjef for Dewey-departementet i LoC før de hadde store omstruktureringer for noen år tilbake. (Spiste lunsj tidligere på dagen med Joan, Eve Dickey (nåværende sjef for Dewey-seksjonen) og Karl E. Debus-Lopez (sjef for departementet som Dewey-seksjonen hører til).

Torsdag 26.5

Startet dagen med et telefonmøte med Joan, Michael Panzer, Peter Werling og to fra DNB (Tina og Ulrike) om bruker-generert innhold i webDewey. Så på flere use-cases der MARC-felt 765 (sammensatte numre) kan utnyttes for å gi støtte til brukere i sammensettingen av numre, og som støtte for oversettere i oppdateringen av webDewey. Veldig mye interessant arbeid som foregår der.

Fikk pratet med Peter etter møtet. Han fikk DDC23 data først i slutten av forrige uke. Vi kan vente å få 23-data (oppdatert t.o.m. 2011.05.19) i løpet av to uker. Han må ha den tida for å prøve å laste inne det vi allerede har oversatt i det nye programmet. Han regner med at overføringen kommer til å gå bra, men dersom vi mister altfor mye data, kan det hende vi må ty til klipping og liming. Det blir uansett en del ekstra nye ting å oversette:
sammensatte numre, forkortelsesangivelser (på DDK5-nivå), flere historikk-felt…
Differansefilene kommer nok noen uker etter at vi får 23-dataen.

Så fikk jeg vist Pansoft oversettelsesprogramvaren til Joan, Rebecca og Juli. Deretter fikk jeg en kort presentasjon om deres redigeringsprogram. Veldig nyttig og interessant. Oversikter (i enkelte klasser) blir visst automatisk generert til dem. Dette må vi også kreve i pansoft!

Etter en omvisning i Library of Congress (fantastisk og inspirerende!), hadde jeg flere lengre diskusjoner med Rebecca, Juli og Michael om registeret vårt. Vi er nok nødt til å lage en litt strammere strategi for hvordan vi håndterer denne. Blant annet ta stilling til hvordan vi har tenkt å håndtere se- og se også-henvisninger i registeret.  Juli anbefalte av vi ser på registeret i sin helhet i korte intervaller (dvs når vi for eksempel er ferdige med en klasse). Michael anbefalte ellers en poster han og kollegaene hans lagde til ISKO 2004. (Har ikke hatt tid til å se på den ennå).

Tror det var det. Totalt sett en meget lærerikt og inspirerende uke.

Jeg sender en innkalling til et redaksjonsgruppemøte denne uken senere i dag.

Vennlig hilsen

Elise

Skriv en kommentar

Reisebrev fra USA: Dag 2

Jeg var på besøk hos Dewey-redaksjonen i Washington DC i uke 21. Legger med dette ut reisebrevene jeg sendte hjem hver kveld til redaksjonsgruppen vår her på NB.

Hei

Veldig bra dag med masse informasjon å fordøye i dag óg!

Startet dagen med et møte med Rebecca ang. spørsmålene du ga meg, Marianne, om klassifisering av div. musikk-trykk:

  • Til det første spørsmålet om generelle sangbøker bør klassifiseres med en
    eller flere stemmer, skal man velge flere stemmer– jo mindre det
    spesifikt står at sangene er til én stemme. Dvs. 782.5-782.9 er default
    her.
  • Til spørsmål nummer to om klassifiseringen av noter: Rebecca var enig i at
    manualinnførselen var tvetydig og motsa flow-chart’en. Det er
    flow-chart’en vi skal følge her. Hun skal se på hvordan hun kan klargjøre
    manualinnførselen.
  • Ellers fikk jeg en veldig fin innføring i tanken bak fasetteringen av
    780-musikk– Rebecca står bak mye av arbeidet her. Veldig interessant–
    spes. for en som har fordypet seg i fasettert klassifikasjon. Snakke også
    en del om muligheten for å automatisere denne tabellen i webdewey, og på
    måter man kan utnytte seg av klassenumre her med bruk av 765/085 feltet.
    Her fikk jeg også vite litt om vanskelighetene som finnes i registreringen
    av data i 765-feltet.
  • Spurte ellers om dyp-klassifisering av musikkgenrer. Tankegangen har vært at det er altfor flytende å dypklassifisere musikkgenrer (feks forskjellige typer
    rock og pop og jazz osv) og samtidig beholde hierarkiens integritet, men
    at man står fritt fram til å legge til registertermer til hver genre. Så
    her kan dere populærmusikkeksperter i gruppen glede dere. :-)

Neste møtet var sammen med Joan og angikk utvidelser og forkortelser.

  • Når det gjelder de geografiske utvidelsene våres i H2, må vi prøve å utrede dette
    nærmere. Det er viktig at løsningen vår er riktig, dersom andre skal bruke
    dataene våres. Dette må vi få sett på så snart som mulig, slik at vi
    finner en løsning. Jeg tenker at dersom vi må endre på mange numre, er det
    best å informere om dette så snart som mulig (samtidig med varslingen om
    endringen i historiske perioder i norden).
  • I kontrast: Gode nyheter ang. forkortelsen av steder i USA: De vil gjerne
    forkorte USA for oss. Dermed får de eksperimentert litt med problemområder
    i automatiserte forkortelser, som plasseringen av nasjonalparker, elver,
    osv. Det vi må tenke på er: Dersom vi forkorter på delstatsnivå, finnes
    det noen byer eller andre mindre enheter som vi vil inkludere?

Lunsj med Joan og så et langt telefonmøte sammen med Joan og Michael Panzer om tekniske aspekter ved arbeidet vårt. Kort oppsumert: Fikk en innføring i historien
bak dagens distribution server og oversettelsesprogramvare, og deltok i en lengre diskusjon om hvordan vi kan utnytte oss av deweynumre i “discovery”-services. Tydelig at det er flere som vil ha MelvilSearch-lignende programmer, men vi diskuterte at de fleste vil antakeligvis ha mye mer enn bare browse-funksjonen som per i dag tilbys der.
Snakket en del om hvordan man kan bruke 765-feltet, og om hvordan OCLC kan tilby data via en API eller som Linked data. Mye snakk om å koble arbeid her til arbeid med utviklingen av worldcat, med bruk av worldcatAPI’en. Her kan utviklere fra Bibsys, Libris, BL og OCLC dra nytte fra hverandre. Bør ta en samtale til med BIBSYS.

Deretter nok et møte med Joan, denne gangen ang. regler for tilføyelser av noter i den
norske oversettelsen.

  • Her må vi alltid henvende oss til EPC (via Joan og co) dersom vi vil legge til
    eller slette en note (gjelder alle noter og henvendelser, bortsett fra  se-også henvendelser).
  • Når det gjelder se også-henvendelser, kan vi godt slette de som ikke gjelder for norsk språk, men vi bør si ifra for de prøver å kartlegge bruken av se også relasjoner.

Snakket også om H1–0712 kontra H1–0715. Joan vil gjerne se nærmere på dette, blant annet på hvordan tekniske skoler er definert internasjonalt. Tror ikke det blir veldig komplisert her, men hun ville sjekke noe.

Til slutt: møte med Winton ang. 796.x kontra 91x og ang. 636.707 kontra 636.7088.

796.x kontra 91x:

  • 796 brukes når fokuset er på aktiviteten. Litt som dere sa: at stiene er beskrevet basert på vanskelighetsgrad, osv. Med en gang severdighetene tar fokus, klassifiseres det i 91x. Dersom man er i tvil, klassifiseres det i 91x.
  • Han kom med en god analogi: Dersom en familie vil ta en biltur gjennom Frankrike, ser man etter bøker i 91x, ikke i nummeret for kjøring av biler. Samme gjelder for sykling og gåturer. Det er kun når det er fokus på kjøring, sykling, gåing som aktivitet at disse skal klassifiseres is 79x.

636.707 kontra 636.7088:

  • Her er det akkuratt som du gjettet, Marianne. Dersom det er snakk om oppdra en valp til å bli et kjæledyr, skal det i .7088. Dersom det ikke er med dette bestemte formålet, skal det i .707.
  • Winton mener det blir litt vanskelig å tolke hva hensikten med bøkene i listen med titler om valpeoppdragelse er. Han tenker at klassifikator i hvert tilfelle har sjekket for å se hva formålet er..
  • Nok en analogi her: Se på child rearing og child training tallene…

I morgen blir det møter med Joan om mapping og historikk, og om tidsplanen vår ang. første publiseringen av en norsk webDewey (og tidsplanen generelt). Så blir det møter med Rebecca og Juli om norsk litteratur og språk. Deretter blir det lunsj med sjefen for Dewey på LoC (og Joan). Skal delta på et Editorial Meeting på ettermiddagen og avslutte arbeidsdagen med et tlfmøte med DNB (det tyske nasjonalbiblioteket). Så blir det middag sammen med Joan og noen andre. :-)

Setter pris på snar tilbakemelding ang. litteratur og språk, spes. om språkstridnummeret.

Håper ellers dere har det fint!

Vennlig hilsen

Elise

1 kommentar

Reisebrev fra USA: Dag 1

Jeg var på besøk hos Dewey-redaksjonen i Washington DC i uke 21. Legger med dette ut reisebrevene jeg sendte hjem hver kveld til redaksjonsgruppen vår her på NB.

Hei

Har vaert en interessant dag med mye aa tenke paa.

I tillegg til aa diskutere endringer i 340 juss som vi boer vaere oppmerksomme paa naar vi behandler hvordan vi skal haandtere oversettelsen, var jeg med paa en “editorial meeting” og brukte en god del tid til aa diskutere H2 og 900 klassen.

Det som var mest interessant paa editorial meeting, var at jeg fikk et godt innblikk i hvordan redaksjonsteamen her jobber med ddc og med endringer i ddc. Det er her man droefter utkast til EPC. I dag diskuterte de blant annet forslag til endringer i MARC (for eksempel bruken av 7 i foerste indikator i klassifikasjonsfeltet for aa indikere at det
er snakk om noe annet enn en fullstendig eller forkortet utgave– hvilket er hoeyst relevant for aa indikere ddk5 i MARC 21). Snakket ogsaa en del om automatiserte forkortelser– som er relevant for oss dersom vi skal forkorte geografiske omraader i H2. (Dette er visstnok hittil bare blitt gjort i den italienske oversettelsen av utg. 20. I senere utgaver ble omraadene oversatt fullstendig. Faar vite mer om det i morgen i moeter med Joan).

Veldig veldig interessant moete med Winton ang. H2 og 900-klassen. Det viser seg at de norske utvidelsene i DDK5 er gjort paa en maate som bryter med deres redaksjonelle regler, og som til syvende sist kan vaere en ulempe for oss. Reglen er at stedene skal listes
etter geografisk naerhet og i en logisk rekkefoelge. Dette prinsippet er fulgt paa fylkes-nivaa og paa distrikt-nivaa, men det ser ut som om kommunene er listet alfabetisk. (Antakeligvis har vi faatt hjelp fra OCLC til aa utvide paa fylke- og distrikt-nivaa, men ikke med kommuner). Dette innebaere blant annet at fysiografiske steder (som nasjonalparker, elver osv) som finnes i flere kommuner innen samme distrikt automatisk maa opp paa distrikt- eller kommune-nivaa i en inkluderer-note og kan aldri bli videreinndelt.
Alternativet er aa ha klasseinndelinger som Nordlige kommuner i Blabla-distriktet, med en her-note for aa dekke elven eller nasjonalparken, e.l. Det innebaerer ogsaa at alfabetiseringen blir oedelagt dersom en kommune endrer navn — det er et altfor tilfeldig kriterie for ordning. Og saa faar vi store problemer dersom webDewey gaar i retningen at
alle utvidelsene i hvert land blir inkorporert i hverandres utgaver. Og til sist, dersom man på sikt kobler geografisk informasjon med GeoNames, kan det være dumt at kommunene våres “hopper” litt rundt iht nummer og geografisk plassering. Men vi må veie opp om det vil være verdt å fikse på, fra et praktisk standspunkt. Det kan innebære altfor store endringer for hvert bibliotek, og da kan det være bedre å la vær. Jeg skal snakke med Joan om det i morgen. Har dere noen kommentarer?

Vi snakket ellers om hva det betyr aa utgjoere mesteparten av en geografisk klasse. Her er det ikke bare stoerrelse som teller. Heller litteraert belegg, folketall, industri, osv. Dersom det meste som er skrevet om et sted er skrevet om akkurat dette stedet, kan det bli inkludert i en her-note. Men man boer vaere varsom med aa inkludere for mange steder, for det kan gjoere klassifikasjonstabellene uoversiktelige.

Historieinndelingene saa fine ut. Det visste vi forsaavidt allerede fra foer. :-)

Naa tar jeg toget hjem til brorsan. Veldig hyggelig aa kunne kombinere dette med familiehygge!

Vennlig hilsen

Elise

Skriv en kommentar

Maskinlesbare representasjoner av Dewey

Dewey er mye mer enn klassenumre og emner. Knyttet til hvert klassenummer har man informasjon om hvilke emner som er gruppert sammen, om beslektede emner, og om forskjellige måter å beskrive disse emnene med ord. Man har også informasjon om hvordan klassen har utviklet seg over tid, om hvordan den er sammensatt og hvor den befinner seg i hierarkiet.

Mye av denne informasjonen klarer vi som mennesker å tolke og forstå fordi den er representert med forskjellige typer noter. Notene står i en bestemt rekkefølge under klassebetegnelsen og de har en standardisert uttrykksmåte. Vi får informasjon om hvilke emner som hører til hver klasse i her-noter og inkluderer-noter. Forskjellige måter å uttrykke emnene finner vi i klassebetegnelser, registertermer, forklarende noter og omfangsnoter. Beslektede emner finner vi i klassifiser i-noter og i se- og se også-henvisninger. Klassens historikk kan vi tolke i noter om omplasseringer og opphørte numre. Videre kan vi bygge numre med hjelp av tilføyelses-noter. Og vi kan tolke emnets hierarkisk plassering implisitt i klassenummeret (forutsatt at det ikke dreier seg om et sammensatt nummer).

Det finnes også flere maskinlesbare måter å representere Dewey-informasjon.  

I forbindelse med arbeidet med DDK5, ble norsk Dewey-informasjon kodet i xml. I tillegg til å strukturere klassenummeret, klassebetegnelsen og noter som egne elementer, ble følgende informasjon maskinlesbar: om klassen er en hovedklasse eller om den er en del av en hovedklasse, hvilket klassenivå den har, om det henvises til andre klassenumre, og om ord i klassebetegnelsen eller notene fungerer som registertermer. Det finnes imidlertid bare to typer noter i denne representasjonen: <note> og <kursivnote>, en skille som antakeligvis kun var ment til å gi maskinen informasjon om formattering ved trykking.

Utsnitt fra DDK5.xml-filen som viser klasse 001

Tidligere versjoner av WebDewey ble kodet av OCLC i en egenutviklet xml-format som heter ess-xml. Denne kjenner jeg lite til; fra og med 2007 begynte man å representere Dewey-informasjon i WebDewey med en MARCxml som er basert på MARC 21 format for klassifikasjonsdata og MARC 21 format for autoritetsdata. Det er i dette formatet vi nå registrerer Dewey-informasjon i den kommende norsk webDewey.

Med typiske MARC datafelt- og subfelttagger (hvilkes betydninger avhenger av indikatorene som blir brukt), blir følgende maskinlesbart i MARCxml-representasjonen:

  • Dato for registrering av klassen, samt Dewey-utgavenummer
  • Klassens språk
  • Klassenummeret
  • Klassebetegnelsen
  • Hver enkel note får hver sitt MARC-felt. Emner blir skilt ut fra forklarende tekst i notene
  • Klassens historikk (i forhold til tidligere DDC-utgaver og i forhold til dato den blir endret)
  • Komponenter i sammensatte numre
  • Alle registertermene knyttet til hver klasse  

Utsnitt av klasse 001 (på engelsk) i MARCxml

Den maskinlesbare Dewey-informasjonen i norsk webDewey vil være fullt tilgjengelig for norske biblioteksystemleverandører gjennom lisenser med OCLC. Mer avklaring om lisenser vil komme etterhvert. Hovedpoenget her er at denne maskinlesbare representasjonen av norsk webDewey kan åpne opp for nye og kreative måter å utnytte klassifikasjonsdata i sluttbrukertjenester.

Dewey-informasjon er heldigvis ikke (og skal ikke) være låst i MARC-representasjonen. For de av oss som hater MARC eller som rett og slett vil utnytte klassifikasjonsdata uten å måtte betale for det, så finnes det foreløpig flere Linked data-representasjoner av Dewey-informasjon.  

OCLC har publisert de tre øverste nivåene av Dewey på elleve språk (norsk inkludert) i RDF som Linked Open Data gjennom en Creative Commons BY-NC-ND lisens. Her blir klassene representert med en URL, der man finner en del nyttig informasjon som klassenummer, dato og språk:

http://dewey.info/class/001/2009/08/about.en

Med RDF-tripler blir klassen knyttet til lisensinformasjon, klassebetegnelsen og Dewey-hierarkiet: 

Dewey klasse 001 (på engelsk) representert i RDF-tripler

Mer informasjon om OCLCs Dewey Linked Data prosjekt kan leses her: http://www.oclc.org/dewey/webservices/default.htm

Det tyske nasjonalbiblioteket har også publisert tyskspråklig Dewey-informasjon som Linked data. I denne representasjonen blir hver klasse lenket til tilsvarende klasse i dewey.info med en owl:sameAs relasjon. Videre blir tysk klassebetegnelse, hierarkisk informasjon og tilmappete emner (fra tyske nasjonale emneord, LCSH og RAMEAU) lenket sammen i RDF-tripler.

I Norge er vi i planleggingsfasen når det gjelder mapping av emneordssystemer og autoritetsregistre til webDewey. Vi ser også på muligheten for en ekstern mapping til DDK5 og tidligere norske utgaver. Dersom en norsk Dewey skulle en dag bli representert som Linked Open Data, vil det være helt naturlig å vise til disse relasjonene.

Skriv en kommentar

Endonymer kontra eksonymer (samt et par ekte utfordringer med Hjelpetabell 2)

Frykt ikke! Vi har verken tenkt å oversette New York til Ny York, San Jose til Sankt Jose eller Baden Baden til Svømme Svømme. Det forrige innlegget vårt var heller et muligens dårlig forsøk på en aprilsnarr som gikk ut på at vi kom til å følge det eksonyme prinsippet (til det ekstreme) i oversettelsesarbeidet vårt.  

Eksonymer er navn som avviker fra den formen det har fått i landet det kommer fra, mens endonymer er det motsatte: navn som har den samme formen som der det kommer fra. Tyskland er et eksempel på et eksonym, mens Italia er et endonym. For ordens skyld: I arbeidet vårt med oversettelsen av stedsnavn i Hjelpetabell 2, bruker vi stort sett endonymer der vi ikke har et godt innarbeidet norsk navn.

Det finnes mange andre typer utfordringer i forbindelse med oversettelsen av stedsnavn, og vi får god hjelp fra Terminologitjenesten ved Språkrådet til å takle disse. I tillegg til å råde oss om hvilke eksonymer som er innarbeidet på norsk, hjelper de oss med oversettelsen av ekstra ledd i stedsnavn, som for eksempel diverse farvannsformer (ocean, sea, bay, inlet) og administrative inndelinger. De har også vært behjelpelige med oversettelsen av oldtidsstedsnavn, samt med oversettelsen av retningsangivende adjektiver.

Det er mye å ta fatt i (at Hjelpetabell 2 fyller over 400 sider i den fullstendige utgaven er faktisk sant!), men vi slipper heldigvis å finne på norske stedsnavn. Og vi satser på å bli ferdige med tabellen lenge før jul, altså i løpet av de neste ukene.

Skriv en kommentar