Dette dokumentet kan også lastes ned som PDF eller som EPUB.

Omfang og avgrensning

Dokumentet inneholder en spesifikasjon til hvordan man skal beskrive kvalitet på datasett i en datakatalog.

Så langt det er mulig er det i dette dokumentet også tatt med veiledning/eksempler på hvordan denne spesifikasjonen i praksis kan brukes. Veiledningen/eksemplene er ikke normative.

I vedleggene til dette dokumentet er det tatt med forslag til hoveddimensjoner, deldimensjoner og kvalitetsmål av kvalitet på datasett, samt forslag til hvordan disse kan implementeres i standarden DCAT-AP-NO. Disse vedleggene er ikke normative.

Dokumentet inneholder ikke spesifikasjon eller veiledning til hvordan man skal holde god kvalitet på datasett, heller ikke hvordan man skal måle datakvalitet.

Spesifikasjonen er utarbeidet av en arbeidsgruppe (se vedlegg E) ledet av Kartverket ved Morten Borrebæk.

Normative referanser

Difi, DCAT-AP-NO, Standard for beskrivelse av datasett og datakataloger, 11.10.2016, https://doc.difi.no/dcat-ap-no/.

W3C Data on the Web Best Practices: Data Quality Vocabulary (DQV), [1] W3C Working Group Note 15 December 2016, https://www.w3.org/TR/vocab-dqv/.

W3C Data on the Web Best Practices: Dataset Usage Vocabulary (DUV), [2] W3C Working Group Note 15 December 2016, https://www.w3.org/TR/vocab-duv/.

W3C Simple Knowledge Organization System (SKOS), [3] http://www.w3.org/2004/02/skos/.

W3C Web Annotation Data Model, W3C Recommendation 23 February 2017, https://www.w3.org/TR/annotation-model/.

Begreper og definisjoner

Med “kvalitet” (f.eks. i ordene “kvalitetsdimensjon” og “kvalitetsmål”) menes det i dette dokumentet “datakvalitet”, “kvalitet på datasett” og lignende, men ikke “kvalitet” generelt.

Med “mål” (f.eks. i ordet “kvalitetsmål”) menes det i dette dokumentet “måling”/”beregning” (metric), men ikke “målsetning”.

Kvalitetsdimensjon:
Kvalitetsdeldimensjon:
Kvalitetsmål:
Måleresultat:
  • Anbefalt term: måleresultat

  • Alternativ term: kvalitetsmåleresultat

  • Definisjon: konkret resultat av kvalitetsmål

    • Engelsk original: Represents the evaluation of a given dataset (or dataset distribution) against a specific quality metric.

  • Merknad: Tilsvarer dqv:QualityMeasurement

  • Eksempler: Verdi “0,10” som resultat av “Andel manglende elementer”; verdi “10” som resultat av “Antall manglende elementer”.

Pre-definerte kvalitetsmål:
  • Anbefalt term: pre-definert kvalitetsmål

  • Definisjon: kvalitetsmål (dqv:Metric) som finnes tilgjengelig for gjenbruk, og som kan refereres ved en unik identifikator (URI)

  • Merknad: Arbeidsgruppen foreslår å etablere en felles oversikt over pre-definerte kvalitetsmål.

  • Eksempler: Annex D i ISO 19157:2013 (E) “List of standardized data quality measures” inneholder en rekke pre-definerte kvalitetsmål.

Nedenfor er en forenklet UML-modell som viser de viktigste begrepene/klassene og relasjoner mellom disse. Tegningen illustrerer også forslag til implementering i DCAT-AP-NO, som er informativt (se vedlegg B for mer detaljert beskrivelse av forslaget). Det er valgt å bruke norske navn på klassene og rollene, med navn på de vokabularer som skal brukes i implementasjonen i parentes. For å få en full oversikt over modellen må en også se på spesialiseringer og subtyper av andre vokabularer som benyttes i dqv.

bilde1 kvalitetsbeskrivelser dqv

Figur 1_: Kvalitetsbeskrivelser ved å bruke DQV. _

Figuren under illustrerer kvalitetsdimensjoner og kvalitetsdeldimensjoner og relasjon mellom disse, som begge er spesialiseringer av dqv:Dimension. Forskjellen er at en kvalitetsdeldimensjon peker til en kvalitetsdimensjon ved hjelp av skos:broader. Det gjøres oppmerksom på at de enkelte kvalitetsdimensjoner og kvalitetsdeldimensjoner som er vist i figuren er kun eksempler og ikke normative.

Eksempler kvalitetsdimensjoner

Figur 2: Eksempler på kvalitetsdimensjoner og kvalitetsdeldimensjoner. NB! De enkelte kvalitetsdimensjoner og kvalitetsdeldimensjoner er i dette dokumentet informative eksempler, mens måten å relatere en kvalitetsdeldimensjon til den tilhørende kvalitetsdimensjon er normativ (ved å bruke skos:broader).

Standardisert metode for å beskrive kvalitet på datasett

Arbeidsgruppen foreslår følgende når det gjelder beskrivelse av kvalitet på datasett i en datakatalog:

  1. Det er Anbefalt (= “skal, når det finnes”) å beskrive kvalitet på datasett i en datakatalog.

  2. Bruk W3C DQV som et standardisert vokabular til å beskrive kvalitet på datasett.

  3. Kvalitet på datasett beskrives langs et fåtalls kvalitetsdimensjoner (se vedlegg med forslag til dimensjonene) - i listen under betyr parentes valgfritt:

    1. Kvantiserbar kvalitet beskrives i form av “Kvalitetsdimensjon” → “Kvalitetsdeldimensjon” → “Kvalitetsmål” → “Måleresultat”

    2. Ikke-kvantiserbar kvalitet beskrives i form av (“Kvalitetsdimensjon” →) “Kvalitetsnote”

    3. Kvalitet som er i samsvar med gitt(e) standarder/spesifikasjoner beskrives i form av (“Kvalitetsdimensjon” →) “Standard/Spesifikasjon”

    4. Brukertilbakemeldinger knyttet til kvalitet beskrives i form av (“Kvalitetsdimensjon” →) “Brukerkvalitetstilbakemelding” Kvantiserbar kvalitet beskrives dessuten ved å referere [4] til et pre-definert kvalitetsmål. Definisjonene skal være i henhold til W3C DQV.

Se også datamodellen i kapittelet foran.

Resten av dokumentet inneholder:

  • Et informativt vedlegg med forslag fra arbeidsgruppen til kvalitetsdimensjoner, kvalitetsdeldimensjoner og kvalitetsmål.

  • Et informativt vedlegg med forslag til implementering av kvalitetsmål i DCAT-AP-NO, med eksempler på beskrivelser/definisjoner uttrykt ved hjelp av DQV.

  • Et informativt vedlegg med URIer/navnerom som er brukt i dette dokumentet.

  • Et informativt vedlegg med referanser som ikke er nevnt under normative referanser.

  • Et informativt vedlegg med informasjon om arbeidsgruppen som har utarbeidet denne spesifikasjonen.

Vedlegg A - Forslag til kvalitetsdimensjoner, kvalitetsdeldimensjoner og kvalitetsmål

Informativ del av dette dokumentet.

Arbeidsgruppen foreslår å starte med følgende kvalitetsdimensjoner [5]:

  1. Nøyaktighet (Accuracy, ISO/IEC 25012, DQV Kap. 7.2)

  2. Kompletthet/Dekning

    1. Dekning er bredere enn Kompletthet (Completeness, ISO/IEC 25012, DQV Kap. 7.2). Dekning inkluderer bl.a. “overdekning”. Termen “kompletthet” brukes allikevel her fordi den er allerede i bruk av flere fagmilijøer.

  3. Aktualitet (Currentness, ISO/IEC 25012, DQV Kap. 7.2)

  4. Samsvar (Compliance, ISO/IEC 25012, DQV Kap. 7.2)

  5. Tilgjengelighet (Availability, ISO/IEC 25012, DQV Kap. 7.2)

  6. Relevans (Relevancy, https://www.w3.org/TR/vocab-dqv/#bib-ZaveriEtAl, DQV Kap. 7.3)

Tabellen under inneholder arbeidsgruppens forslag til kvalitetsdimensjoner, kvalitetsdeldimensjoner og kvalitetsmål som bør tas med i Felles datakatalog. Når det senere arbeides med å pre-definere kvalitetsdimensjoner, kvalitetsdeldimesjoner og kvalitetsmål, vil forslagene i denne tabellen gås gjennom nøye før de endelig fastsettes.

Kilde/Etat (med ref) samt evt gruppering) Kvalitetsdimensjon Kvalitets-deldimensjon Kvalitetsmål Beskrivelse

DQV

Nøyaktighet (Accuracy)

DQV: The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use.

KARTV

nøyaktighet av kvantitative egenskaper, riktighet av ikke-kvantitative egenskaper og objektenes klassifisering og relasjoner

Klassifikasjonsriktighet

sammenligning mellom anvendt klassifisering og virkelighet

Ikke-kvantitativ egenskapsnøyaktighet

hvor nær ikke-kvantitative verdier er sanne verdier eller verdier akseptert som sanne

Kvantitativ egenskapsnøyaktighet

hvor nær kvantitative verdier er sanne verdier eller verdier akseptert som sanne

KARTV

hvor godt stedfestingen til et objekt samsvarer med virkeligheten/fasit

Absolutt stedfestingsnøyaktighet

hvor nær stedfestet posisjon er sann posisjon eller posisjon akseptert som sann

Nabonøyaktighet

hvor bra stedfestet posisjon samsvarer med andre stedfestede posisjoner

Posisjonsnøyaktighet i rasterdata

hvor bra posisjon i raster samsvarer med sann posisjon eller posisjon akseptert som sann

KARTV

Stedfestingspålitelighet

uttrykk for hvor sterkt mulig gjenværende grove feil i materialet for stedfestingen påvirker slutt–resultatet

KARTV

kvaliteten til egenskaper som definerer tid eller tidsavhengigheter mellom objekter

Tidsnøyaktighet

hvor nær angitte tidsverdier er sanne verdier eller verdier akseptert som sanne

SSB (BLUE-ETS)

Hvor nært objekter og variable ligger de korrekte verdiene og i hvilken grad data er til å stole på

Identifiserbarhet

Antall (med problem). Andel i prosent

Objekter med ugyldige identifikasjonsnøkler (feil syntaks)

Autensititet

--”--

Objekter med gale identifikasjonsnøkler (men korrekt syntaks)

Konsistens

--”--

Om objektene er innbyrdes konsistente

Mistenkelige verdier

Antall

Knyttet til objekter

Feil knyttet til variable, f.eks. Validitet, rapporteringsfeil, registreringsfeil bearbeidingsfeil og mistenkelige verdier)

Varians/standardavvik

Knyttet til variable, her bare summarisk gjengitt. Kan detaljere dette

SSB (CoP)

Hvor langt fra sann verdi ligger resultatet? Kan man stole på det?

Utvalgsfeil

Varians/standardavvik

Feil i statistikk grunnet at den eventuelt er basert på utvalg]

Andre feil (dekning, frafall, målefeil, bearbeidingsfeil, modellfeil)

Varians/standardavvik

En rekke feiltyper utgjør dimensjonene, her bare summarisk gjengitt

DQV

Fullstendighet/Dekning

DQV completeness): The degree to which subject data associated with an entity has values for all expected attributes and related entity instances in a specific context of use.

KARTV

beskrivelse av hvilke enheter som er med i et datasett i forhold til de som burde vært med.

(Manglende data)

data som mangler i et datasett

(Overskytende data)

data som ikke skal være i et datasett

SSB

Angir om innholdet i datasettet er fullstendig i forhold til SSBs bruk, at det dekker akkurat det det skal dekke

Underdekning

Antall eller andel

Manglende enheter i datasettet

Overdekning

Antall eller andel

Forekomst av ikke-enheter i datasettet

Selektivitet

Tekst (forklar)

Datasettet inneholder bare deler av den statistiske populasjonen

Dubletter

Antall eller andel

Forekomst av dubletter (enheter som er registrert flere ganger)

SSB (CoP)

Se Accuracy

Statistikk som ikke bygger på fullstendige data vil være unøyaktig og ikke til å stole på - Se ellers Accuracy

DQV

Aktualitet (Currentness)

DQV: The degree to which data has attributes that are of the right age in a specific context of use.

SSB (BLUE-ETS)

Aktualitet

Tid (dager eller uker)

Tid mellom slutten av kildens referansetidspunkt og SSB kan bruke data

Punktlighet

Andel som er punktlig. Prosent

Mulig forsinkelse mellom lovet og realisert tidspunkt når SSB kan få data

Tidsdifferanse

Tid (dager eller uker)

Tid fra slutten av kildens referansetid til SSB konkluderer med at vi kan starte jobben med data, pga. etterslep i registeret, f.eks. sene flyttemeldinger

*Enheters dynamikk og variables stabilitet *(Dynamics of objects and stability of variables)

Tekst

Bla. endringer i koder mellom referansetidspunkt og SSBs bruk

SSB (CoP)

Aktualitet

Tid (dager eller uker)

Tid fra slutten av statistikkens referanseperiode til den publiseres

Punktlighet

Andel som er punktlig. Prosent

Avvik fra publiseringstidspunkt som skal være varslet 3 måneder på forhånd

DQV

Samsvar (Compliance)

DQV: The degree to which data has attributes that adhere to standards, conventions or regulations in force and similar rules relating to data quality in a specific context of use.

KARTV

ConformanceResult

A conformance result is the outcome of comparing the value or set of values obtained from applying a

SSB (BLUE-ETS)

Måler hvorvidt kilden kan gi god statistikk kombinert med andre kilder

Sammenlignbarhet av objekter (Comparability and alignment of objects)

Dreier det seg om de samme objektene ved kobling av datasett?

*Koblingsvariabel *(Linking variable)

Eventuelle problemer med koblingsvariabel

Sammenlignbarhet av variable (Comparability of variables)

Er variablene definert eller gruppert på samme måte?

SSB (CoP)

Sammenheng

Tekst, blant annet om bruk av standard grupperinger

Henger statistikken sammen med annen statistikk på samme eller tilgrensende områder? Brukes f.eks. Samme begreper/definisjoner, grupperinger og andre internasjonale eller nasjonale standarder?

Sammenlignbarhet

Tekst

Kan resultatene sammenlignes over tid og sted/geografi?

DQV

Tilgjengelighet (Availability)

DQV: The degree to which data has attributes that enable it to be retrieved by authorized users and/or applications in a specific context of use.

SSB (BLUE-ETS)

Teknisk brukbarhet av datasettet og data i settet

Lesbarhet

Tekst

Om filen kan leses (ikke problemer med formater, ødelagt fil, uvanlig karaktersett, umulig å dekode)

Samsvar i fildeklarasjon

Andel?

Manglende metadata, avvik fra beskrivelse

Konverterbarhet

Tekst

Feil som umuliggjør konvertering til de formater SSB bruker

SSB (CoP)

Om statistikken er lett tilgjengelig og forklart for brukerne

Tilgjengelighet

Tekst

Lett tilgjengelig og godt presentert statistikk: Hvor finnes den, henvisninger, bla. Til Statistikkbank. Eksempel på god tilgjengelighet: API

Klarhet

Tekst

Dokumentasjon og metadata, eks. “Om statistikken” og annen dokumentasjon

DQV

Relevans (Relevancy)

DQV: Relevancy refers to the provision of information which is in accordance with the task at hand and important to the users’ query.

KARTV

det som ikke er dekket av øvrige kategorier og aggregert kvalitet basert på flere kvalitetselementer

Egnethet

det som ikke er dekket av øvrige kategorier og aggregert kvalitet basert på flere kvalitetselementer

AggregertKvalitet

Summering av kvalitet fra andre kvalitetselementer.

KARTV

provenance, source(s) and production process(es) used in producing a resource

Lineage

Beskrivelse av hvordan produktet er fremkommet, og beskriver kilde(r) og ulike skritt i produksjonsprosessen.

KARTV

Målestokksfaktor Denominator

Målestokksfaktor

KARTV

Bruk

brief description of the resource and/or resource series usage.

SSB (CoP)

Relevans

Treff på websider

Er statistikken relevant for brukeren? Også omtale av brukerundersøkelser og rutiner for brukerkontakt

Vedlegg B - Forslag til Implementering i DCAT-AP-NO

Informativ del av dette dokumentet.

Dette vedlegget inneholder først forslag til hvordan beskrivelse av kvalitet på datasett skal kunne implementeres i DCAT-AP-NO. Vedlegget inneholder deretter eksempler på hvordan selve beskrivelsene kan uttrykkes ved å bruke DQV. Kapittel Kompletthet/Dekning med Kvalitetsdeldimensjon Underdekning (undercoverage/omission) og kvalitetsmålene der under, viser et relativt komplett eksempel på hva som trengs for å beskrive “Dekning” ved å bruke DQV.

Navnerom (namespaces) som er brukt i eksemplene er ikke kvalitetssikret. Navnerom “xxx” er brukt der vi foreløpig ikke fant relevante etablerte vokabular (og dermed bør det opprettes norske vokabularer før de eventuelt kommer inn i relevante internasjonale vokabularer).

Implementering i DCAT-AP-NO

I løsningsforslaget til implementering i DCAT-AP-NO baserer vi oss på prinsippene for RDFS-modellering. En står derfor fritt til å legge til egenskaper som ikke er omtalt i spesifikasjonen. Størst mulig grad av gjenbruk av eksisterende vokabularer er en selvsagt forutsetning.

bilde1 kvalitetsbeskrivelser dqv

Gjengivelse av figur 1 Kvalitetsbeskrivelser ved å -bruke DQV.

Jf. figuren ovenfor som er gjengitt fra kapittel Begreper og definisjoner, foreslår vi følgende:

  • Beskrivelse av kvantiserbar kvalitet implementeres i DCAT-AP-NO på følgende måte:

  • Beskrivelse av kvalitet som er i samsvar med gitt(e) standard(er)/spesifikasjon(er) implementeres i DCAT-AP-NO på følgende måte:

  • Kvalitetsnote (for ikke-kvantiserbar kvalitet) implementeres i DCAT-AP-NO på følgende måte:

  • Brukertilbakemeldinger relatert til kvalitet på datasett implementeres i DCAT-AP-NO på følgende måte:

    • Kvalitetsrelaterte brukertilbakemeldinger angis ved å bruke samme feltet som foreslått under forrige kulepunkt for Kvalitetsnote, men med dqv:UserQualityFeedback som range, dvs.:

    • dqv:UserQualityFeedback er i henhold til DQV en subklasse av dqv:QualityAnnotation, og arver dermed egenskapene fra dqv:QualityAnnotation for å håndtere selve tekstlig beskrivelse og ev. angivelse av kvalitetsdimensjon(er) - jf. kulepunktet ovenfor om Kvalitetsnote.

    • For brukertilbakemeldinger skal det oppgis motivasjon utover dqv:qualityAssessment i tråd med vokabular for motivasjon og formål definert i W3Cs Web Annotations Data model. Merk at en her definerer om brukertilbakemeldingen for eksempel er et spørsmål eller et svar (fra andre brukere eller fra utgiver selv).

    • Vi anbefaler (ev. vurderer å gjøre obligatorisk senere) å oppgi skaper/avsender og dato for brukertilbakemeldinger ved å benytte dct:creator og dct:created

Eksempel på brukertilbakemelding:

 :myDataset
    a dcat:dataset ;
    dqv:hasQualityAnnotation :userFeedback .

 :userFeedback
    a dqv:UserQualityFeedback ;
    dct:creator "Donald Duck" ;
    dct:created "2017-09-13"^^xsd:date ;
    oa:hasBody :usabilityComment ;
    oa:motivatedBy dqv:qualityAssessment, oa:commenting .

 :usabilityComment
    a oa:TextualBody ;
    rdf:value “Dette datasettet er uegnet for ...” ;
    dct:language “nb” ;
    dct:format “text/plain” .
KlasseneIDQV

Figur 3: Datamodell som viser de mest relevante klassene i DQV (kilde: _https://www.w3.org/TR/vocab-dqv/DataQuality0.2.9.svg[_W3C DQV]_)._

Jf. figuren ovenfor som er kopiert fra W3C DQV, har arbeidsgruppen i første omgang ikke valgt å standardisere/spesifisere implementering av QualityPolicy og Prov (provenance) som også er i DQV-modellen ovenfor. Dette fordi det i denne omgangen ikke er identifisert konkrete behov/brukerhistorier knyttet til disse. Dette utelukker ikke mulighet for den enkelte virksomheten/sektoren å beskrive kvalitet i form av QualityPolicy og Prov (provenance) slik DQV har definert det. Informer gjerne Difi om erfaringer på dette.

Arbeidsgruppen antar at det vil være behov for å beskrive kvalitet både knyttet til datasett (dcat:dataset) og for distribusjoner (dcat:distribution). Arbeidsgruppen anbefaler at kvalitetsbeskrivelser knyttes til datasett (dcat:dataset) i størst mulig grad. Unntaket er når beskrivelsene eksplisitt gjelder leveransekvalitet, for eksempel beskrivelse av tilgjengelighet, aktualitet eller "conformance" for det ulike leveransene (distribusjonene) av datasettet.

Kvalitetsdimensjon Nøyaktighet (accuracy)

Merknad: Arbeidsgruppen fant ut at dette var en av de kvalitetsdimensjonene som det allerede er etablert flere parallelle (internasjonale) kvalitetsdeldimensjoner og kvalitetsmål, som også til dels er nokså fagspesifikke. Arbeidsgruppen valgte derfor ikke å bruke tid på å gå dypere langs denne dimensjonen med å eksemplifisere mer i form av kvalitetsdeldimensjoner og kvalitetsmål.

Definsjon:

  • I hvilken grad datasettet korrekt representerer virkeligheten, for en spesifikk brukskontekst.

    • Engelsk original: The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

 :accuracy
    a dqv:Dimension ;
    skos:prefLabel “accuracy”@en ;
    skos:prefLabel “nøyaktighet”@nb ;
    skos:definition “the degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use”@en .

Kvalitetsdimensjon Kompletthet/Dekning (completeness/coverage)

Merknad: Arbeidsgruppen fant ut at dette er en av de kvalitetsdimensjonene som det er mulig å bli enig om noen få felles kvalitetsdeldimensjoner og der under kvalitetsmål.

Merknad: “Dekning” er bredere enn “Kompletthet” (completeness fra ISO/IEC 25012). “Dekning” inkluderer bl.a. “Overdekning”. Termen “kompletthet” er allikevel tatt med fordi den allerede er tungt brukt i fagmiljøene.

Definisjon:

  • I hvilken grad datasettet inneholder forventede opplysninger, for en spesifikk brukskontekst.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

 :coverage
    a dqv:Dimension ;
    skos:prefLabel “coverage”@en ;
    skos:prefLabel “dekning”@nb ;
    skos:altLabel “kompletthet”@nb ;
    skos:definition “i hvilken grad datasettet inneholder forventede opplysninger, for en spesifikk brukskontekst”@nb .

Kvalitetsdeldimensjon Underdekning (undercoverage/omission)

Merknad: med noe redaksjonelt avvik tilsvarer dette ISO 19157:2013(E) Annex D.2.2.

Definisjon:

  • I hvilken grad det mangler elementer som forventes å være med, for en spesifikk brukskontekst.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :undercoverage
    a dqv:Dimension ;
    skos:prefLabel “undercoverage”@en ;
    skos:prefLabel “underdekning”@nb ;
    skos:altLabel “omission”@en ;
    skos:definition “the degree to which required information is missing in a particular dataset”@en ;
    skos:broader xxx:coverage # antar at “coverage” er definert.
Kvalitetsmål Manglende elementer (missing items)

Merknad: ISO 19757:2013(E) Table D.5 - Missing item definerer et kvalitetsmål på hvorvidt et gitt/spesifikt element mangler, mens det som omhandles her i dette avsnittet er et kvalitetsmål på hvorvidt det mangler noen (uspesifikke) elementer i datasettet, derfor “elementer”/“items” i flertall.

Definisjon:

  • Hvorvidt det mangler noen elementer i datasettet.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

#definisjon av kvalitetsmål

 :missingItemsMetric
    a dqv:Metric ;
    skos:prefLabel “missing items metric”@en ;
    skos:prefLabel “hvorvidt det mangler elementer”@nb ;
    skos:definition “whether there are some items missing in a particular dataset”@en ;
    dqv:expectedDataType xsd:boolean ;
    dqv:inDimension xxx:undercoverage # antar at “undercoverage” er definert .

#eksempel på angivelse av måleresultat “true” (ja, det mangler noe)

 :measurementMissingItems
    a dqv:QualityMeasurement ;
    dqv:isMeasurementOf :missingItemsMetric ;
    dqv:value “true”^^xsd:boolean .
Kvalitetsmål Antall manglende elementer (number of missing items)

Definisjon:

  • Antall elementer som ikke er i datasettet men som forventes å være med.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

#definisjon av kvalitetsmål

 :numberOfMissingItemsMetric
    a dqv:Metric ;
    skos:prefLabel “number of missing items metric”@en ;
    skos:prefLabel “antall manglende elementer”@nb ;
    skos:definition “number of items that are missing in the dataset”@en ;
    dqv:expectedDataType xsd:integer ;
    dqv:inDimension xxx:undercoverage # antar at “undercoverage” er definert .

#eksempel på angivelse av måleresultat “8” (mangler åtte elementer)

 :measurementNumerOfMissingItems
    a dqv:QualityMeasurement ;
    dqv:isMeasurementOf :numberOfMissingItemsMetric ;
    dqv:value “8”^^xsd:integer .
Kvalitetsmål Andel manglende elementer (rate of missing items)

Definisjon:

  • Forholdet mellom antall elementer som mangler og antall elementer som skulle være med i datasettet.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

#definisjon av kvalitetsmål

 :rateOfMissingItemsMetric
    a dqv:Metric ;
    skos:prefLabel “rate of missing items metric”@en ;
    skos:prefLabel “andel manglende elementer”@nb ;
    skos:definition “ratio between the number of items that are missing and the number of the items that should be present”@en ;
    dqv:expectedDataType xsd:decimal ;
    dqv:inDimension xxx:undercoverage # antar at “undercoverage” er definert .

#eksempel på angivelse av måleresultat “0.08” (mangler 8%)

 :measurementRateOfMissingItems
    a dqv:QualityMeasurement ;
    dqv:isMeasurementOf :rateOfMissingItemsMetric ;
    dqv:value “0.08”^^xsd:decimal .

Kvalitetsdeldimensjon Overdekning (overcoverage/commission)

Overdekning kan defineres på helt tilsvarende måte (men “motsatt vis”) som for underdekning i avsnittet foran, dvs. om elementer som ikke skulle vært i datasettet. Arbeidsgruppen velger derfor ikke å bruke tid på å eksemplifisere denne deldimensjonen.

Merknad: med noe redaksjonelt avvik tilsvarer dette ISO 19157:2013(E) Annex D.2.1.

Definisjon:

  • I hvilken grad datasettet inneholder overflødige elementer

Merknad til definisjonen:

  • Eksklusive [dubletter] (som er en egen kvalitetsdeldimensjon)

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :overcoverage
    a dqv:Dimension ;
    skos:prefLabel “overcoverage”@en ;
    skos:prefLabel “overdekning”@nb ;
    skos:altLabel “commission”@en ;
    skos:definition “the degree to which a particular dataset contains excess items”@en ;
    skos:note “exclusive duplicate”@en ;
    skos:broader xxx:coverage # antar at “coverage” er definert .

Kvalitetsdeldimensjon Selektivitet (selectivity)

Definisjon:

  • I hvilken grad datasettet dekker den statistiske populasjonen.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :selectivity
    a dqv:Dimension ;
    skos:prefLabel “selectivity”@en ;
    skos:prefLabel “selektivitet”@nb ;
    skos:definition “the degree to which a particular dataset represents the statistical population”@en ;
    skos:broader xxx:coverage # antar at “coverage” er definert .

Kvalitetsdeldimensjon Dublett (redundancy/duplicate)

Definisjon:

  • I hvilken grad datasettet inneholder flere enn én forekomst av samme opplysning.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :redundancy
    a dqv:Dimension ;
    skos:prefLabel “redundancy”@en ;
    skos:altLabel “duplicate”@en ;
    skos:prefLabel “dublett”@nb ;
    skos:definition “the degree to which a particular dataset contains more than one instance of the same information”@en ;
    skos:broader xxx:coverage # antar at “coverage” er definert .

Kvalitetsdimensjon Aktualitet (currentness/timeliness)

Definisjon:

  • Graden av “ferskhet” av datasettet, for en spesifikk brukskontekst.

    • Engelsk original: The degree to which data has attributes that are of the right age in a specific context of use.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

 :currentness
    a dqv:Dimension ;
    skos:prefLabel “currentness”@en ;
    skos:altLabel “timeliness”@en ;
    skos:prefLabel “aktualitet”@nb ;
    skos:definition “the degree to which data has attributes that are of the right age in a specific context of use”@en .

Kvalitetsdimensjon Samsvar (compliance/conformity)

Definisjon:

  • I hvilken grad datasettet er i samsvar med standarder, konvensjoner, regler eller lignende som regulerer datakvalitet, for en spesifikk brukskontekst.

    • Engelsk original: The degree to which data has attributes that adhere to standards, conventions or regulations in force and similar rules relating to data quality in a specific context of use.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

 :compliance
    a dqv:Dimension ;
    skos:prefLabel “compliance”@en ;
    skos:altLabel “conformity”@en ;
    skos:prefLabel “samsvar”@nb ;
    skos:definition “the degree to which data has attributes that adhere to standards, conventions or regulations in force and similar rules relating to data quality in a specific context of use”@en .

Kvalitetsbeskrivelse I samsvar med (conforms to)

Definisjon:

  • Datasettet er i samsvar med gitt standard, spesifikasjon, regel og lignende

Uttrykt i DQV:
@prefix dcat: https://www.w3.org/ns/dcat# .
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix dcterms: http://dublincore.org/documents/dcmi-terms/ .
@prefix foaf: http://xmlns.com/foaf/spec/ .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :myDataset
    a dcat:dataset ;
    dcterms:conformsTo :aQualityStandard .

 :aQualityStandard
    a dcterms:Standard ;
    dcterms:title "Standard for ..."@en ;
    dcterms:comment “The standard defines ...”@en ;
    dcterms:issued "2017-08-01"^^xsd:date ;
    foaf:page <https://path.ToThe.Standard/aStandard> ;
    dqv:inDimension xxx:compliance # antar at “compliance” er definert .

Kvalitetsdimensjon Tilgjengelighet (availability)

Definisjon:

  • I hvilken grad datasettet kan nåes av brukere og/eller dataapplikasjoner, for en spesifikk brukskontekst.

    • Engelsk original: The degree to which data has attributes that enable it to be retrieved by authorized users and/or applications in a specific context of use.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

:availability
    a dqv:Dimension ;
    skos:prefLabel “availability”@en ;
    skos:prefLabel “tilgjengelighet”@nb ;
    skos:definition “the degree to which data has attributes that enable it to be retrieved by users and/or applications in a specific context of use”@en .

Kvalitetsdimensjon Relevans (relevancy)

Definisjon:

  • I hvilken grad datasettet inneholder data som dekker behov, for en spesifikk brukskontekst.

    • Engelsk original: Relevancy refers to the provision of information which is in accordance with the task at hand and important to the users’ query.

Uttrykt i DQV:
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .

 :relevancy
    a dqv:Dimension ;
    skos:prefLabel “relevancy”@en ;
    skos:prefLabel “relevans”@nb ;
    skos:definition “the provision of information which is in accordance with the task at hand and important to the users”@en .

Ikke-kvantitativ/fritekst beskrivelse Bruksformål (specific usage)

Definisjon:

  • Fritekst beskrivelse av hva datasettet er opprettet/innsamlet for

Uttrykt i DQV:
@prefix dcat: https://www.w3.org/ns/dcat# .
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix dc: http://dublincore.org/documents/dces/ .
@prefix oa: http://www.w3.org/ns/oa# .
@prefix rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :myDataset
    a dcat:dataset ;
    dqv:hasQualityAnnotation :usageAnnotation .

 :usageAnnotation
    a dqv:QualityAnnotation ;
    skos:prefLabel “usability”@en ;
    skos:prefLabel “egnethet”@nb ;
    skos:definition “hva datasettet er opprettet/innsamlet for”@nb ;
    dqv:inDimension xxx:relevancy # antar at “relevancy” er definert ;
    oa:hasBody :usageDescription ;
    oa:motivatedBy dqv:qualityAssessment .

 :usageDescription
    a oa:TextualBody ;
    rdf:value “datasettet er opprettet for ...” ;
    dc:language “nb” ;
    dc:format “text/plain” .

Ikke-kvantitativ/fritekst beskrivelse Egnethet (usability)

Definisjon:

  • Fritekst beskrivelse av hva datasettet er, og ikke er, egnet til

Uttrykt i DQV:
@prefix dcat: https://www.w3.org/ns/dcat# .
@prefix dqv: https://www.w3.org/TR/vocab-dqv/ .
@prefix skos: http://www.w3.org/2004/02/skos/core# .
@prefix dc: http://dublincore.org/documents/dces/ .
@prefix oa: http://www.w3.org/ns/oa# .
@prefix rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# .
@prefix xsd: https://www.w3.org/TR/xmlschema11-2/ .
@prefix xxx: https://ikke.eksisterer.enda/pre_def_kvalitetsmaal/ ;
skos:note “antar at det blir etablert en oversikt over pre-definerte kvalitets(del)dimensjoner og kvalitetsmål som kan refereres med en URI”@nb .

 :myDataset
    a dcat:dataset ;
    dqv:hasQualityAnnotation :usageAnnotation .

 :usabilityAnnotation
    a dqv:QualityAnnotation ;
    skos:prefLabel “usability”@en ;
    skos:prefLabel “egnethet”@nb ;
    skos:definition “hva datasettet er, og ikke er, egnet til”@nb ;
    dqv:inDimension xxx:relevancy # antar at “relevancy” er definert ;
    oa:hasBody :usabilityDescription ;
    oa:motivatedBy dqv:qualityAssessment .

 :usabilityDescription
    a oa:TextualBody ;
    rdf:value “datasettet er best egnet for å beregne …, men kan by på utfordringer når det også brukes til å analysere ...” ;
    dc:language “nb” ;
    dc:format “text/plain” .

Vedlegg C - URIer/navnerom som er brukt

Prefiks Navnerom Beskrivelse

dqv:

https://www.w3.org/TR/vocab-dqv/

Data Quality Vocabulary

dc:

http://dublincore.org/documents/dces/

Dublin Core Metadata Element Set

dcterms:

http://dublincore.org/documents/dcmi-terms/

Dublin Core Metadata Terms

dcat:

https://www.w3.org/ns/dcat#

Data Catalog Vocabulary (DCAT)

duv

https://www.w3.org/TR/vocab-duv/

Dataset Usage Vocabulary (duv)

foaf:

http://xmlns.com/foaf/spec/

Friend-of-a-Friend Vocabulary

oa:

http://www.w3.org/ns/oa#

The Web Annotation Data Model

skos:

http://www.w3.org/2004/02/skos/core#

Simple Knowledge Organization System

rdf:

http://www.w3.org/1999/02/22-rdf-syntax-ns#

Resource Description Framework (RDF)

rdfs:

http://www.w3.org/2000/01/rdf-schema#

RDF Schema

xsd:

https://www.w3.org/TR/xmlschema11-2/

XML Schema Datatypes

xxx:

Vokabular som ikke finnes, men som trengs etablert

Vedlegg D - Referanser

Informativ del av dette dokumentet.

I dette vedlegget tas med referanser som er aktuelle, men ikke tatt med som normative referanser i dette dokumentet. Referanser er tatt med i en usortert/uprioritert rekkefølge.

Vedlegg E - Arbeidsgruppen

Informativ del av dette dokumentet.

Beskrivelse av arbeidsgruppens oppgave

Arbeidsgruppen fikk i oppgave å utarbeide en spesifikasjon for hvordan kvalitet på datasett skal beskrives i en datakatalog.

Sammensetning av arbeidsgruppen

Kartverket ved Morten Borrebæk har ledet denne arbeidsgruppen. Følgende etater og personer har ellers vært involvert i arbeidet:

Virksomhet Person

Kartverket

Morten Borrebæk (leder av arbeidsgruppen)

Arkivverket

Joachim Fugleberg

Brønnøysundregistrene

Espen Slotvik

Difi

Martin Standley, Jim J. Yang, Øystein Åsnes, Pia Jøsendal

Politiet

Arne Dybdahl

Skattedirektoratet

Katrine Fredriksen

Statens lånekasse

Liv Bergliot Simonsen, Gustav Aagesen

Statens vegvesen

Cecilie H. Bratt, Hilde Austlid

Statistisk sentralbyrå

Hans Viggo Sæbø

Kopimottakere:

Direktoratet for e_-helse_

Åsmund Ahlmann Nyre

Statens pensjonskasse

Andrea Halvorsen, Margaret McLeod

Mot slutten av arbeidet ble det etablert en mindre arbeidsgruppe som fikk i oppgave å foreslå hvordan det foreslåtte faglige innholdet skal kunne representeres ved hjelp av DQV og implementeres i DCAT-AP-NO. Den mindre arbeidsgruppen har bestått av følgende etater/personer:

Virksomhet Person

Kartverket

Morten Borrebæk (leder)

Brønnøysundregistrene

David Norheim

Difi

Martin Standley, Jim J. Yang, Øystein Åsnes

Statistisk sentralbyrå

Hans Viggo Sæbø

Arbeid i arbeidsgruppen

Arbeidsgruppen startet sitt arbeid fra 25. januar 2017. Har hatt halvdagsmøter ca. annen hver uke.

I perioden frem til sommeren 2017 har arbeidsgruppen hovedsakelig jobbet med: * Utvekslet erfaringer fra deltagende virksomheter på datakvalitet og måling av datakvalitet Sett spesielt på relevante internasjonale standarder/spesifikasjoner, på området datakvalitet og beskrivelse av datakvalitet, deriblant W3C DQV, ISO/IEC 25012, ISO 19157, BLUE-ETS, CoP. * Foreslått en standardisert måte å beskrive kvalitet på datasett (se #heading=h.9auauka2obwd[4 Standardisert metode for å beskrive kvalitet på datasett]) * Foreslått noen få hoveddimensjoner og deldimensjoner av datasettkvalitet (se #heading=h.mlfyh2ml9hmk[5 Vedlegg A - Forslag til kvalitetsdimensjoner, kvalitetsdeldimensjoner og kvalitetsmål])

I sommeren 2017, har en mindre arbeidsgruppe jobbet med: * Eksemplifisering av kvalitetsdimensjoner, kvalitetsdeldimensjoner og kvalitetsmål ved å bruke W3C DQV. * Forslag til hvordan dette implementeres i DCAT-AP-NO.

Arbeidet ble avsluttet 13. september 2017.


1. DQV (Data Quality Vocabulary) er i skrivende stund ikke en anbefaling fra W3C ennå, men kun et “arbeidsgruppenotat”.
2. DUV (Dataset Usage Vocabulary) er i skrivende stund ikke en anbefaling fra W3C ennå, men kun et “arbeidsgruppenotat”.
3. EU har i “Commission Implementing Decision (EU) 2017/1358 of 20 July 2017” besluttet å kunne bruke SKOS i offentlige anskaffelser. http://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1500883656509&uri=CELEX:32017D1358
4. For å kunne referere til pre-definerte kvalitetsmål, foreslås det å etablere en “Felles oversikt over definisjoner av kvalitetsmål” (dermed også et kontrollert vokabular). Ved behov kan den enkelte etaten definere nye kvalitetsmål, som så legges inn i felles oversikt, for gjenbruk av andre.
5. Med noe ulik ordvalg, er dimensjonene også definert i Eurostats oppdaterte definisjonsdatabase RAMON, som i stor grad er basert på SDMX som er referert til i StatDCAT-AP.
6. BLUE-ETS er et prosjekt under EUs program Framework Programme 7: BLUE - Enterprise and Trade Statistics, hvor en bl.a. så på kvalitetskriterier for administrative datasett brukt til produksjon av offisiell statistikk.