Skip to content

Commit 0ceafb4

Browse files
authored
Merge pull request #22 from itk-dev/feature/add-dansk-viden-til-dansk-ai
feat: add Dansk Viden til Dansk AI research project
2 parents 6f6fdc7 + eba5ebd commit 0ceafb4

26 files changed

Lines changed: 4018 additions & 0 deletions

File tree

CHANGELOG.md

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -6,6 +6,10 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
66

77
## [Unreleased]
88

9+
### Added — Dansk Viden til Dansk AI Project
10+
- National publication-corpus prototype for Danish public-sector knowledge collection feeding Danish AI training data, with a clear split between an open publication catalogue and a curated, rights-cleared training data bank
11+
- Single-page mock with seven views: forsiden, login/registrering, upload med simuleret AI-katalogisering, søgning med facetter, publikationsdetalje, favoritter og samlinger med base64-pakkede delelinks — bruger `localStorage` som backend
12+
913
### Added — Carbontracker reference in Climate Awareness Nudging
1014
- Reference [carbontracker.info](https://carbontracker.info/) in `co2-research.md` (new "Measurement tools" subsection + sources entry), `integration.md` (API/proxy layer), and `index.md` ("What makes it hard")
1115

CLAUDE.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -50,6 +50,7 @@ Taskfile.yml # Task automation (dev, build, lint
5050
| `book-aarhus` | Book Aarhus | No |
5151
| `opkraevningsoverblik` | Opkrævningsoverblik | No |
5252
| `roboway` | Roboway | No |
53+
| `dansk-viden-til-dansk-ai` | Dansk Viden til Dansk AI | No |
5354

5455
## Conventions
5556

docs/.vitepress/sidebar.mts

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -98,6 +98,16 @@ const roboway: DefaultTheme.SidebarItem[] = [
9898
},
9999
]
100100

101+
const danskVidenTilDanskAi: DefaultTheme.SidebarItem[] = [
102+
{
103+
text: 'Dansk Viden til Dansk AI',
104+
items: [
105+
{ text: 'Overview', link: '/projects/dansk-viden-til-dansk-ai/' },
106+
{ text: 'Interactive Mocks', link: '/projects/dansk-viden-til-dansk-ai/mocks' },
107+
],
108+
},
109+
]
110+
101111
const designSystem: DefaultTheme.SidebarItem[] = [
102112
{
103113
text: 'Design System',
@@ -123,6 +133,7 @@ export function sidebar(): DefaultTheme.Sidebar {
123133
'/projects/book-aarhus/': bookAarhus,
124134
'/projects/opkraevningsoverblik/': opkraevningsoverblik,
125135
'/projects/roboway/': roboway,
136+
'/projects/dansk-viden-til-dansk-ai/': danskVidenTilDanskAi,
126137
'/projects/design-system/': designSystem,
127138
}
128139
}

docs/index.md

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -42,4 +42,8 @@ features:
4242
details: Kommunal platform til styring og overvågning af autonome robotflåder i Aarhus — med livekort, zoneadministration, hændelseshåndtering og operatørportal.
4343
link: /projects/roboway/
4444
linkText: View project
45+
- title: Dansk Viden til Dansk AI
46+
details: Fælles offentlig service til indsamling og deling af danske publikationer som grundlag for dansk AI — med AI-katalogisering, syv rettighedsniveauer og delbare samlinger.
47+
link: /projects/dansk-viden-til-dansk-ai/
48+
linkText: View project
4549
---
Lines changed: 122 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,122 @@
1+
<small>**Project:** Dansk Viden til Dansk AI · **Status:** Prototype · **Date:** May 2026</small>
2+
3+
# Dansk Viden til Dansk AI
4+
5+
**Fælles offentlig service til indsamling, katalogisering og deling af danske publikationer — som grundlag for både videnformidling og træning af danske sprogmodeller.**
6+
7+
---
8+
9+
## Baggrund
10+
11+
Offentlige myndigheder i Danmark producerer hvert år store mængder viden i form af rapporter, analyser, vejledninger, strategier, evalueringer og faglige notater. Publikationerne ligger spredt på myndighedernes egne hjemmesider, bliver typisk kun markedsført kortvarigt og er sjældent samlet i et fælles overblik. De gøres kun i begrænset omfang tilgængelige som strukturerede data.
12+
13+
Samtidig vokser behovet for danske træningsdata. Hvis offentlige AI-løsninger skal fungere godt på dansk, skal modellerne trænes på dansk sprog, danske begreber og dansk forvaltningspraksis — på data hvor kvalitet, ophav og rettigheder er dokumenteret. I dag foregår en stor del af modeltræningen i lukkede miljøer hos private virksomheder, hvor datagrundlaget ofte er uklart og rettighederne vanskelige at gennemskue.
14+
15+
Offentlige publikationer er et oplagt udgangspunkt: de har høj kvalitet, tydelig afsender og stor relevans for dansk offentlig sektor.
16+
17+
## Formål
18+
19+
Prototypen skal undersøge spørgsmålet: **Hvordan kan en fælles offentlig tjeneste til indsamling og deling af publikationer se ud i praksis — med klare rettigheder og AI-assisteret metadata?**
20+
21+
Tjenesten skal understøtte to formål:
22+
23+
- **Et offentligt publikationskatalog** hvor borgere, medarbejdere, forskere og virksomheder kan finde, søge og læse offentlig viden på tværs af myndigheder
24+
- **Et rettighedsclearet og dokumenteret datagrundlag** til træning, evaluering og finjustering af danske sprogmodeller — med tydelig ophav, licens og kvalitet
25+
26+
De to formål skal holdes adskilt teknisk og juridisk. Ikke alt, der kan vises i et publikationskatalog, bør automatisk bruges til AI-træning.
27+
28+
## Hvad prototypen viser
29+
30+
Prototypen er en single-page application med syv visninger. Den bruger `localStorage` som backend og simulerer AI-katalogisering med en kort spinner. Alle seed-publikationer indlæses fra `data/seed-publications.js`.
31+
32+
### Forsiden
33+
34+
Hero med søgefelt, kort introduktion til tjenesten og statistik over publikationer i kataloget (antal publikationer, myndigheder, dokumenttyper).
35+
36+
### Registrering og login
37+
38+
Simpel brugerflade hvor besøgende kan oprette en konto eller logge ind. Brugere gemmes i `localStorage`, og passwords obfuskeres med en triviel hash. Ingen reel auth — kun til demoformål.
39+
40+
### Upload
41+
42+
Tre-trins flow der demonstrerer hele rettigheds- og katalogiseringsforløbet:
43+
44+
1. **Filvalg** — publicisten vælger en fil
45+
2. **AI-katalogisering** (simuleret med ~2 sek spinner) — systemet foreslår titel, resume, emneord, dokumenttype, fagområde, målgruppe og indikatorer på personoplysninger og tredjepartsindhold
46+
3. **Gennemgang** — publicisten godkender eller justerer metadata og tager **aktiv stilling til rettighedsniveau (1–7)** og **risikomarkering (grøn/gul/rød)**
47+
4. **Kvittering** med link til den katalogiserede publikation
48+
49+
### Søgning
50+
51+
Fritekstsøgning kombineret med facetter: myndighed, dokumenttype, fagområde, år, rettighedsniveau og risikomarkering. Resultater vises som kort med kort resume og badges.
52+
53+
### Publikationsside
54+
55+
Detaljevisning af en enkelt publikation: fuld metadata, AI-genereret resume, badges for rettighedsniveau og risiko, samt handlinger for favorit og tilføj-til-samling.
56+
57+
### Favoritter
58+
59+
Personlig favoritliste pr. bruger, gemt i `localStorage`.
60+
61+
### Samlinger
62+
63+
Navngivne samlinger af publikationer, hver med et **delelink**. Delelinket indeholder en base64-pakket kopi af samlingen — så den kan åbnes af andre uden backend. Lange samlinger giver lange links.
64+
65+
---
66+
67+
## Krav
68+
69+
- Offentlige myndigheder skal kunne uploade publikationer direkte eller registrere dem med link til oprindelig placering
70+
- AI-baseret katalogisering skal foreslå metadata efter en fast profil (titel, resume, emneord, dokumenttype, målgruppe, fagområde, sprog, indikatorer på personoplysninger og tredjepartsindhold)
71+
- Publicisten skal tage **aktiv stilling** til rettighedsniveau og risikomarkering — ingen tavse defaults
72+
- Rettighedsmodellen skal være trinvis (fx 1–7) så myndigheder kan starte forsigtigt og udvide over tid
73+
- Publikationskatalog og træningsdatabank skal være **teknisk og juridisk adskilte** lag
74+
- Offentligt søgeinterface skal understøtte fritekst og facetterede filtre på tværs af myndigheder, emner, dokumenttyper, årstal og målgrupper
75+
- Hver publikation skal have en stabil præsentationsside med metadata, downloadlink, oprindelig kilde og rettighedsoplysninger
76+
- Træningsdatabanken skal være kurateret — kun publikationer der opfylder krav til rettigheder, databeskyttelse, kvalitet og teknisk anvendelighed indgår
77+
78+
---
79+
80+
## Uafklarede spørgsmål
81+
82+
Prototypen er et visuelt og funktionelt diskussionsgrundlag — ikke en implementeringsklar løsning. Inden et reelt system kan bygges, skal en række forhold afklares.
83+
84+
### Rettigheder og ophavsret
85+
86+
- **Rettighedsmodellens niveauer.** Hvem definerer de syv niveauer juridisk? Er trappetrinnene de rigtige (registrering → visning → tekstudtræk → RAG → finjustering → fuld træning → fri licens), og hvilke standardlicenser knyttes til hvert niveau?
87+
- **Eksternt producerede rapporter.** Mange rapporter er udarbejdet af konsulenter, universiteter eller analyseinstitutter for myndigheden. Myndigheden har betalt — men har den ret til at give andre adgang til AI-træning på indholdet? Upload-flowet skal håndtere dette.
88+
- **Ansvar ved fejlklassificering.** Hvis en publikation fejlagtigt markeres som tilladt til træning og bagefter viser sig at indeholde tredjepartsmateriale — hvem hæfter? Myndigheden, platformen, eller AI-udvikleren der har brugt data?
89+
90+
### AI-katalogisering
91+
92+
- **Modelvalg og driftsmodel.** Hvilke modeller bruges til metadataudtræk og resume? Kører de hos en offentlig leverandør, on-prem, eller via API til kommerciel leverandør? Hvilke krav stilles til datalokalisering?
93+
- **Hallucinationer og kvalitet.** Hvordan håndteres tilfælde hvor AI'en foreslår forkerte metadata eller resume? Skal alle felter godkendes manuelt, eller er nogle felter "autoritative" uden review?
94+
- **Indikatorer på personoplysninger.** Automatisk screening kan hjælpe, men kan ikke stå alene ved publikationer med forhøjet risiko. Hvilken proces sikrer manuel vurdering af gule og røde publikationer?
95+
96+
### Persondata og etik
97+
98+
- **Risikoklassifikation (grøn/gul/rød).** Hvem træffer den endelige beslutning ved gul og rød? Er det publicisten, en central jurist hos opendata.dk, eller en kombination?
99+
- **Fotos, cases og citater.** Selv offentligt tilgængelige publikationer kan indeholde navngivne borgere. Hvordan skiller vi mellem "offentligt tilgængeligt" og "egnet til AI-træning"?
100+
101+
### Governance og hosting
102+
103+
- **Hvem ejer og driver tjenesten?** Digitaliseringsstyrelsen, Datatilsynet, et kommunalt konsortium, en kombination?
104+
- **Forholdet til opendata.dk.** Skal det være en udvidelse af eksisterende platform, eller en separat tjeneste der linker til opendata.dk?
105+
- **Forholdet til træningscenteret.** Hvordan kobler træningsdatabanken til det planlagte træningscenter for danske sprogmodeller?
106+
107+
### Teknisk
108+
109+
- **PDF-parsing og scannede dokumenter.** Hvilke værktøjer bruges til tekstudtræk? Hvordan håndteres scannede PDF'er uden OCR-lag?
110+
- **Versionering.** Hvad sker der når en myndighed opdaterer en publikation? Beholder vi tidligere versioner i træningsdatabanken?
111+
- **Skala.** Hvor mange publikationer forventes i pilot, og hvor mange efter fuld udrulning?
112+
113+
### Pilot
114+
115+
- **Omfang.** Realistisk antal myndigheder og publikationer i fase 1?
116+
- **Succeskriterier.** Hvad skal være på plads før pilot kan kaldes vellykket — antal publikationer, antal aktive myndigheder, faktisk anvendelse i AI-træning, eller noget andet?
117+
118+
---
119+
120+
## Interaktiv prototype
121+
122+
<a href="/research-projects/projects/dansk-viden-til-dansk-ai/mocks/index.html" class="mock-button" target="_blank">Åbn prototypen ↗</a>
Lines changed: 8 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,8 @@
1+
<small>**Project:** Dansk Viden til Dansk AI</small>
2+
3+
# Interaktive Mocks
4+
5+
---
6+
7+
**<a href="/research-projects/projects/dansk-viden-til-dansk-ai/mocks/index.html" target="_blank">Dansk Viden til Dansk AI — prototype ↗</a>**
8+
Single-page prototype med syv visninger: forsiden, login/registrering, upload med AI-katalogisering, søgning med facetter, publikationsdetalje, favoritter og samlinger med delelink. Bruger `localStorage` som backend.

0 commit comments

Comments
 (0)