|
| 1 | +<small>**Project:** Dansk Viden til Dansk AI · **Status:** Prototype · **Date:** May 2026</small> |
| 2 | + |
| 3 | +# Dansk Viden til Dansk AI |
| 4 | + |
| 5 | +**Fælles offentlig service til indsamling, katalogisering og deling af danske publikationer — som grundlag for både videnformidling og træning af danske sprogmodeller.** |
| 6 | + |
| 7 | +--- |
| 8 | + |
| 9 | +## Baggrund |
| 10 | + |
| 11 | +Offentlige myndigheder i Danmark producerer hvert år store mængder viden i form af rapporter, analyser, vejledninger, strategier, evalueringer og faglige notater. Publikationerne ligger spredt på myndighedernes egne hjemmesider, bliver typisk kun markedsført kortvarigt og er sjældent samlet i et fælles overblik. De gøres kun i begrænset omfang tilgængelige som strukturerede data. |
| 12 | + |
| 13 | +Samtidig vokser behovet for danske træningsdata. Hvis offentlige AI-løsninger skal fungere godt på dansk, skal modellerne trænes på dansk sprog, danske begreber og dansk forvaltningspraksis — på data hvor kvalitet, ophav og rettigheder er dokumenteret. I dag foregår en stor del af modeltræningen i lukkede miljøer hos private virksomheder, hvor datagrundlaget ofte er uklart og rettighederne vanskelige at gennemskue. |
| 14 | + |
| 15 | +Offentlige publikationer er et oplagt udgangspunkt: de har høj kvalitet, tydelig afsender og stor relevans for dansk offentlig sektor. |
| 16 | + |
| 17 | +## Formål |
| 18 | + |
| 19 | +Prototypen skal undersøge spørgsmålet: **Hvordan kan en fælles offentlig tjeneste til indsamling og deling af publikationer se ud i praksis — med klare rettigheder og AI-assisteret metadata?** |
| 20 | + |
| 21 | +Tjenesten skal understøtte to formål: |
| 22 | + |
| 23 | +- **Et offentligt publikationskatalog** hvor borgere, medarbejdere, forskere og virksomheder kan finde, søge og læse offentlig viden på tværs af myndigheder |
| 24 | +- **Et rettighedsclearet og dokumenteret datagrundlag** til træning, evaluering og finjustering af danske sprogmodeller — med tydelig ophav, licens og kvalitet |
| 25 | + |
| 26 | +De to formål skal holdes adskilt teknisk og juridisk. Ikke alt, der kan vises i et publikationskatalog, bør automatisk bruges til AI-træning. |
| 27 | + |
| 28 | +## Hvad prototypen viser |
| 29 | + |
| 30 | +Prototypen er en single-page application med syv visninger. Den bruger `localStorage` som backend og simulerer AI-katalogisering med en kort spinner. Alle seed-publikationer indlæses fra `data/seed-publications.js`. |
| 31 | + |
| 32 | +### Forsiden |
| 33 | + |
| 34 | +Hero med søgefelt, kort introduktion til tjenesten og statistik over publikationer i kataloget (antal publikationer, myndigheder, dokumenttyper). |
| 35 | + |
| 36 | +### Registrering og login |
| 37 | + |
| 38 | +Simpel brugerflade hvor besøgende kan oprette en konto eller logge ind. Brugere gemmes i `localStorage`, og passwords obfuskeres med en triviel hash. Ingen reel auth — kun til demoformål. |
| 39 | + |
| 40 | +### Upload |
| 41 | + |
| 42 | +Tre-trins flow der demonstrerer hele rettigheds- og katalogiseringsforløbet: |
| 43 | + |
| 44 | +1. **Filvalg** — publicisten vælger en fil |
| 45 | +2. **AI-katalogisering** (simuleret med ~2 sek spinner) — systemet foreslår titel, resume, emneord, dokumenttype, fagområde, målgruppe og indikatorer på personoplysninger og tredjepartsindhold |
| 46 | +3. **Gennemgang** — publicisten godkender eller justerer metadata og tager **aktiv stilling til rettighedsniveau (1–7)** og **risikomarkering (grøn/gul/rød)** |
| 47 | +4. **Kvittering** med link til den katalogiserede publikation |
| 48 | + |
| 49 | +### Søgning |
| 50 | + |
| 51 | +Fritekstsøgning kombineret med facetter: myndighed, dokumenttype, fagområde, år, rettighedsniveau og risikomarkering. Resultater vises som kort med kort resume og badges. |
| 52 | + |
| 53 | +### Publikationsside |
| 54 | + |
| 55 | +Detaljevisning af en enkelt publikation: fuld metadata, AI-genereret resume, badges for rettighedsniveau og risiko, samt handlinger for favorit og tilføj-til-samling. |
| 56 | + |
| 57 | +### Favoritter |
| 58 | + |
| 59 | +Personlig favoritliste pr. bruger, gemt i `localStorage`. |
| 60 | + |
| 61 | +### Samlinger |
| 62 | + |
| 63 | +Navngivne samlinger af publikationer, hver med et **delelink**. Delelinket indeholder en base64-pakket kopi af samlingen — så den kan åbnes af andre uden backend. Lange samlinger giver lange links. |
| 64 | + |
| 65 | +--- |
| 66 | + |
| 67 | +## Krav |
| 68 | + |
| 69 | +- Offentlige myndigheder skal kunne uploade publikationer direkte eller registrere dem med link til oprindelig placering |
| 70 | +- AI-baseret katalogisering skal foreslå metadata efter en fast profil (titel, resume, emneord, dokumenttype, målgruppe, fagområde, sprog, indikatorer på personoplysninger og tredjepartsindhold) |
| 71 | +- Publicisten skal tage **aktiv stilling** til rettighedsniveau og risikomarkering — ingen tavse defaults |
| 72 | +- Rettighedsmodellen skal være trinvis (fx 1–7) så myndigheder kan starte forsigtigt og udvide over tid |
| 73 | +- Publikationskatalog og træningsdatabank skal være **teknisk og juridisk adskilte** lag |
| 74 | +- Offentligt søgeinterface skal understøtte fritekst og facetterede filtre på tværs af myndigheder, emner, dokumenttyper, årstal og målgrupper |
| 75 | +- Hver publikation skal have en stabil præsentationsside med metadata, downloadlink, oprindelig kilde og rettighedsoplysninger |
| 76 | +- Træningsdatabanken skal være kurateret — kun publikationer der opfylder krav til rettigheder, databeskyttelse, kvalitet og teknisk anvendelighed indgår |
| 77 | + |
| 78 | +--- |
| 79 | + |
| 80 | +## Uafklarede spørgsmål |
| 81 | + |
| 82 | +Prototypen er et visuelt og funktionelt diskussionsgrundlag — ikke en implementeringsklar løsning. Inden et reelt system kan bygges, skal en række forhold afklares. |
| 83 | + |
| 84 | +### Rettigheder og ophavsret |
| 85 | + |
| 86 | +- **Rettighedsmodellens niveauer.** Hvem definerer de syv niveauer juridisk? Er trappetrinnene de rigtige (registrering → visning → tekstudtræk → RAG → finjustering → fuld træning → fri licens), og hvilke standardlicenser knyttes til hvert niveau? |
| 87 | +- **Eksternt producerede rapporter.** Mange rapporter er udarbejdet af konsulenter, universiteter eller analyseinstitutter for myndigheden. Myndigheden har betalt — men har den ret til at give andre adgang til AI-træning på indholdet? Upload-flowet skal håndtere dette. |
| 88 | +- **Ansvar ved fejlklassificering.** Hvis en publikation fejlagtigt markeres som tilladt til træning og bagefter viser sig at indeholde tredjepartsmateriale — hvem hæfter? Myndigheden, platformen, eller AI-udvikleren der har brugt data? |
| 89 | + |
| 90 | +### AI-katalogisering |
| 91 | + |
| 92 | +- **Modelvalg og driftsmodel.** Hvilke modeller bruges til metadataudtræk og resume? Kører de hos en offentlig leverandør, on-prem, eller via API til kommerciel leverandør? Hvilke krav stilles til datalokalisering? |
| 93 | +- **Hallucinationer og kvalitet.** Hvordan håndteres tilfælde hvor AI'en foreslår forkerte metadata eller resume? Skal alle felter godkendes manuelt, eller er nogle felter "autoritative" uden review? |
| 94 | +- **Indikatorer på personoplysninger.** Automatisk screening kan hjælpe, men kan ikke stå alene ved publikationer med forhøjet risiko. Hvilken proces sikrer manuel vurdering af gule og røde publikationer? |
| 95 | + |
| 96 | +### Persondata og etik |
| 97 | + |
| 98 | +- **Risikoklassifikation (grøn/gul/rød).** Hvem træffer den endelige beslutning ved gul og rød? Er det publicisten, en central jurist hos opendata.dk, eller en kombination? |
| 99 | +- **Fotos, cases og citater.** Selv offentligt tilgængelige publikationer kan indeholde navngivne borgere. Hvordan skiller vi mellem "offentligt tilgængeligt" og "egnet til AI-træning"? |
| 100 | + |
| 101 | +### Governance og hosting |
| 102 | + |
| 103 | +- **Hvem ejer og driver tjenesten?** Digitaliseringsstyrelsen, Datatilsynet, et kommunalt konsortium, en kombination? |
| 104 | +- **Forholdet til opendata.dk.** Skal det være en udvidelse af eksisterende platform, eller en separat tjeneste der linker til opendata.dk? |
| 105 | +- **Forholdet til træningscenteret.** Hvordan kobler træningsdatabanken til det planlagte træningscenter for danske sprogmodeller? |
| 106 | + |
| 107 | +### Teknisk |
| 108 | + |
| 109 | +- **PDF-parsing og scannede dokumenter.** Hvilke værktøjer bruges til tekstudtræk? Hvordan håndteres scannede PDF'er uden OCR-lag? |
| 110 | +- **Versionering.** Hvad sker der når en myndighed opdaterer en publikation? Beholder vi tidligere versioner i træningsdatabanken? |
| 111 | +- **Skala.** Hvor mange publikationer forventes i pilot, og hvor mange efter fuld udrulning? |
| 112 | + |
| 113 | +### Pilot |
| 114 | + |
| 115 | +- **Omfang.** Realistisk antal myndigheder og publikationer i fase 1? |
| 116 | +- **Succeskriterier.** Hvad skal være på plads før pilot kan kaldes vellykket — antal publikationer, antal aktive myndigheder, faktisk anvendelse i AI-træning, eller noget andet? |
| 117 | + |
| 118 | +--- |
| 119 | + |
| 120 | +## Interaktiv prototype |
| 121 | + |
| 122 | +<a href="/research-projects/projects/dansk-viden-til-dansk-ai/mocks/index.html" class="mock-button" target="_blank">Åbn prototypen ↗</a> |
0 commit comments