We tested a fine-tuned legal model against two general baselines
Four Norwegian legal questions. Three models. One had a curated corpus and domain fine-tuning. The other two had raw parameter count. The results tell you which approach actually works.
72B teacher knowledge, distilled into a 7B model that runs on a single GPU.
CaveauAI’s automated corpus pipeline curated thousands of Norwegian legal sources: statutes, NOU government reports, case law, and regulatory hearings. A 72B teacher model (Qwen 2.5 72B) generated high-quality legal Q&A training pairs from this corpus.
That knowledge was distilled into an efficient 7B student model via QLoRA fine-tuning. At inference time, the model is paired with RAG retrieval over the same curated corpus—so every answer can cite its sources.
The result: domain expertise that runs on a single GPU, costs a fraction of 72B inference, and produces verifiable answers with real citations.
Three paths, one question
The same Norwegian legal prompt enters all three models. Only the fine-tuned path retrieves source documents before generating an answer.
Side-by-side: three models, same questions
We selected the three strongest contrasts from four Norwegian legal prompts. Every answer was generated live on the same GPU infrastructure.
Utvalget mener at sakkyndige primært bør benyttes på oppdrag fra nemndene og domstolen, i saker der det er behov for en uavhengig utredning for å belyse saken bedre. Barnevernstjenestenes behov for kompetanse i krevende barnevernssaker bør ivaretas på andre måter, ved at Bufetat i større grad må bistå kommunene med tverrfaglige spesialistvurderinger.
Kapittel 18 tar utvalget for seg barn og foreldres rett til gjenforening og samvær. Fosterhjem og institusjon behandles i henholdsvis kapittel 19 og 20. Når barn må flytte ut av hjemmet, så er dette alvorlige inngrep for barna og familiene det gjelder.
Barne- og likestillingsdepartementet sender på høring forslag til ny barnevernslov. Gjeldende barnevernlov er over 25 år gammel, og formålet er å få en mer tilgjengelig lov som er bedre tilpasset dagens samfunn. Barnevernet er først og fremst en hjelpetjeneste, men barnevernloven åpner samtidig for svært inngripende tvangstiltak.
Formålet med barnesamtalen er å legge til rette for at barn kan få informasjon og få uttrykke sine opplevelser, utfordringer, ønsker og behov til foreldrene i forbindelse med mekling. Du kan enten ha en felles samtale med foreldre og barn eller snakke med barnet alene.
Likestillings- og diskrimineringsombudet viser til høringsnotat fra Barne- og familiedepartementet om forslag til endringer i barneloven, med høringsfrist 08.09.2024. Ombudet har som mandat å arbeide for likestilling og mot diskriminering.
Samvær: gjennomføring av samvær etter omsorgsovertakelse – kunnskapsbasert retningslinje. Retningslinjen har vært på høring. Denne retningslinjen gir veiledning om planlegging og gjennomføring av samvær når barn er under offentlig omsorg.
Eidsivating lagmannsrett — Dom, 1997-02-05, LE-1996-00368. Lovhenvisninger: Barneloven (1981) §34, §35, §39, §44, §47. Lagdommer Jørgen Bull. Lagdommer Ragnar Askheim. Tilkalt dommer, sorenskriver Lars Mæhlumshagen med meddommere.
NOU 2016:16 — Ny barnevernslov. Sikring av barnets rett til omsorg og beskyttelse. Norges offentlige utredninger 2016. Formålet er å sikre at barnevernets arbeid og at rettssikkerheten til barn og foreldre blir ivaretatt på en god måte.
Departementet legger med dette fram forslag til endringer i barneloven for å øke beskyttelsen av volds- og overgrepsutsatte barn. Departementet foreslår en ordning i barneloven der domstolen av eget tiltak kan endre foreldreretten og samværsretten til barn der far/stefar eller mor/stemor har blitt dømt for alvorlige overgrep.
By the numbers
Averaged across all four legal prompts. The fine-tuned model is slower because it retrieves source documents before generating—that latency buys verifiability.
What the results prove
Three conclusions from the three-way comparison, each addressing a different dimension of the problem.
Fine-tuning plus corpus beats raw scale
A 7B fine-tuned model with a curated corpus outperforms a general 14B model on domain-specific questions. You do not need to double your GPU budget to get better answers—you need better data engineering.
Domain knowledge > parameter countSame-size comparison is decisive
At 7B parameters, the fine-tuned model with corpus produces detailed, cited answers while the general model produces surface-level guesses with fabricated references. Same hardware, same parameter count—completely different quality.
Eliminates the size variableSources change everything
Both baseline models hallucinated law references. The 14B invented “kloffe lov” for barneloven. The 7B confused foreldreansvar with foreldrepenger and cited a law that doesn’t exist. The fine-tuned model with corpus cited real NOU documents, real court decisions, and real law sections—every answer is verifiable.
Verifiable beats plausibleWhat this means for your team
You do not need massive models
CaveauAI’s pipeline—72B teacher distillation, automated corpus curation, and RAG retrieval—delivers domain expertise from a 7B model that runs on a single GPU. Fraction of the cost, verifiable results.
The pipeline is the product
The differentiator is not the model size. It is the data engineering: automated corpus ingestion, quality training data generation, fine-tuning, and source-backed retrieval at inference time. That pipeline works for any domain.
Same approach, any domain
Legal compliance, HR policy, technical documentation, regulatory intelligence. The same CaveauAI pipeline that produced these results can be applied to your team’s operational documents.
See it yourself
Open CaveauAI, load your documents, and test whether the answers hold up before committing to anything larger.