SANE: veilige omgeving voor analyse van gevoelige data
Gevoelige data blijven ongebruikt
Het uitvoeren van onderzoek met gevoelige gegevens brengt aanzienlijke uitdagingen met zich mee in verschillende onderzoeksdomeinen en heeft gevolgen voor zowel onderzoekers als dataverstrekkers. Onderzoekers worden vaak afgeschrikt door de complexe processen die nodig zijn om toegang te krijgen tot de benodigde datasets. Tegelijkertijd ontbreekt het aanbieders van gegevens vaak aan de nodige infrastructuur of technische expertise om gecontroleerde en veilige omgevingen aan te bieden voor toegang tot data. Wat is er nodig? Een samenwerkingsplatform dat het vinden, delen en verwerken van gevoelige data op een efficiënte en veilige manier mogelijk maakt.
Veilige analyse-omgeving
Om deze uitdaging aan te gaan, hebben wij een veilige en gecontroleerde omgeving ontwikkeld waarmee onderzoekers met gevoelige gegevens van verschillende dataleveranciers kunnen werken: Secure ANalysis Environment (SANE).
SANE maakt gebruik van ISO-270001 gecertificeerde SURF-diensten en heeft grondige penetratietests ondergaan om dataleveranciers een hoog veiligheidsniveau te garanderen. SANE is momenteel beschikbaar op SURF Research Cloud, dat SRAM gebruikt om samenwerkingsverbanden te vormen tussen dataleveranciers en onderzoekers.
Er zijn momenteel twee varianten van SANE beschikbaar: Tinker en Blind.
- Met Tinker SANE krijgt de onderzoeker een virtuele desktop om de data te bekijken en te bewerken. Het is echter niet mogelijk om de data buiten de Tinker-omgeving te brengen. De software die beschikbaar is binnen Tinker SANE wordt beheerd door de dataleverancier.
- Met Blind SANE kan de onderzoeker een niet-interactieve analyse indienen die wordt uitgevoerd met de gevoelige data in een gecontroleerde omgeving, zodat de onderzoeker de data niet kan zien. De analyse kan een script of een Docker-container zijn.
Webinar: Introductie SANE
We introduceerden SANE in een webinar, met een demonstratie van de online omgeving, een showcase van een succesvol pilotproject en een discussie over hoe SANE jouw onderzoeksproject kan helpen.
Voordelen voor de onderzoeker
Een van de belangrijkste voordelen van SANE voor onderzoekers is de vereenvoudiging van de samenwerking met dataleveranciers en de eenvoudige toegang tot gevoelige data. SURF Research Cloud wordt al veel gebruikt binnen de Nederlandse onderzoeksgemeenschap en SANE biedt hetzelfde gebruiksgemak.
Een ander voordeel is de uniforme manier van werken met gevoelige data. Eenmaal bekend met SANE, kan een onderzoeker in de toekomst op dezelfde manier met elke andere dataleverancier werken. Daarnaast kun je als onderzoeker in de meeste gevallen gebruik maken van een subsidie om de rekentijd te financieren, zonder extra kosten.
Voor informatie over financiering check de Kleine Rekentijdaanvragen (NWO) pagina.
Voordelen voor de data-eigenaar
SANE stelt de dataverstrekker in staat om volledige controle te behouden, terwijl de onderzoeker de data toch op een handige manier kan bestuderen. Onderzoekers kunnen de data binnen de SANE-omgeving analyseren, nadat de gegevensverstrekker toegang heeft verleend. Resultaten van de analyses kunnen alleen naar de onderzoeker geëxporteerd worden, buiten de SANE-omgeving, na verificatie door de dataleverancier. De dataleverancier kan zelfs voorkomen dat de onderzoeker de data te zien krijgt. Bovendien heb je met SANE geen interne expertise en middelen nodig om een soortgelijke infrastructuur op te zetten. Nationale subsidies dekken de kosten van de middelen die nodig zijn voor SANE.
In onze kennisbank vind je instructies voor de data-eigenaar en onderzoekers.
Roadmap
Wij werken er voortdurend aan om SANE te verbeteren en meer functies toe te voegen. De volgende items staan momenteel op de roadmap voor SANE en zullen naar verwachting eind 2024 worden uitgebracht:
- Linux virtuele desktop voor Tinker SANE
- Integratie met bestaande dataportalen om het (semi-)automatisch importeren van gevoelige data te ondersteunen
- Meer opties voor softwaretools binnen Tinker SANE
- Multi-factorauthenticatie voor Tinker SANE-login
- Vanuit de community gedreven DTAP (Ontwikkeling, Testen, Acceptatie en Productie)
Pilotprojecten
We hebben met succes verschillende pilotprojecten uitgevoerd op het gebied van sociale en geesteswetenschappen. Twee voorbeelden:
Het 'FIRMBACKBONE'-project :een initiatief van de Universiteit Utrecht (UU) en de Vrije Universiteit Amsterdam (VU Amsterdam) dat gefinancierd wordt door het Platform Digitale Infrastructuur-Sociale Wetenschappen en Geesteswetenschappen (PDI-SSH) voor de periode 2020-2025.
Het 'YouthCohort' project: YOUth is een prospectieve cohortstudie met herhaalde metingen op regelmatige tijdstippen. YOUth volgt twee cohorten: YOUth Baby & Kind (zwangerschap - 7 jaar) en YOUth Kind & Adolescent (8 - 16 jaar).
Partners
De inspanningen om SANE te ontwikkelen begonnen met de toenemende vraag naar een dergelijke omgeving vanuit de sociale en geesteswetenschappen. Het project startte in 2022 voor een periode van drie jaar en werd gefinancierd door een subsidie van PDI-SSH (Platform Digitale Infrastructuur Sociale Wetenschappen & Geesteswetenschappen).
SANE wordt ontwikkeld door SURF en de volgende partners:
- ODISSEI (Open Data Infrastructuur voor Sociale Wetenschappen en Economische Innovaties)
- Koninklijke Bibliotheek (KB)
- Nederlands Instituut voor Beeld en Geluid (NISV)
- CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities)