Skip to content ↓

Przygotowanie danych

Po zakończonym etapie pozyskiwania danych należy podjąć decyzję, czy dane mogą zostać udostępnione. Dane badawcze najczęściej są udostępniane w formie tak zwanych datasetów, czyli w uporządkowanej i dobrze opisanej strukturze. Zgodnie z zasadą FAIR zbiory danych badawczych powinny być opisane przy pomocy metadanych. Gwarantuje to prawidłowe indeksowanie, wyszukiwanie i ponowne użycie tych danych.

Selekcja danych
Nie wszystkie muszą być udostępniane. Należy wziąć pod uwagę wymagania instytucji finansującej, wartość naukową danych, unikać duplikowania z istniejącymi już podobnymi zbiorami danych oraz koszty związane z długoterminowych przechowywaniem danych i archiwizacją

Usunięcie danych wrażliwych
Jeśli dane zawierają informacje pozwalające na identyfikację osób, należy je poddać procesowi anonimizacji lub pseudonimizacji.

  • anonimizacja – usunięcie powiązań między danymi osobowymi a osobą, której dotyczą; anonimizacja jest procesem trwałym i nieodwracalnym,
  • pseudonimizacja – przetworzenie danych osobowych w taki sposób, by nie można ich było przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji; pseudonimizacja jest procesem odwracalnym.

Wybór właściwych formatów plików z danymi
Dane powinny zostać opublikowane w ogólnodostępnym formacie, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie.

Nazewnictwo plików
Nadanie odpowiednich nazw folderom i plikom. Dobrą praktyką jest, aby miały charakter opisowy, który będzie odzwierciedlał zawartość pliku.

Wersjonowanie
Każda zmiana i wersja powinna być uwzględniona oraz przechowywana.

Metadane
Dane powinny być opisane w usystematyzowany sposób za pomocą metadanych, tak aby można było je zindeksować, wyszukać oraz ponowne wykorzystać. 

Format plików

Może być dowolny, najważniejsze, by wybierać taki format, który zapewnia powszechny dostęp i otwartość (standardowe kodowanie ASCII, UTF-8). Najlepiej jest wykorzystywać otwarte oprogramowanie do odczytu danych.

preferowane: .odt, .ods.

akceptowalne: .doc,.docx, .pdf, .xml, .htm, .html, .rtf, .xlsx, .epub

preferowane: .csv, .tsv, .spss, .por

akceptowalne: .xls, .sav, .dta, .mdb/.accdb

preferowane: .tiff, .jpeg2000, .png, .svg

akceptowalne: .gif, .jpg, .ai, .cgm

preferowane: .wav, .aif, .aiff, .flac

akceptowalne: .mp3, .m4p, .m4a, .mid, .midi, .ogg

preferowane: .avi

akceptowalne: .mov, .wmv, .mpg

preferowane: .pdf, .opg

akceptowalne: .pptx

preferowane: .shp, .shx, .dbf, .sbn, .sbx, .prj, .xml

akceptowalne: .PostGIS, .tif, .tfw, .fde, .adf, .dat, .nit

Kiedy dane mogą lub muszą być zamknięte?

konieczność komercjalizacji wyników badań (np. wynalazki, przedmioty prawa własności przemysłowej)

Istnieją przeszkody prawne uniemożliwiające otwarcie części lub całości danych badawczych (ograniczenia wynikające z tytułu poszanowania praw autorskich, ochrony danych osobowych, brak zgody na udostępnienie danych w przypadkach, gdy taka zgoda jest wymagana itd.)

mają wpływ na bezpieczeństwo narodowe, bezpieczeństwo w wymiarze globalnym, na bezpieczeństwo obiektów, podmiotów, instytucji lub osób, których te dane dotyczą

Stopka