Skip to content ↓

Przygotowanie danych

Po zakończonym etapie pozyskiwania danych należy podjąć decyzję, czy dane mogą zostać udostępnione. Dane badawcze najczęściej są udostępniane w formie tak zwanych datasetów, czyli w uporządkowanej i dobrze opisanej strukturze. Zgodnie z zasadą FAIR zbiory danych badawczych powinny być opisane przy pomocy metadanych. Gwarantuje to prawidłowe indeksowanie, wyszukiwanie i ponowne użycie tych danych.

Selekcja danych
Nie wszystkie muszą być udostępniane. Należy wziąć pod uwagę wymagania instytucji finansującej, wartość naukową danych, unikać duplikowania z istniejącymi już podobnymi zbiorami danych oraz koszty związane z długoterminowych przechowywaniem danych i archiwizacją

Usunięcie danych wrażliwych
Jeśli dane zawierają informacje pozwalające na identyfikację osób, należy je poddać procesowi anonimizacji lub pseudonimizacji.

  • anonimizacja – usunięcie powiązań między danymi osobowymi a osobą, której dotyczą; anonimizacja jest procesem trwałym i nieodwracalnym,
  • pseudonimizacja – przetworzenie danych osobowych w taki sposób, by nie można ich było przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji; pseudonimizacja jest procesem odwracalnym.

Wybór właściwych formatów plików z danymi
Dane powinny zostać opublikowane w ogólnodostępnym formacie, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie.

Nazewnictwo plików
Nadanie odpowiednich nazw folderom i plikom. Dobrą praktyką jest, aby miały charakter opisowy, który będzie odzwierciedlał zawartość pliku. 
W przypadku stosowania dat w nazwach plików dobrą praktyką jest zapis zgodny z formatem ISO np. RRRRMMDD.  Jeśli w nazwach plików korzysta się z sekwencyjnego systemu numeracji zalecamy używać zer wiodących np. 001, 002, ...010, 011 ... 100, 101. 

Wersjonowanie
Każda zmiana i wersja powinna być uwzględniona oraz przechowywana.

Metadane
Dane powinny być opisane w usystematyzowany sposób za pomocą metadanych, tak aby można było je zindeksować, wyszukać oraz ponowne wykorzystać. 

Plik README
Dołącz plik README, który zawiera podstawowe informacje dotyczące udostępnianych danych.
README zwykle opisuje pochodzenie, kontekst i sposób zbierania danych badawczych oraz określa, w jaki sposób mogą być ponownie wykorzystywane. Osoby korzystające z udostępnionych danych powinny mieć informację, co zawierają pliki, do których części badań się odnoszą, jak dane zostały wygenerowane, przetworzone lub przekształcone oraz czy istnieją jakiekolwiek ograniczenia dotyczące tego, kto może je przeglądać lub uzyskiwać do nich dostęp. 

Format plików

Może być dowolny, najważniejsze, by wybierać taki format, który zapewnia powszechny dostęp i otwartość (standardowe kodowanie ASCII, UTF-8). Najlepiej jest wykorzystywać otwarte oprogramowanie do odczytu danych.

preferowane: .odt, .ods.

akceptowalne: .doc,.docx, .pdf, .xml, .htm, .html, .rtf, .xlsx, .epub

preferowane: .csv, .tsv, .spss, .por

akceptowalne: .xls, .sav, .dta, .mdb/.accdb

preferowane: .tiff, .jpeg2000, .png, .svg

akceptowalne: .gif, .jpg, .ai, .cgm

preferowane: .wav, .aif, .aiff, .flac

akceptowalne: .mp3, .m4p, .m4a, .mid, .midi, .ogg

preferowane: .avi

akceptowalne: .mov, .wmv, .mpg

preferowane: .pdf, .opg

akceptowalne: .pptx

preferowane: .shp, .shx, .dbf, .sbn, .sbx, .prj, .xml

akceptowalne: .PostGIS, .tif, .tfw, .fde, .adf, .dat, .nit

Jak przygotować pliki z danymi?

  1. Unikaj zabezpieczania plików hasłem, ich szyfrowania i kompresji. 
  2. Nie stosuj znaków specjalnych w nazwach plików i folderów takich jak: ~ ! @ # $ % ^ & * ( ) ` ; : < > ? . , [ ] { } ' ” | oraz znaków spoza standardowego kodowania ASCII np. ¢ ™ ®, umlauty (ä ö ü), znaki diakrytyczne (à é ô) itp.
  3. Prawidłowo korzystaj z rozszerzeń plików. Rozszerzenia typu .txt, .pdf powinny być zgodne z formatem pliku. Należy unikać zapisywania plików bez rozszerzenia lub z użyciem znaków specjalnych w rozszerzeniu pliku.
  4. Przeprowadź selekcję danych – udostępnij te o znaczeniu naukowym. Usuń niepotrzebne dane i unikaj przechowywania identycznych plików w kilku miejscach.
  5. Aby umożliwić długoterminową czytelność plików, wybierz odpowiedni format. Preferowane powinny być formaty niezastrzeżone, które są zgodne z otwartymi i odpowiednio udokumentowanymi standardami. Zaleca się konwersję niestandardowych formatów plików do formatów otwartych, chyba że konwersja odbędzie się ze stratą jakości danych. Wówczas dobrą praktyką jest udostępnienie danych w obu formatach – zamkniętym i otwartym.
  6. Do kompresji danych używaj programu ZIP lub tar. Zaletą tych formatów jest to, że wszystkie pliki w pakiecie archiwalnym są przesyłane (i pobierane) w jednej partii. Co więcej, struktura folderów pozostaje niezmieniona. Ponieważ nieskompresowane pliki *.zip i *.tar są dobrze znormalizowanymi formatami, można je rozpakować w dalszej perspektywie czasowej. Unikaj zbyt długich ścieżek w strukturze folderów. Długie nazwy plików w połączeniu ze szczegółową hierarchią folderów mogą prowadzić do ścieżek o długości przekraczającej 256 znaków, co powoduje pewne problemy dla użytkowników systemu Windows. Takie pliki nie mogą być całkowicie rozpakowane przez WinZip. Dlatego zalecamy stosowanie ścieżek o długości mniejszej niż około 200 znaków. Duże zestawy danych mogą prowadzić do trudności podczas przesyłania danych, a także podczas pobierania danych za pomocą przeglądarki. Zalecamy dzielenie dużych pakietów danych.

Opracowano na podstawie Research Data Management and Digital Curation

Kiedy dane mogą lub muszą być zamknięte?

konieczność komercjalizacji wyników badań (np. wynalazki, przedmioty prawa własności przemysłowej)

Istnieją przeszkody prawne uniemożliwiające otwarcie części lub całości danych badawczych (ograniczenia wynikające z tytułu poszanowania praw autorskich, ochrony danych osobowych, brak zgody na udostępnienie danych w przypadkach, gdy taka zgoda jest wymagana itd.)

mają wpływ na bezpieczeństwo narodowe, bezpieczeństwo w wymiarze globalnym, na bezpieczeństwo obiektów, podmiotów, instytucji lub osób, których te dane dotyczą

Stopka