Skip to Main Content

Veri Yönetimi: Veri Yönetimi Kılavuzu

Bu rehber, Veri Yönetimi ve Veri Yönetimi Planlamasına (DMP) girişte bilgi vermesi amacıyla hazırlanmıştır.

Veri Türleri

Araştırma projeleri sayısız veri türü oluşturur ve toplar. Bir veri yönetimi planını formüle etmek için, verilerinizi dört şekilde kategorilere ayırmak yararlıdır: kaynağa, biçime,  dayanıklılık ve miktara göre.
Verilerin kaynağı nedir?
Veriler birçok farklı kaynaktan gelse de, bunlar dört ana kategoriye ayrılabilir. Verilerinizin geldiği kategoriler, veri yönetimi planınız boyunca yaptığınız seçimleri etkileyecektir.

Gözlemsel

  • Gerçek zamanlı olarak, tipik olarak laboratuvar dışında yakalanır
  • Genellikle en önemlisi yeri doldurulamaz ve bu nedenle korunması gerekir
  • Örnekler: Sensör okumaları, telemetri, anket sonuçları, görüntüler

Deneysel

  • Tipik olarak laboratuarda veya kontrollü koşullar altında üretilir
  • Genellikle tekrarlanabilir, ancak pahalı veya zaman alıcı olabilir
  • Örnekler: gen dizileri, kromatogramlar, manyetik alan okumaları

Simülasyon

  • Test modellerinden üretilen makine
  • Model ve girdiler korunursa çoğaltılabilir.
  • Örnekler: iklim modelleri, ekonomik modeller

Türetilmiş / Derlenmiş

  • Mevcut veri kümelerinden üretilir
  • Tekrar üretilebilir, ancak çok pahalı ve zaman alıcı olabilir
  • Örnekler: metin ve veri madenciliği, derlenmiş veritabanı, 3D modeller

Verilerin şekli nedir?

Veriler, aşağıdakiler de dahil olmak üzere birçok biçimde olabilir:

  • Metin: Saha veya laboratuvar notları, anket cevapları
  • Sayısal: Tablolar, sayımlar, ölçümler
  • Görsel-işitsel: Görüntüler, ses kayıtları, video
  • Modeller, bilgisayar kodları
  • Disipline özgü: Astronomide FITS, kimyada CIF
  • Cihaza özgü: Ekipman çıktıları

Veriler ne kadar kararlı?

Veriler ayrıca proje boyunca (ve belki de projenin sonunda) sabitlenebilir veya değiştirilebilir. Veriler hiç değişti mi? Büyüyorlar mı? Önceden kaydedilmiş veriler düzeltilmeye tabi mi? Veri sürümlerini takip etmeniz gerekecek mi? Zamanla ilgili olarak ortak veri seti kategorileri şunlardır:

  • Sabit veri setleri: Toplandıktan veya oluşturulduktan sonra asla değişmez
  • Büyüyen veri kümeleri: Yeni veriler eklenebilir, ancak eski veriler hiçbir zaman değiştirilmez veya silinmez
  • Revisable veri kümeleri: Yeni veriler eklenebilir ve eski veriler değiştirilebilir veya silinebilir

Bu sorunun cevabı, verileri nasıl düzenlediğinizi ve üstlenmeniz gereken sürüm düzeyini etkiler. Hızla değişen veri kümelerini takip etmek zor olabilir, bu nedenle sizi tüm veri yönetimi sürecine taşımak için bir planla başlamanız zorunludur.

Proje ne kadar veri üretecek?
Örneğin, görüntü verileri genellikle çok fazla depolama alanı gerektirir, bu nedenle tüm görüntülerinizi saklayıp saklamayacağınıza (ve saklamayacaksanız hangisini atacağınıza nasıl karar vereceğinize) ve bu büyük verilerin nereye yerleştirilebileceğine karar vermek istersiniz. Arşivleme kuruluşunuzun depolama ve yedekleme kapasitesini bildiğinizden emin olun.

Yeterince hazırlıklı olabilmek için verilerinizin büyüme oranını tahmin edin. Dikkate alınması gereken bazı sorular:

  • Manuel olarak veri topluyor ve kaydediyor musunuz?
  • Veri toplamak için gözlemsel araçlar ve bilgisayarlar kullanıyor musunuz?
  • Veri koleksiyonunuz yüksek oranda tekrarlar içeriyor mu?
  • Her ay veya 90 günde bir ne kadar veri toplayacaksınız?
  • Projenizin sonuna kadar ne kadar veri toplamayı ve üretmeyi bekliyorsunuz?

Kaynak: DMPTool

Dosya Formatları

Verileriniz için seçtiğiniz dosya biçimi, başkasının bu verilere gelecekte erişebilmesi için birincil faktördür. Verilerinizi yönetmek, paylaşmak ve korumak için hangi dosya biçiminin en iyi olacağını dikkatlice düşünün. Teknoloji sürekli değişiyor ve tüm çağdaş donanım ve yazılımların modası geçiyor. Verinizi üretmek için kullanılan yazılım kullanılamaz hale gelirse verilerinizin nasıl okunacağını düşünün. Bugün seçtiğiniz herhangi bir dosya biçimi gelecekte okunamayabilir olsa da, bazı biçimlerin diğerlerinden daha okunabilir olma olasılığı yüksektir.

Gelecekte erişilebilir olması muhtemel biçimler şunlardır:

  • Anonim olanlar
  • Açık, belgelenmiş standartlarla yazılmış olanlar
  • Araştırma topluluğu tarafından ortak kullanımda olanlar
  • Standart karakter kodlamaları kullanılanlar (yani ASCII, UTF-8)
  • Sıkıştırılmamış (boş alan) olanlar

Tercih edilen biçim seçeneklerine örnekler:

  • Görüntü: JPEG, JPG-2000, PNG, TIFF
  • Metin: Düz metin (TXT), HTML, XML, PDF / A
  • Ses: AIFF, DALGA
  • Kapsayıcılar: TAR, GZIP, ZIP
  • Veritabanları: XML, CSV

Verilerle tescilli dosya biçiminde çalışmanın gerekli veya uygun olduğunu düşünüyorsanız, bunu yapın, ancak işiniz bittiğinde çalışmanızı arşiv biçiminde kaydetmeyi düşünün.

Önerilen biçimler hakkında daha fazla bilgi için, Birleşik Krallık Veri Hizmeti Kılavuzuna bakın.

Tablo Verileri
Tablo şeklinde veriler (özellikle Excel elektronik tabloları gibi) disiplinlerarası alanlarda çok yaygın kullanıldığı için özel bir ilgi gerektirir. Analizinizi Excel'de yaparsanız, işinizi tamamladığınızda .csv biçiminde dışa aktarmak için "Farklı Kaydet ..." komutunu kullanmanız gerekir. En iyi uygulamaları oluşturduğunuzda bakarsanız , e-tablolarınızı anlamak ve dışa aktarmak daha kolay olacaktır.

  • Çalışma sayfasına birden fazla tablo koymayın
  • Her sütun için anlaşılır başlık içeren bir başlık satırı ekleyin
  • Yeni sayfalarda grafikler oluşturun. Bunları verilerle birlikte çalışma sayfasına dahil etmeyin.

Erişilebilirlik için diğer riskler

  • Şifrelenmiş veriler, kaybolan bir anahtarla (ör. Unutulmuş bir şifre) şifrelenmişse etkili bir şekilde kaybolabilir. Bu nedenle, şifrelenmiş veri sunumları kesinlikle önerilmez.
  • Yasal olarak engellenen veriler de kayıp olarak kabul edilebilir.

Kaynak: DMPTool

Dosyaları Düzenleme

Temel Dizin ve Dosya Adlandırma Kuralları
Bunlar, zaten kendi dahili sözleşmeleriniz yoksa veri dosyalarınızı yönetmenize yardımcı olması için izlenmesi gereken temel yönergelerdir. Dosyaları düzenlerken, üst dizin / klasör şunları içermelidir:

  • Proje başlığı
  • Benzersiz tanımlayıcı
  • Tarih (yyyy veya yyyy.mm.dd)

Alt dizin yapısının açık, belgelenmiş adlandırma kurallarına sahip olması gerekir. Ayrı dosyalar veya dizinler, örneğin, bir denemenin her çalışmasına, veri kümesinin her sürümüne ve / veya gruptaki her kişiye uygulanabilir.

  • 3 harfli dosya uzantısını .txt, .pdf veya .csv gibi dosya biçimi için ayırın.
  • Dosya adındaki etkinliği veya projeyi tanımlayın.
  • Dosya veya dizin adlandırma kurallarını kullanarak dosyaların ve veri kümelerinin ayrı sürümlerini belirleyin. Bir dosyanın "doğru" sürümünü belirlemek zorlaşabilir.
  • Ne kadar küçük olursa olsun tüm değişiklikleri bir dosyaya kaydedin. Yedekleme yaptıktan sonra eski sürümleri atın.

Dosyayı Yeniden Adlandırma
Size yardımcı olacak araçlar:

Kaynak: DMPTool