Tanımlayıcı İstatistikler: Temel Kavramlar, Formüller ve Uygulamalı Örnekler
- VestibuloCochlear
- 29 Oca
- 6 dakikada okunur
Güncelleme tarihi: 30 Oca
İstatistiksel analizlerin ilk ve en kritik adımı, tanımlayıcı istatistikler (descriptive statistics) yardımıyla veriyi “okunabilir” hale getirmektir. Özellikle sağlık ve biyolojik bilimlerde elde edilen veri setleri, farklı türde ve sayıda gözlemler içerir. Tanımlayıcı istatistikler, bu gözlemleri özetlemek, verinin genel eğilimini ve yayılımını anlamak için kullanılır.
Bu yazıda, öncelikle nitel ve nicel değişkenler için başlıca tanımlayıcı istatistikleri inceleyecek; ardından “yer ölçüleri (merkezi eğilim)”, “yaygınlık ölçüleri” ve “şekil ölçüleri”ni formüller ve uygulamalı örneklerle ele alacağız.
1. Nitel (Kategorik) ve Nicel (Sayısal) Değişkenler
Nitel (kategorik) değişkenler için en yaygın tanımlayıcı istatistikler, frekans (sıklık) ve yüzde dağılımlarıdır. Örneğin, “Sigara kullanıyor/kullanmıyor” şeklindeki bir değişkenin kaç kişide “Evet”, kaç kişide “Hayır” çıktığı ve bunun yüzdelikleri sıklıkla raporlanır.
Nicel (sayısal) değişkenler için ise ortalama, medyan, mod gibi merkezi yer ölçüleri; standart sapma, varyans gibi yaygınlık ölçüleri ve çarpıklık-kurtosis gibi şekil ölçüleri hesaplanır.
Örnek (Nitel Değişken): Bir hastanede 100 hastanın 40’ının sigara içtiğini, 60’ının içmediğini raporlarken; “Sigara İçenlerin Oranı = %40” ve “Sigara İçmeyenlerin Oranı = %60” ifadesi kullanılır.
2. Nicel Değişkenler için Tanımlayıcı İstatistikler
Nicel değişkenleri tanımlarken 3 ana grup ölçü bir arada düşünülmelidir:
Yer Ölçüleri (Measures of Location)
Yaygınlık Ölçüleri (Measures of Spread)
Şekil Ölçüleri (Measures of Shape)
Bunları tek tek ele alarak örneklerle açıklayalım.
2.1. Yer Ölçüleri (Merkezi Eğilim Ölçüleri ve Konum Ölçüleri)
2.1.1. Merkezi Yer Ölçüleri (Measures of Central Tendency)
Bir veri kümesinin “merkezde” toplandığı değeri gösteren ve tüm veriyi tek bir değerle özetleyen ölçülerdir. En yaygın kullanılanları aritmetik ortalama (mean), ortanca (median) ve tepe değeri (mod) şeklinde sıralanır.
A. Aritmetik Ortalama (Arithmetic Mean)
Tanım: Tüm gözlem değerlerinin ( X1,X2,…,Xn ) toplanıp gözlem sayısına (n) bölünmesiyle elde edilir.


Verideki tüm gözlemler hesaba katılır.
Aşırı değerlere (outliers) duyarlıdır; çok küçük veya çok büyük değerler ortalamayı önemli ölçüde etkileyebilir.
Örnek (Yeni Doğan Ağırlığı):
Bir hafta içinde doğan 20 bebeğin doğum ağırlıkları (gram) listelenmiş olsun (küçükten büyüğe sıralandığında):
"2069, 2581, 2759, 2834, 2838, 2841, 3031, 3101, 3200, 3245, 3248, 3260, 3265, 3314, 3323, 3484, 3541, 3609, 3649, 4146"
Yapılan hesaplamalara göre verinin aritmetik ortalaması şu şekilde bulunmuştur:
Xˉ=3166.9 gram
(Verilerden görüldüğü üzere, tüm değerler toplanıp 20’ye bölünmesi sonucu elde edilmiştir.)
B. Ortanca (Median)
Tanım: Sıralanmış bir veri setinde ortadaki gözlem değeridir. Veri seti sıralandığında, gözlem sayısı tek ise tam ortadaki gözlem; çift ise ortadaki iki gözlemin ortalamasıdır.
Gözlem sayısı n tek ise:

Gözlem sayısı n çift ise:

Ortalama aşırı değerlerden etkilenirken, ortanca (medyan) aşırı değerlere karşı daha dayanıklıdır.
Örnek (Yeni Doğan Ağırlığı - Medyan):Yukarıdaki 20 bebek için n=20 ve veri küçükten büyüğe sıralanmıştır.
(n+1)/2 = (20+1) / 2 = 10.5. Bu, 10. ile 11. gözlem değerlerinin ortalaması demektir.
10. gözlem: 3245
11. gözlem: 3248

C. Tepe Değeri (Mode)
Tanım: Veride en sık tekrar eden gözlem değeridir. Bazı veri kümelerinde birden fazla tepe değeri olabilir (bimodal, multimodal) ya da hiç tepe değeri bulunmayabilir.
Örnek (0-3 Yaş Arası Boy Ölçümleri):Bir grup çocuğun boy ölçümleri (cm) şöyle olsun (n=20):
"60, 60, 65, 68, 70, 70, 75, 75, 75, 75, 80, 80, 85, 88, 90, 90, 95, 100, 103, 105"
Veride 75 değeri 4 kez tekrar etmiş ve en sık görülen değer olmuştur.
Tepe Değeri (Mod) = 75 cm
Tepe değeri, özellikle nitel değişkenlerde (en çok gözlenen kategori) veya nicel veri içerisinde “sık tekrarlanan kritik bir değeri” anlamak istediğimizde işe yarar.
2.1.2. Konum Ölçüleri (Measures of Position)
Bu ölçüler, verinin belli bir yüzdesinin veya çeyreğinin nereye düştüğünü gösterir.
Yüzdelikler (Percentiles): Veriyi 100 eşit parçaya böler. Örneğin P15 verilerin %15’inin bu değerin altında olduğunu belirtir.
Çeyrekler (Quartiles): Veriyi 4 eşit parçaya böler. Sıklıkla kullanılan çeyrekler:
Q1: 1. çeyrek (verinin %25’i bu değerin altında)
Q2: 2. çeyrek (medyan ile aynıdır, %50’lik kısım)
Q3: 3. çeyrek (verinin %75’i bu değerin altında)

Örnek (0-3 Yaş Arası Boy Ölçümleri - Çeyrekler)
Yukarıdaki boy verilerinde n=20. Genellikle çeyrek değerleri, (n+1)/4, (n+1)/2, ve 3(n+1)/4 formülleriyle sıralanmış veride lineer enterpolasyon kullanarak bulunur.
Q1 = (n+1)/4 = (20+1)/4 = 5.25. 5. gözlem ile 6. gözlem arasındaki değerin %25’i kadar ilerisine bakarak hesaplanır.
Q2 = (n+1)/2 = 10.5. 10. ve 11. gözlemlerin ortalaması (zaten medyan).
Q3 = 3(n+1)/4 = 15.75. 15. ile 16. gözlem arasındaki değerin %75’i kadar ilerisi.
Örnekte (kısa gösterim):
Q1 = 61.25 cm
Q2 = 72.50 cm
Q3 = 83.75 cm
Bu demektir ki, çocukların %25’inin boyu 61.25 cm’den kısa, %25’inin boyu da 83.75 cm’den
uzundur.
2.2. Yaygınlık (Dağılım) Ölçüleri (Measures of Spread)
Yalnızca bir merkezi yer ölçüsü (örneğin ortalama) raporlamak, verinin tüm dağılımını anlatmaya yetmez. Dağılımın ne kadar geniş veya dar olduğunu belirlemek için yaygınlık ölçüleri kullanılır.
En sık kullanılan yaygınlık ölçüleri:
Dağılım Aralığı (Range)
Çeyrekler Arası Dağılım Aralığı (IQR)
Standart Sapma (Standard Deviation)
Varyasyon Katsayısı (Coefficient of Variation)
2.2.1. Dağılım Aralığı (Range)
Range = max (Xi) − min (Xi)
Verideki en büyük ve en küçük değer arasındaki farktır.
Aykırı değerlere çok duyarlıdır.
Örnek (A ve B Sınıfı Not Dağılımları)
A sınıfı notlar: min=45, maks=75 ⇒\Rightarrow⇒ Range=30
B sınıfı notlar: min=10, maks=100 ⇒\Rightarrow⇒ Range=90
İki grubun da ortalaması 60 olsa bile dağılımları tamamen farklıdır. B sınıfındaki öğrencilerin notları çok daha geniş bir aralığa yayılmıştır.
2.2.2. Çeyrekler Arası Dağılım Aralığı (IQR)

IQR = Q3 − Q1
Verinin orta %50’lik kısmının aralığını verir.
Range kadar olmasa da aşırı değerlere karşı daha dayanıklıdır.
Örnek (A ve B Sınıfı)
A Sınıfı: Q1 = 57, Q3 = 63 ⇒ IQR = 6
B Sınıfı: Q1 = 44, Q3 = 73 ⇒ IQR = 29
Bu farklılık, B Sınıfı’nın dağılımının “daha yaygın” olduğunun altını çizer.
2.2.3. Standart Sapma (Standard Deviation) ve Varyans
Standart Sapma (s), gözlemlerin aritmetik ortalamaya ortalama uzaklığı şeklinde yorumlanabilir.


Aşırı değerlere karşı duyarlıdır; aykırı gözlemler, standart sapmayı yükseltebilir.
Araştırma bulgularında, genelde aritmetik ortalama ile birlikte raporlanır. (Örn. 3166.9±200 gram)

Bu, ölçümlerin ortalama (71 cm) etrafında ortalama 14.2 cm sapma gösterdiğini söyler.
2.2.4. Varyasyon Katsayısı (Coefficient of Variation, CV)
Eğer birden fazla değişkenin yaygınlığını kıyaslamak (özellikle farklı birim veya ölçeklerde) istersek, varyasyon katsayısı (CV) kullanılır.

Değişkenin ortalaması ve standart sapması bilindiğinde, oransal olarak ne kadar değişkenlik olduğunu gösterir.
Ölçüm birimleri farklı olan verileri karşılaştırmada çok kullanışlıdır.

2.3. Şekil Ölçüleri (Measures of Shape)
Bir dağılımın simetrik mi, sağa çarpık mı yoksa sola çarpık mı olduğunu anlamak ve sivri/ basık yapısını değerlendirmek için çarpıklık (skewness) ve basıklık (kurtosis) katsayıları kullanılır.
2.3.1. Çarpıklık (Skewness)

g1 ≈ 0 ⇒ dağılım yaklaşık simetrik
g1 > 0 ⇒ sağa (pozitif) çarpık
g1 < 0 ⇒ sola (negatif) çarpık
Örnek (20 Yeni Doğan Ağırlığı için Çarpıklık)
Verinin ortalaması 3166.9 gram iken, hesaplanan g1= -0.288. Bu değer 0’a yakın ve negatif olduğundan, veri hafif sola çarpık veya neredeyse simetrik olduğu söylenebilir.
2.3.2. Basıklık (Kurtosis)

Yaklaşık 3 değeri, normal dağılıma yakın bir basıklığı ifade eder.
3’ten büyük değerler, sivri (leptokurtic); 3’ten küçük değerler, yayvan (platykurtic) yapıyı gösterir.
Örnek (20 Yeni Doğan Ağırlığı için Basıklık)
Hesaplanan basıklık = 3.770. Bu değer 3’e yakın olmakla birlikte biraz sivri (leptokurtik) bir dağılıma işaret eder.

3. Uygulamalı Örnek: Tüm Tanımlayıcı İstatistiklerin Bir Arada Yorumu
Senaryo
Bir haftada doğan 20 bebeğin doğum ağırlıklarını (gram) inceledik. Elde ettiğimiz bazı sonuçlar:
Aritmetik Ortalama: 3166.9 gram
Ortanca (Medyan): 3246.5 gram
Tepe Değeri (Mod): Veri setinde tam olarak en sık tekrar eden tek bir değer olmadığını varsayalım. (Veya çok düşük tekrarlara sahip.)
Dağılım Aralığı: Min=2069, Maks=4146 ⇒ Range = 4146-2069 = 2077 gram
Standart Sapma: (Hesaplamaya göre) ≈ 300 gram (Örnek)
Çarpıklık Katsayısı: -0.288 (veri hafif sola çarpık veya neredeyse simetrik)
Basıklık Katsayısı: 3.770 (biraz sivri)
Bu sonuçlar, ortalamanın 3166.9 gram, ortancanın 3246.5 gram olduğunu ve dağılımın hafifçe sola çarpık olduğunu göstermektedir. Ortanca, ortalamadan biraz daha yüksektir. Aşırı değerlerin varlığı ortalamayı bir miktar düşürmüş olabilir. Standart sapma da doğum ağırlıklarının genel yayılımı hakkında fikir vermektedir.
4. Önemli Uyarılar ve Sonuç
Bir Tek Ölçü Yetmez: Dağılımın tam resmi için merkezi eğilim (ortalama/ortanca) ile birlikte mutlaka yaygınlık ölçüsü (standart sapma veya IQR) raporlanmalıdır.
Aşırı Değer Analizi: Özellikle ortalama ve standart sapma aşırı değerlere karşı hassastır. Aykırı değerlerin neden ortaya çıktığı araştırılmalı, gerekiyorsa uygun yöntemlerle (veri dönüşümü, veri dışlama vb.) düzeltilmelidir.
Veri Türü: Nitel değişkenlerde (örnek: cinsiyet, kan grubu, sigara kullanımı) frekans ve yüzde kullanmak yeterliyken, nicel değişkenlerde (örnek: boy, kilo, doğum ağırlığı) yukarıda sıralanan çok sayıda tanımlayıcı istatistiği dikkate almak gerekir.
Konum Ölçüleri ve Yaygınlık Ölçüleri: Medyan genellikle IQR (Çeyrekler Arası Dağılım Aralığı) ile; ortalama ise standart sapma ile birlikte verilerek dağılımın hem merkezi hem de yaygınlığı net anlaşılır.
Şekil Analizi: Çarpıklık ve basıklık dağılımın formunu anlatır; test seçiminden (parametrik veya non-parametrik) tutun da klinik yorumlara kadar pek çok aşamada önemlidir.
Bu temel bilgiler ışığında, sağlık ve biyoloji alanlarında toplanan verilerin özetlenmesi ve ilk yorumunun yapılması sağlanır. Sonraki aşamalarda, hipotez testleri, regresyon analizleri veya ileri istatistiksel yöntemler uygulanarak veriden daha kapsamlı sonuçlar elde edilebilir.
Kaynaklarda Veriyi Doğru Sunmak
Tablo ve Grafikler: Mutlaka ortalama ± standart sapma veya medyan + IQR şeklinde sunulmalı.
Outlier Kontrolü: Kutup noktalarını (farklı metodlarla) belirlemek, Box-Plot (kutu grafiği) gibi görsellerle aşırı değerleri işaretlemek işinizi kolaylaştırır.
Unutmayın: Tanımlayıcı istatistik, araştırmanızın temellerinden biridir. Ne kadar doğru ve şeffaf sunulursa, araştırmanız o kadar güvenilir değerlendirilir.
Son Söz
Bu yazıda, tanımlayıcı istatistikler içinde merkezi yer ölçüleri, yaygınlık ölçüleri ve şekil ölçüleri üzerinde durduk ve çeşitli örnek veri setleri üzerinden hesaplamalar yaptık.
Sağlık verilerinde (yeni doğan ağırlığı, çocuk boyu ölçümleri vb.) bu ölçülerin doğru kullanımı, araştırma sonuçlarının net, güvenilir ve anlaşılır biçimde sunulmasını sağlar.
Aritmetik ortalama ve standart sapma, normal (veya normale yakın) dağılımlar için son derece kullanışlıdır.
Ortanca ve IQR, çarpık dağılım ve aşırı değerlerin olduğu ortamlarda daha güvenilir sonuçlar verir.
Çarpıklık ve basıklık, dağılımın formunu anlatır ve ileri test seçimlerinde (parametrik / non-parametrik) yol gösterici olabilir.
Önemli: Verilerinizi sunarken mutlaka doğru sıralama, kontrol, formül ve hesaplama yöntemlerini kullanın. “Yanlış veriyle” veya “hatalı yöntemle” yapılan analizler, araştırmanızın güvenilirliğini ciddi şekilde zedeler.
Bu kapsamlı örnekler ve açıklamalar, tanımlayıcı istatistikler konusunda hem teorik hem de uygulamalı bakış açısı kazandırmayı amaçlamıştır. Daha ileri istatistiksel analiz aşamalarına geçmeden önce, daima verinizi bu yöntemlerle yakından tanımanızı öneririm. Veriye hâkim olmak, doğru bilimsel sonuçlara giden en sağlam yoldur.
İyi çalışmalar!
Comments