İstatistik

İstatistik wikipedia tanımına göre veri toplama, analiz, yorumlama ve sunum ile ilgili bir matematik dalıdır. Evet istatistik veri biliminin olmazsa olmazlarındandır, peki, ilerde detaylıca anlatacağımız, istatistikte veri bilimi adına neler önemlidir.

Veriyi tanımlamak için ortalama, mod ve medyan ilk bilmeniz gereken tanımlardır. Sonrasında verilerin yayılımını anlamak için varyans ya da standard sapmayı bilmeniz gerekmektedir.

Diğer önemli konu başlığı, dağılımlar, veriniz mutlaka bir dağılımdan gelmek zorunda değil ancak eğer öyleyse işiniz biraz daha kolay ve en çok kullandığımız dağılımlar ise normal dağılım (Gauss), üstel dağılım, binom dağılımı, poisson dağılımı, uniform dağılımdır.

Modelleme teknikleri istatistikte önemlidir ve bunlardan en önemlisi regresyon modellemesidir, bunu doğrusal ve doğrusal olmayan regresyonlar alt başlığı takip eder. Modellemeye başlamadan önce verinizi eğitim ve test olarak ayırmanızda da yarar olduğunu belirtmeliyim.

Verinizi tasniflemek istiyorsanız kümeleme (clustering) ve sınıflandırma (classification) tekniklerini iyi bilmelisiniz.

İki veri arasındaki ilişkiyi yakalamaksa amacınız korelasyon ya da kovaryansına görmekte yarar var.

Verinizin dağılımını biliyorsunuz (ya da bilmiyorsunuz) ve başka bir veri ile karşılaştırma yapmak istiyorsunuz bu durumda t-test, ANOVA, Mann-Whitney U test konuları imdadınıza yetişecektir. T- test ile ilgili MIT hocalarının kodlarını paylaştığı, bizim de sadece düzenlediğimiz uygulamaya (Link üzerinden) bakabilirsiniz.

İstatistik elbette bu kadar değil çok geniş ve sayfalarca anlatacak konu var ancak şimdilik bukadar.