Dive into Data Preprocessing in Data Mining(Veri Madenciliğinde Veri Ön İşleme’ye Dalış)
Öncellikle Merhabalar bu yazıda Veri Bilimi, Veri Analizi ve Yapay zeka alanında önemli olan veri ön işleme adımlarını anlatacağım. Öncellikle veriler üzerinde işlem yapmadan önce verileri düzeltmeniz gerekiyor. Bunun için kendi içinde bir alan olan Veri Ön İşleme konusunu sizlere yorumlayacağım:).
Şimdi ilk başlığımıza geçelim. Geçişler eğlenceli olacaktır.
Veri Madenciliğinde Önişleme:
Veri ön işleme, ham verileri kullanışlı ve verimli bir formata dönüştürmek için kullanılan bir veri madenciliği tekniğidir. Veri Temizleme, Veri Dönüşümü, Veri Azaltma gibi alanları inceler.
Veri Ön İşleme Adımları
A. Veri Temizleme
Veri Setlerinde birçok alakasız ve eksik kısımlar içerebilir. Bu kısmı işlemek için veri temizliği yapılır. Eksik verilerin, gürültülü verilerin vb. ele alınmasını içerir.
a). Eksik Veri
Bu, bazı verilerin eksik olmasından dolayı ortaya çıkıyor. Çeşitli şekli vardır.
- Grupları yoksayma:
Bu yaklaşım, yalnızca sahip olduğumuz veri kümesi oldukça büyük olduğunda ve bir grup içinde birden çok değer eksik olduğunda uygundur. - Eksik değerleri doldurma:
Bu görevi yapmanın çeşitli yolları vardır. Eksik değerleri, öznitelik ortalamasına veya en olası değere göre manuel olarak doldurmayı seçebilirsiniz.
b). Gürültülü Veri
Grültülü veri, bilgisayar tarafından anlaşılmayan ve üzerinde hiç bir işlem yapılmayan verilerdir. Bu da hatalı veriler toplama, veri karmaşıklığı, veri giriş hataları vb. nedenlerle üretilir.
- Binning Yöntemi:
Bu yöntem, sıralamak için sıralanmış veriler üzerinde çalışır. Tüm veriler eşit büyüklükte parçalara bölünür ve ardından görevi tamamlamak için çeşitli yöntemler uygulanır. Her segmente ayrı ayrı işlenir. Bir segmentteki tüm veriler ortalamalarıyla değiştirilebilir veya görevi tamamlamak için sınır değerler kullanılabilir. - Regresyon:
Burada veriler, bir regresyon fonksiyonuna uydurularak pürüzsüz hale getirilebilir. Kullanılan regresyon, doğrusal (bir bağımsız değişkene sahip) veya çoklu (birden fazla bağımsız değişkene sahip) olabilir. - Kümeleme:
Bu yaklaşım, benzer verileri bir kümede gruplandırır. Aykırı değerler tespit edilemeyebilir veya kümelerin dışında kalacaktır.
B. Veri Dönüşümü
Veri Madenciliğinde, verilerin uygun formatlara dönüştürmek için kullanılır. Aşağıdaki işlemler yapılır.
- Normalleştirme:
Veri değerlerini belirli bir aralıkta (-1.0 ile 1.0 veya 0.0 ile 1.0) ölçeklendirmek için yapılır. - Öznitelik Seçimi:
Bu stratejide, madencilik sürecine yardımcı olmak için verilen öznitelikler kümesinden yeni öznitelikler oluşturulur. - Ayrıklaştırma:
Bu, sayısal özniteliğin ham değerlerini aralık seviyeleri veya kavramsal seviyelerle değiştirmek için yapılır. - Konsept Hiyerarşi Oluşturma:
Burada nitelikler hiyerarşide alt seviyeden üst seviyeye dönüştürülür. Örneğin-“Şehir” niteliği “ülke”ye dönüştürülebilir.
C. Veri Azaltma
Öncellikle Veri Madenciliği, büyük miktarda veriyi işlemek için kullanılan bir teknik olduğu için, yüksek boyutlu verilerle çalışırken, bu gibi durumlarda analiz yapmak zorlaştı. Bu gibi olumsuz durumları ortadan kaldırmak için veri azaltma tekniğini kullanıyoruz.
Not💡: Biz analistler neyi amaçlarız? Öncellikle ilk amacımız veri azaltma tekniği kullanarak, depolama verimliliğini arttırmayı ve veri depolama ve analiz maliyetlerini düşürmeyi amaçlarız.
Veri azaltmanın çeşitli adımları şunlardır:
- Data Cube Aggregation:
Veri küpünün oluşturulması için verilere toplama işlemi uygulanır. - Öznitelik Alt Kümesi Seçimi:
Son derece alakalı öznitelikler kullanılmalıdır, geri kalanı atılabilir. Öznitelik seçimini gerçekleştirmek için, özniteliğin anlamlılık düzeyi ve p-değeri kullanılabilir. p değeri anlamlılık düzeyinden büyük olan öznitelik atılabilir. - Sayı Azaltma:
Bu, tüm veriler yerine veri modelini saklamayı sağlar, örneğin: Regresyon Modelleri. - Boyut Azaltma:
Verinin boyutunu kodlama mekanizmaları ile küçültür. Kayıplı veya kayıpsız olabilir. Sıkıştırılmış veriden yeniden oluşturma işleminden sonra, orijinal veri alınabiliyorsa, bu tür indirgeme kayıpsız indirgeme, aksi halde kayıplı indirgeme olarak adlandırılır. Boyut azaltmanın iki etkili yöntemi şunlardır: Dalgacık dönüşümleri ve PCA (Temel Bileşen Analizi).