Python ile Veri Ön İşleme Nedir ?

'Python' forumunda Ander tarafından 16 May 2020 tarihinde açılan konu

  1. Ander

    Ander Site Yetkilisi Administrator

    Katılım:
    28 Nis 2020
    Mesaj:
    81
    Alınan Beğeniler:
    13
    Veri Nedir?

    “Veri, ham gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.”

    Veri Ön İşleme Nedir?

    Veri Ön İşleme temel anlamda;
    Elimizde bulunan milyonlarca verinin anlamlandırılıp temiz bir sonuç çıkarılabilmesi adına yapılan işlemdir.

    Veri Ön İşleme yapılırken uygulanacak belli başlı yöntemler vardır ve bu yöntemler daha hızlı ve güvenli sonuç almamıza yardımcı olabilir.

    - Veri Temizleme
    - Veri Birleştirme
    - Veri İndirgeme

    Veri Temizleme Nedir?

    Veri Madenciliği sonrası elimizdeki verileri derleme işlemi yaparken bulduğumuz veri yığınında yanlış veya tutarsız veriler olabilir. Bu durumda temizleme işlemleri için aşağıdaki adımlar kullanılabilir.

    - Eksik veya hatalı kayıtlar kaldırılabilir.
    - Gürültülü verilerin arındırılması
    - NaN veya Null verilerin temizlenmesi ya da duruma göre doldurulması.

    Not: Gürültülü veri nedir bilmeyenler için;

    Yanlış veriler bütününe gürültü denir.
    Ne kadar gürültülü veri var ise veriler güvenilirliğini o kadar kaybeder.

    Veri Birleştirme Nedir?

    Veri madenciliğinde elimizde tek bir veri tabanı olmayabilir ve elimizdeki birden fazla veri tabanını (veya CSV dosyası) birleştirmek isteyebiliriz. Bunun bize getirisi ise veri bütünlüğü sağlamak ve her bir veri tabanında veri ön işleme aşamalarını tekrar tekrar yapmak yerine tek bir seferde tamamlamak olacaktır.

    Veri İndirgeme Nedir?

    Veri indirgeme tekniği elimizdeki verinin (CSV dosyası ya da veri tabanı) boyutunun düşürülmesi ya da birden fazla veri tabanı veya CSV dosyasının birleştirtilmesi ya da sıkıştırılması gibi adımlara denir.

    Python'da Veri Ön İşleme Nasıl Yapılır?

    Gelelim asıl konumuza. Python ile Veri Ön İşleme nasıl yapabiliriz?

    Öncelikle Bilgisayarımızda Python kurulu olması gerekiyor.

    Python kurulu ise herhangi bir IDE açılarak kodlama işlemine geçilebilir.

    Python dosyamızı oluşturduktan sonra hemen gerekli kütüphaneleri import ediyoruz.
    Kod:
    import numpy as np
    import pandas as pd

    Not:
    Bu kütüphaneler bilgisayarınızda kurulu değilse cmd ekranını açıp aşağıdaki komutları yazarak kurabilirsiniz.
    Kod:
    pip numpy install
    pip pandas install
    Kütüphaneleri import ettikten sonra artık elimizde bulunan veri dosyasını işlememiz adına içeri aktarabiliriz.

    Kod:
    data1 = pd.read_csv(“veridosyasi.csv”)
    
    Artık veri dosyamızdaki verileri işleyebiliriz.

    Tekrarlanmış Verileri Temizlemek;

    Aşağıdaki komut, veri dosyanızdaki tekrarlanan tüm verileri temizler.

    Kod:
    data1.drop_duplicates()
    
    Veri Setlerini Birleştirmek;

    Birden fazla veri dosyanız var ise bu yol ile birleştirebilmeniz mümkün.

    Kod:
    df = pd.contact([data1,data2])
    

Bu Sayfayı Paylaş