- 28 Nis 2020
- 930
- 220
- 314
Veri Nedir?
“Veri, ham gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.”
Veri Ön İşleme Nedir?
Veri Ön İşleme temel anlamda;
Elimizde bulunan milyonlarca verinin anlamlandırılıp temiz bir sonuç çıkarılabilmesi adına yapılan işlemdir.
Veri Ön İşleme yapılırken uygulanacak belli başlı yöntemler vardır ve bu yöntemler daha hızlı ve güvenli sonuç almamıza yardımcı olabilir.
- Veri Temizleme
- Veri Birleştirme
- Veri İndirgeme
Veri Temizleme Nedir?
Veri Madenciliği sonrası elimizdeki verileri derleme işlemi yaparken bulduğumuz veri yığınında yanlış veya tutarsız veriler olabilir. Bu durumda temizleme işlemleri için aşağıdaki adımlar kullanılabilir.
- Eksik veya hatalı kayıtlar kaldırılabilir.
- Gürültülü verilerin arındırılması
- NaN veya Null verilerin temizlenmesi ya da duruma göre doldurulması.
Not: Gürültülü veri nedir bilmeyenler için;
Yanlış veriler bütününe gürültü denir.
Ne kadar gürültülü veri var ise veriler güvenilirliğini o kadar kaybeder.
Veri Birleştirme Nedir?
Veri madenciliğinde elimizde tek bir veri tabanı olmayabilir ve elimizdeki birden fazla veri tabanını (veya CSV dosyası) birleştirmek isteyebiliriz. Bunun bize getirisi ise veri bütünlüğü sağlamak ve her bir veri tabanında veri ön işleme aşamalarını tekrar tekrar yapmak yerine tek bir seferde tamamlamak olacaktır.
Veri İndirgeme Nedir?
Veri indirgeme tekniği elimizdeki verinin (CSV dosyası ya da veri tabanı) boyutunun düşürülmesi ya da birden fazla veri tabanı veya CSV dosyasının birleştirtilmesi ya da sıkıştırılması gibi adımlara denir.
Python'da Veri Ön İşleme Nasıl Yapılır?
Gelelim asıl konumuza. Python ile Veri Ön İşleme nasıl yapabiliriz?
Öncelikle Bilgisayarımızda Python kurulu olması gerekiyor.
Python kurulu ise herhangi bir IDE açılarak kodlama işlemine geçilebilir.
Python dosyamızı oluşturduktan sonra hemen gerekli kütüphaneleri import ediyoruz.
Not: Bu kütüphaneler bilgisayarınızda kurulu değilse cmd ekranını açıp aşağıdaki komutları yazarak kurabilirsiniz.
Kütüphaneleri import ettikten sonra artık elimizde bulunan veri dosyasını işlememiz adına içeri aktarabiliriz.
Artık veri dosyamızdaki verileri işleyebiliriz.
Tekrarlanmış Verileri Temizlemek;
Aşağıdaki komut, veri dosyanızdaki tekrarlanan tüm verileri temizler.
Veri Setlerini Birleştirmek;
Birden fazla veri dosyanız var ise bu yol ile birleştirebilmeniz mümkün.
“Veri, ham gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.”
Veri Ön İşleme Nedir?
Veri Ön İşleme temel anlamda;
Elimizde bulunan milyonlarca verinin anlamlandırılıp temiz bir sonuç çıkarılabilmesi adına yapılan işlemdir.
Veri Ön İşleme yapılırken uygulanacak belli başlı yöntemler vardır ve bu yöntemler daha hızlı ve güvenli sonuç almamıza yardımcı olabilir.
- Veri Temizleme
- Veri Birleştirme
- Veri İndirgeme
Veri Temizleme Nedir?
Veri Madenciliği sonrası elimizdeki verileri derleme işlemi yaparken bulduğumuz veri yığınında yanlış veya tutarsız veriler olabilir. Bu durumda temizleme işlemleri için aşağıdaki adımlar kullanılabilir.
- Eksik veya hatalı kayıtlar kaldırılabilir.
- Gürültülü verilerin arındırılması
- NaN veya Null verilerin temizlenmesi ya da duruma göre doldurulması.
Not: Gürültülü veri nedir bilmeyenler için;
Yanlış veriler bütününe gürültü denir.
Ne kadar gürültülü veri var ise veriler güvenilirliğini o kadar kaybeder.
Veri Birleştirme Nedir?
Veri madenciliğinde elimizde tek bir veri tabanı olmayabilir ve elimizdeki birden fazla veri tabanını (veya CSV dosyası) birleştirmek isteyebiliriz. Bunun bize getirisi ise veri bütünlüğü sağlamak ve her bir veri tabanında veri ön işleme aşamalarını tekrar tekrar yapmak yerine tek bir seferde tamamlamak olacaktır.
Veri İndirgeme Nedir?
Veri indirgeme tekniği elimizdeki verinin (CSV dosyası ya da veri tabanı) boyutunun düşürülmesi ya da birden fazla veri tabanı veya CSV dosyasının birleştirtilmesi ya da sıkıştırılması gibi adımlara denir.
Python'da Veri Ön İşleme Nasıl Yapılır?
Gelelim asıl konumuza. Python ile Veri Ön İşleme nasıl yapabiliriz?
Öncelikle Bilgisayarımızda Python kurulu olması gerekiyor.
Python kurulu ise herhangi bir IDE açılarak kodlama işlemine geçilebilir.
Python dosyamızı oluşturduktan sonra hemen gerekli kütüphaneleri import ediyoruz.
Kod:
import numpy as np
import pandas as pd
Not: Bu kütüphaneler bilgisayarınızda kurulu değilse cmd ekranını açıp aşağıdaki komutları yazarak kurabilirsiniz.
Kod:
pip numpy install
pip pandas install
Kütüphaneleri import ettikten sonra artık elimizde bulunan veri dosyasını işlememiz adına içeri aktarabiliriz.
Kod:
data1 = pd.read_csv(“veridosyasi.csv”)
Artık veri dosyamızdaki verileri işleyebiliriz.
Tekrarlanmış Verileri Temizlemek;
Aşağıdaki komut, veri dosyanızdaki tekrarlanan tüm verileri temizler.
Kod:
data1.drop_duplicates()
Veri Setlerini Birleştirmek;
Birden fazla veri dosyanız var ise bu yol ile birleştirebilmeniz mümkün.
Kod:
df = pd.contact([data1,data2])