Çalışma Ortamının Hazırlanması

  1. Anaconda Kurulumu:
    • Daha önceki yazımda Anaconda Navigator’u yüklemeyi anlatmıştım. Eğer hala yüklemediyseniz öncelike bu uygulamayı yükleyin sonra 2. adıma geçin. Daha önce kurulumu yaptıysanız bu adımı geçebilirsiniz.
  2. Jupyter Notebook’un Açılması:
    • Anaconda’nın kurulumu tamamlandıktan sonra, “Anaconda Navigator” adlı uygulamayı bilgisayarınızdan başlatın. Bu uygulama, Anaconda’da bulunan farklı araçlara erişmenize yardımcı olur.
    • Anaconda Navigator’ı açtığınızda, “Jupyter Notebook” seçeneğini bulun ve üzerine tıklayın.
    • Bu işlem, Jupyter Notebook’u tarayıcınızda açacaktır. Jupyter Notebook arayüzü, Python kodu yazmanıza ve çalıştırmanıza izin verir.
  3. Kaggle Üyeliği ve Veri Setinin İndirilmesi:
    • Kaggle’a üye olmak için www.kaggle.com adresine gidin ve bir hesap oluşturun. Kaggle, veri bilimi ve makine öğrenimi alanında bir topluluk ve veri setlerinin bulunduğu bir platformdur.
    • Hesabınızı oluşturduktan ve doğruladıktan sonra, Kaggle ana sayfasına gidin.
    • Sağda bulunan “Datasets” sekmesine tıklayarak veri setlerini görebilirsiniz ve ihtiyacınıza uygun veri setlerini indirebilirsiniz. Biz bu uygulama için “Salary Dataset” veri setini kullanacağız. İndirmek için tıklayın.
    • Veri setini bulduktan sonra, sayfanın sağ üst köşesinde bulunan “Download” düğmesine tıklayarak veri setini indirin.
  4. Veri Setinin Klasöre Kopyalanması:
    • İndirdiğiniz veri seti genellikle bir zip dosyası olarak gelir. Bu durumda, zip dosyasını bulunduğu klasörde açın ve içindeki dosyaları kopyalayın.
    • Şimdi, Jupyter Notebook’u başlattığınızda varsayılan olarak açılan klasörü belirleyin. Bu klasör, Jupyter Notebook’un dosya gezgini olarak kullandığı klasördür.
    • Veri setini bu klasöre yapıştırın. Bu sayede, Jupyter Notebook üzerinden kolayca erişebilirsiniz.

UYGULAMA

Bu uygulamada, tecrübe ve maaş arasındaki ilişkiyi Lineer Regresyon modeliyle inceleyeceğiz.

1.Adım: Kütüphanelerin İçe Aktarılması:

İlk adım olarak, gerekli Python kütüphanelerini içe aktaralım.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

2. Adım: Veri Setinin Yüklenmesi ve Ön İşleme:

Veri setini yükleyelim ve gerekirse ön işleme yapalım (eksik değerlerin kontrolü, gerekiyorsa doldurulması).

# Veri setini yükle
veri = pd.read_csv("veri.csv")

# Veri setinin ilk birkaç satırını göster
print(veri.head())

# Eksik değerleri kontrol et
print(veri.isnull().sum())

# Eksik değerleri ortalama ile doldur (varsa)
veri.fillna(veri.mean(), inplace=True)

3. Adım: Bağımsız ve Bağımlı Değişkenlerin Ayrılması:

X ve Y değişkenlerini belirleyelim ve bağımsız ve bağımlı değişkenleri ayıralım.

X = veri[['YearsExperience']]  # Bağımsız değişken
y = veri['Salary']             # Bağımlı değişken

3. Adım: Eğitim ve Test Verilerinin Ayarlanması:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. Adım: Lineer Regresyon Modelinin Oluşturulması ve Eğitilmesi:

Oluşturduğumuz eğitim veri seti üzerinde bir lineer regresyon modeli eğitelim.

model = LinearRegression()
model.fit(X_train, y_train)

5. Adım: Modelin Değerlendirilmesi:

Eğittiğimiz modelin performansını değerlendirelim, bunu için hata metriklerinden birini kullanabiliriz.

# Eğitim verileri üzerinde tahmin yap
train_tahmin = model.predict(X_train)

# Test verileri üzerinde tahmin yap
test_tahmin = model.predict(X_test)

# Eğitim ve test hatasını hesapla
train_hata = mean_squared_error(y_train, train_tahmin)
test_hata = mean_squared_error(y_test, test_tahmin)

print("Eğitim Hatası:", train_hata)
print("Test Hatası:", test_hata)

6. Adım: Grafiğin Çizilmesi:

Eğitim ve test verileri üzerinde yapılan tahminleri görselleştirelim.

# Eğitim verilerini grafiğe çiz
plt.scatter(X_train, y_train, color='blue', label='Eğitim Verileri')

# Eğitim verileri üzerinde yapılan tahminleri grafiğe çiz
plt.plot(X_train, model.predict(X_train), color='red', label='Eğitim Verilerine Göre Tahmin')

# Test verilerini grafiğe çiz
plt.scatter(X_test, y_test, color='green', label='Test Verileri')

# Test verileri üzerinde yapılan tahminleri grafiğe çiz
plt.plot(X_test, model.predict(X_test), color='orange', label='Test Verilerine Göre Tahmin')

plt.xlabel('Tecrübe(Yıl)')
plt.ylabel('Maaş')
plt.title('Lineer Regresyon Tahminleri')
plt.legend()
plt.show()

Uygulamanın kodlarını ve data dosyasını github’tan indirmek için tıklayınız.