VERİ MADENCİLİĞİ EĞİTİMİ

(RapidMiner Açık Kaynak Kodlu Veri Madenciliği Yazılımı)

 Dr. Öğr. Üyesi Ufuk ÇELİK

2 gün 14 saat

(Başlangıç Saati: 09.00 Bitiş Saati: 17.00)

Katılımcıların temel bilgisayar ve istatistik bilgilerine sahip olmaları ve workshop esnasında kişisel bilgisayarlarını bulundurmaları gerekmektedir.
İki günlük Eğitim Ücreti 60 €’dur.
Bu workshop için kontenjan 25 kişiliktir. 31 Ekim 2018 tarihine kadar ön talep toplanacaktır. En az 15 kişilik talep olması halinde eğitim açılacaktır.

Katılımcılara Eğitmen tarafından yazılmış olan “Rapidminer ile Uygulamalı Veri Madenciliği” e-kitabı hediye edilecektir. 

1. Gün

– Veritabanı ve veri madenciliği nedir? 

 Veri (data), Öznitelik (attribute), Nesne (object) kavramları

 Internet üzerinden veri keşfi ve verilerin hazırlanması

· University of California Irvine (UCI) veri setleri
· Türkiye İstatistik Kurumu (TÜİK) verileri
· Dünya Bankası (WorldBank) verileri
· Datamarket kütüphanesi verileri
· T.C. Merkez Bankası verileri

 Verilerin Excel’e aktarılması, temizlenmesi, bütünleştirilmesi

– Kümeleme (clustering) analizi

· Hangi veriler ile kümeleme yapılır?
· Kümeleme için verilerin hazırlanması
· Kümelemede kullanılan yöntemler

 RapidMiner kurulumu ve genel kullanım özellikleri

– RapidMiner örnek uygulamaları

· TÜİK hayvancılık istatistiklerine göre illerin kümelenmesi örneği
o TÜİK üzerinden illere göre hayvan üretim sayılarının Excel’e aktarılması
o Verilerin kümeleme için uygun hale getirilmesi
o RapidMiner ile farklı kümeleme yöntemleri ile sonuçların analizi
· UCI parfüm veri seri üzerinden kümeleme örneği
o 20 farklı parfüm için saniyede bir yapılan 28 farklı koku ölçer verileri
o Benzerlik gösteren parfümlerin kümeleme ile tespiti

– Sınıflandırma (classification) analizi

· Hangi veriler sınıflandırma için uygundur?
· Sınıflandırma için hangi yöntem tercih edilmelidir?
· Sınıflandırma için eğitim ve test verilerinin hazırlanması
· 10 katlı çapraz doğrulama yöntemi nedir?
· Sınıflandırma sonuçlarının doğruluğu için ROC analizi nasıl yapılır?
· Yapay sinir ağları (neural networks) ile sınıflandırma nasıl yapılır?
· Döviz kuru tahmini
· Kayısı üretim tahmini
· İMKB 100 endeks getirileri tahmini 

– Karar ağaçları (decision trees) ile sınıflandırma nasıl yapılır?

· Bilgi Kazancı (information gain) Entropi (entropy) kavramları
· Hava durumuna göre golf oynayabilme kararı örneği
· İstenmeyen E-posta tespitinde karar ağacı örneği

 RapidMiner örnek uygulamaları

· UCI “adult” veri seti ile yılda 50000 dolardan fazla kazananları tahmin etme uygulaması
· UCI “bank marketing” veri seti ile telefon bankacılığı kampanyasında müşterilerin kredi uygunluklarının hesaplanması uygulaması
· UCI “breast cancer” veri seti ile meme kanseri teşhisi uygulaması
· İstenmeyen SMS tespitinde karar ağacı uygulaması

2. Gün

 Birliktelik kuralları, Market-Sepet analizi

· Hangi veriler uygundur?
· Veriler nasıl hazırlanmalıdır?

 Korelasyon, Diskriminant analizi

– Zaman Serisi analizi

· Regresyon ile döviz kuru tahmini

– RapidMiner örnek uygulamaları

· UCI Türkiye öğrenci değerlendirme verilerinden birliktelik kuralları çıkarılması
o Gazi Üniversitesi’nden alınan 5820 adet Likert ölçeği anket verileri
o 3 farklı eğitmen 13 farklı ders için öğrencilerin görüşleri
o Derslerin getirileri
o Eğitmenlerin başarısı
· Doğrusal regresyon ile ısınma yakıtı kullanım miktarlarının tahmin edilmesi
o 42000 kayıtta insanların ortalama yaşı, kişi sayısı, evin büyüklüğü
· Lojistik regresyon ile kalp krizi riskinin tahmin edilmesi
o 690 hastanın yaşı, cinsiyeti, kilosu, kolesterol ve stres düzeyi, stres yönetim eğitimi bilgileri

 Metin madenciliği

· Ne tür metinler analiz edilebilir?
· Hangi algoritmalar metin madenciliğinde kullanılabilir?

– Web madenciliği

· Internet dosyaları nasıl metin dosyaları haline dönüştürülür?
· Bir web sitesinden alınan bilgiler nasıl ayıklanır?

 Veri madenciliğinde yeni eğilimler

 RapidMiner örnek uygulamaları

· Text dosyası analizi
o Bir text dosyasının içeriğini analiz ederek kelimelerin frekansını, yoğunluğunu, benzerliklerini bulmak
o Birliktelik kuralları çıkarmak
· Internet sitesi analizi
o Bir web sitesinin içeriğini analiz etmek
o Twitter verilerini analiz etmek
o Dropbox hesabını kullanmak