1. Gün
|
– Veritabanı ve veri madenciliği nedir?
|
– Veri (data), Öznitelik (attribute), Nesne (object) kavramları
|
– Internet üzerinden veri keşfi ve verilerin hazırlanması
|
· University of California Irvine (UCI) veri setleri
|
· Türkiye İstatistik Kurumu (TÜİK) verileri
|
· Dünya Bankası (WorldBank) verileri
|
· Datamarket kütüphanesi verileri
|
· T.C. Merkez Bankası verileri
|
– Verilerin Excel’e aktarılması, temizlenmesi, bütünleştirilmesi
|
– Kümeleme (clustering) analizi
|
· Hangi veriler ile kümeleme yapılır?
|
· Kümeleme için verilerin hazırlanması
|
· Kümelemede kullanılan yöntemler
|
– RapidMiner kurulumu ve genel kullanım özellikleri
|
– RapidMiner örnek uygulamaları
|
· TÜİK hayvancılık istatistiklerine göre illerin kümelenmesi örneği
|
o TÜİK üzerinden illere göre hayvan üretim sayılarının Excel’e aktarılması
|
o Verilerin kümeleme için uygun hale getirilmesi
|
o RapidMiner ile farklı kümeleme yöntemleri ile sonuçların analizi
|
· UCI parfüm veri seri üzerinden kümeleme örneği
|
o 20 farklı parfüm için saniyede bir yapılan 28 farklı koku ölçer verileri
|
o Benzerlik gösteren parfümlerin kümeleme ile tespiti
|
– Sınıflandırma (classification) analizi
|
· Hangi veriler sınıflandırma için uygundur?
|
· Sınıflandırma için hangi yöntem tercih edilmelidir?
|
· Sınıflandırma için eğitim ve test verilerinin hazırlanması
|
· 10 katlı çapraz doğrulama yöntemi nedir?
|
· Sınıflandırma sonuçlarının doğruluğu için ROC analizi nasıl yapılır?
|
· Yapay sinir ağları (neural networks) ile sınıflandırma nasıl yapılır?
|
· Döviz kuru tahmini
|
· Kayısı üretim tahmini
|
· İMKB 100 endeks getirileri tahmini
|
– Karar ağaçları (decision trees) ile sınıflandırma nasıl yapılır?
|
· Bilgi Kazancı (information gain) Entropi (entropy) kavramları
|
· Hava durumuna göre golf oynayabilme kararı örneği
|
· İstenmeyen E-posta tespitinde karar ağacı örneği
|
– RapidMiner örnek uygulamaları
|
· UCI “adult” veri seti ile yılda 50000 dolardan fazla kazananları tahmin etme uygulaması
|
· UCI “bank marketing” veri seti ile telefon bankacılığı kampanyasında müşterilerin kredi uygunluklarının hesaplanması uygulaması
|
· UCI “breast cancer” veri seti ile meme kanseri teşhisi uygulaması
|
· İstenmeyen SMS tespitinde karar ağacı uygulaması
|
|
2. Gün
|
– Birliktelik kuralları, Market-Sepet analizi
|
· Hangi veriler uygundur?
|
· Veriler nasıl hazırlanmalıdır?
|
– Korelasyon, Diskriminant analizi
|
– Zaman Serisi analizi
|
· Regresyon ile döviz kuru tahmini
|
– RapidMiner örnek uygulamaları
|
· UCI Türkiye öğrenci değerlendirme verilerinden birliktelik kuralları çıkarılması
|
o Gazi Üniversitesi’nden alınan 5820 adet Likert ölçeği anket verileri
|
o 3 farklı eğitmen 13 farklı ders için öğrencilerin görüşleri
|
o Derslerin getirileri
|
o Eğitmenlerin başarısı
|
· Doğrusal regresyon ile ısınma yakıtı kullanım miktarlarının tahmin edilmesi
|
o 42000 kayıtta insanların ortalama yaşı, kişi sayısı, evin büyüklüğü
|
· Lojistik regresyon ile kalp krizi riskinin tahmin edilmesi
|
o 690 hastanın yaşı, cinsiyeti, kilosu, kolesterol ve stres düzeyi, stres yönetim eğitimi bilgileri
|
– Metin madenciliği
|
· Ne tür metinler analiz edilebilir?
|
· Hangi algoritmalar metin madenciliğinde kullanılabilir?
|
– Web madenciliği
|
· Internet dosyaları nasıl metin dosyaları haline dönüştürülür?
|
· Bir web sitesinden alınan bilgiler nasıl ayıklanır?
|
– Veri madenciliğinde yeni eğilimler
|
– RapidMiner örnek uygulamaları
|
· Text dosyası analizi
|
o Bir text dosyasının içeriğini analiz ederek kelimelerin frekansını, yoğunluğunu, benzerliklerini bulmak
|
o Birliktelik kuralları çıkarmak
|
· Internet sitesi analizi
|
o Bir web sitesinin içeriğini analiz etmek
|
o Twitter verilerini analiz etmek
|
o Dropbox hesabını kullanmak
|