KURUMSAL EĞİTİM, SIFIRDAN ZİRVEYE SPARK İLE BÜYÜK VERİ İŞLEME EĞİTİMİ

EĞİTİM SÜRESİ
-
- 3 Gün
- Ders Süresi: 50 dakika
- Eğitim Saati: 10:00 - 17:00
Her iki eğitim formatında eğitimler 50 dakika + 10 dakika moladır. 12:00-13:00 saatleri arasında 1 saat yemek arasındaki verilir. Günde toplam 6 saat eğitim verilir. 2 günlük formatta 18 saat eğitim verilmektedir.
Eğitimler uzaktan eğitim formatında tasarlanmıştır. Her eğitim için Teams linkleri gönderilir. Katılımcılar bu linklere girerek eğitimlere katılırlar. Ayrıca farklı remote çalışma araçları da eğitmen tarafından tüm katılımlara sunulur. Katılımcılar bu araçları kullanarak eğitimlere katılırlar.
Eğitim içeriğinde GitHub ve Codespace kullanılır. Katılımcılar bu platformlar üzerinden örnek projeler oluşturur ve eğitmenle birlikte eğitimlerde sorulan sorulara ve taleplere uygun içeriğe cevap verir.
Eğitim yapay zeka destekli kendi kendine öğrenme formasyonu ile tasarlanmıştır. Katılımcılar eğitim boyunca kendi kendine öğrenme formasyonu ile eğitimlere katılırlar. Bu eğitim formatı sayesinde tüm katılımcılar gelecek tüm yaşamlarında kendilerini güncellemeye devam edebilecekler ve her türlü sorunun karşısında çözüm bulabilecekleri yeteneklere sahip olacaklardır.
EĞİTİM HEDEFİ
- Apache Spark Mimarisi ve Bileşenlerini Anlamak: Katılımcılar, Spark’ın temel bileşenleri olan Spark Core, Spark SQL, Spark Streaming, MLlib ve GraphX hakkında detaylı bilgi edinecek; bu bileşenlerin birbirleriyle nasıl entegre çalıştığını kavrayacaklardır.
- Büyük Veri Kavramlarını Uygulamalı Olarak Öğrenmek: Eğitim, büyük veri işleme gereksinimleri, dağıtık hesaplama prensipleri ve veri hacmi, hızı ve çeşitliliği gibi temel kavramlar üzerine uygulamalı örnekler içerecektir.
- Gerçek Zamanlı ve Toplu Veri İşleme Yetenekleri Kazanmak: Katılımcılar, Spark Streaming ve yapılandırılmış akış (Structured Streaming) ile gerçek zamanlı veri akışlarının nasıl işlendiğini öğrenecek; batch ve streaming işlemlerinin farklılıklarını deneyimleyeceklerdir.
- Veri Kaynaklarına Bağlanarak Veri Okuma ve Dönüştürme: HDFS, Amazon S3, Kafka, JDBC gibi çeşitli veri kaynaklarından Spark ile nasıl veri okunacağı ve bu verilerin nasıl dönüştürüleceği pratiklerle öğretilecektir.
- Veri Analitiği ve Gelişmiş Sorgulama Tekniklerini Uygulamak: Katılımcılar, Spark SQL kullanarak veri üzerinde gelişmiş sorgulama işlemleri gerçekleştirecek; performans optimizasyonu ve cache mekanizmalarını tanıyacaktır.
- Makine Öğrenmesi Modelleri Geliştirmek: Spark MLlib ile sınıflandırma, regresyon, kümeleme gibi temel makine öğrenmesi teknikleri üzerinde uygulamalar yapılacak ve modellerin büyük veri üzerinde nasıl çalıştığı anlatılacaktır.
- Performans Optimizasyonu ve Bellek Yönetimi: RDD ve DataFrame API’lerinin performans farkları, veri parçalanması (partitioning), shuffle işlemleri ve bellek yönetimi konularında derinlemesine bilgiler sunulacaktır.
- Kurumsal Ölçekte Spark Küme Yapılandırmaları: Katılımcılar, Spark uygulamalarını YARN, Mesos veya Kubernetes üzerinde çalıştırmayı, bu platformlar için konfigürasyon ve kaynak tahsisi yönetimini öğreneceklerdir.
- Hata Yönetimi, İzleme ve Loglama: Dağıtık ortamlarda Spark uygulamalarında oluşabilecek hataların izlenmesi, loglama stratejileri ve Spark UI ile uygulama takibi öğretilecektir.
- Kurumsal Ortamlarda Spark Projeleri Geliştirmek: Eğitim sonunda katılımcılar, gerçek bir iş senaryosuna dayalı uçtan uca bir Spark projesi geliştirerek öğrendiklerini uygulama fırsatı bulacaklardır.
Bu eğitim, katılımcılara yalnızca Spark’ın teorik altyapısını öğretmekle kalmayacak, aynı zamanda gerçek dünyadaki büyük veri projelerinde Spark teknolojisini etkin şekilde kullanabilecek uygulama becerisi kazandıracaktır.

EĞİTİM İÇERİĞİ
Modül 1: Büyük Veri Dünyasına Giriş ve Spark Temelleri
Seviye: Başlangıç
- Büyük Veri Kavramları: 3V (Volume, Velocity, Variety) ve ek V’ler (Veracity, Value) ile büyük verinin temel özellikleri.
- Geleneksel Sistemlerin Sınırlılıkları: RDBMS sistemlerinin zayıf kaldığı noktalar ve yatay ölçeklenmeye duyulan ihtiyaç.
- Apache Spark'a Giriş: Spark'ın gelişim süreci, kullanım nedenleri ve Hadoop MapReduce ile karşılaştırması.
- Bellek İçi İşleme: RAM odaklı mimarinin performans üzerindeki avantajları.
- Spark Mimarisi Temelleri: Driver, Executor ve Cluster Manager bileşenleri.
- Spark Ortam Kurulumu: Local mode ile tek makinada kurulum ve yapılandırma.
- Spark Shell Kullanımı: Scala/Python shell ortamlarında ilk veri işleme denemeleri.
Modül 2: Spark Core API: RDD, Dönüşümler ve Eylemler
Seviye: Başlangıç
- RDD (Resilient Distributed Dataset): Temel veri yapısı, dağıtık yapı, soy ağaç (lineage) ve hata toleransı.
- Dönüşümler (Transformations): Lazy evaluation prensibi, map, filter, flatMap, groupByKey, reduceByKey gibi işlemler.
- Eylemler (Actions): collect, count, take, reduce gibi sonuç döndüren işlemler.
- Spark'ın Modüler Yapısı: Spark Core, Spark SQL, Streaming, MLlib, GraphX bileşenlerine genel bakış.
Modül 3: Yapılandırılmış Veri İşleme: DataFrame ve Spark SQL
Seviye: Orta
- DataFrame ve Dataset API’ları: Tip güvenliği ve performans için önerilen yapılandırılmış veri API'ları.
- DataFrame Oluşturma: RDD, JSON, CSV gibi kaynaklardan DataFrame üretimi.
- Spark SQL: Tablo benzeri veri sorgulama, SQL desteği ve veri keşfi.
- SparkSession: Uygulamanın başlangıç noktası, katalog erişimi.
- Veri Formatları: Parquet, ORC, JSON, CSV destekleri ve performans kıyasları.
- Şema Yönetimi: Otomatik şema çıkarımı ve manuel şema tanımı.
- Veri Yükleme ve Saklama: HDFS, S3, yerel dosya sisteminden okuma ve yazma işlemleri.
Modül 4: DataFrame Dönüşümleri, Veri Yönetimi ve Performans Temelleri
Seviye: Orta
- Temel DataFrame Operasyonları: select, where, groupBy, orderBy, join, union gibi işlemler.
- Aggregate Fonksiyonları: sum, avg, count, min, max fonksiyonlarının kullanımı.
- Window Fonksiyonları: Pencere bazlı hesaplamalar ile gelişmiş analizler.
- Veri Bölümleme (Partitioning): Fiziksel veri dağılımı ve performansa etkisi.
- Önbellekleme ve Kalıcılık: cache(), persist() metodları, depolama seviyeleri.
- Shuffle Mekanizması: Shuffle süreci ve geniş dönüşümlerin maliyeti.
- Performans Optimizasyonu: Predicate pushdown, column pruning ve dönüşüm sınıflandırması.
- Web UI ile İzleme: Uygulama aşamalarını ve görev detaylarını izleme.
Modül 5: İleri Spark Optimizasyonları, Akış ve ML Temelleri
Seviye: İleri
- Broadcast Join: Küçük veri kümelerini tüm executor’lara yayarak shuffle maliyetini azaltma.
- Data Skew Problemi: Veri eğriliği tespiti ve çözüm yolları.
- UDF/UDAF Kullanımı: Kullanıcı tanımlı fonksiyonlarla esneklik sağlama ve performans etkileri.
- Structured Streaming: Gerçek zamanlı veri işleme modeli, trigger mekanizmaları.
- MLlib ile Makine Öğrenmesi: Pipeline API, temel modelleme (sınıflandırma, regresyon, kümeleme).
- Data Lakehouse Entegrasyonu: Delta Lake, Apache Iceberg ile ACID uyumlu veri yönetimi.
- Spark SQL Derin Optimizasyonlar: Catalyst Optimizer, Tungsten Execution Engine, Explain Plan analizi.
- Monitoring ve Debugging: Web UI, loglama stratejileri ve hata ayıklama yöntemleri.
EĞİTİM YÖNETİMİ
- Teorik Bilgi: Spark mimarisi, büyük veri kavramları, dağıtık işlem teknikleri gibi konular kapsamlı şekilde teorik olarak aktarılacaktır.
- Uygulamalı Örnekler: Apache Spark’ın gerçek veri setleriyle kullanımını gösteren kod uygulamaları (Scala, PySpark) gerçekleştirilecektir.
- Etkileşimli Tartışmalar: Eğitim boyunca, özellikle performans optimizasyonu ve veri işleme stratejileri üzerine interaktif soru-cevap oturumları yapılacaktır.
- Proje Tabanlı Öğrenme: Eğitimin son günü, katılımcıların öğrendiklerini birleştirdiği uçtan uca bir Spark projesi yapılacaktır (veri yükleme, işleme, saklama, performans analizi).
HEDEF KİTLE
- Veri Mühendisleri: Büyük veri işleme çözümleri geliştirmek ve Spark üzerinde veri boru hatları kurmak isteyen mühendisler.
- Yazılım Geliştiriciler: Dağıtık işlem mantığını öğrenerek yüksek hacimli verileri işlemeyi hedefleyen geliştiriciler.
- Veri Bilimciler: Spark MLlib kullanarak büyük veri üzerinde makine öğrenmesi modelleri geliştirmek isteyen uzmanlar.
- DevOps ve Sistem Mühendisleri: Spark uygulamalarının performans izleme, kaynak kullanımı ve küme yönetimi konularına hâkim olmak isteyen ekipler.
- Çözüm Mimarları: Kurumsal düzeyde büyük veri çözüm mimarisi kurmak isteyen teknik liderler.
- Danışmanlar: Spark tabanlı veri çözümlemeleri sunan veya sunmak isteyen teknoloji danışmanları.
- Yeni Mezunlar ve Stajyerler: Büyük veri mühendisliği kariyerine sağlam bir başlangıç yapmak isteyen teknik adaylar.
KATILIMCILARDAN BEKLENTİLERİMİZ
- Temel düzeyde Linux işletim sistemi komutlarına hâkim olmak.
- Programlama bilgisi: Özellikle Python veya Java dillerinden en az biri hakkında temel düzeyde bilgi sahibi olmak.
- Konteyner ve Kubernetes: Spark’ın küme ortamında çalışması açısından temel seviye bilgi önerilir (zorunlu değildir).
- Aktif Katılım: Grup çalışmaları, canlı kod uygulamaları ve proje sunumları gibi bölümlere aktif şekilde dahil olunması beklenir.
Aradığınız Eğitimi Bulduğunuzu Düşünüyorsanız!
Kurumsal eğitim içeriklerimizde sektörün trend ve güncel konularında lider konumdayız. Bu farkı siz de hızla fark edeceksiniz. Dünyada en çok tercih edilen ve 1-10 puanlama sistemine göre 9.5 ve üzeri puan almış konular, sizin için titizlikle hazırlandı.
25 yıllık eğitim sektörü deneyimi ve uluslararası proje tecrübeleriyle birleşerek, dünya çapında yapılan yıllık analizler doğrultusunda en güncel trend kurumsal gereksinimler ve talepler derlendi. Kendi özgün kaynaklarımızla oluşturduğumuz laboratuvar ortamlarında tüm eğitim içerikleri ve laboratuvar çalışmaları hazırlandı. Kurumsal ihtiyaçlarınız doğrultusunda gerekli tüm eğitim konuları hazır hale getirilmiş ve danışmanlık seviyesinde saha deneyimleriyle birleştirilmiştir.
Dünya standartlarında eğitim içerikleri ve sunum yöntemleri bir araya getirilerek tasarlandı. Eğitim sürecine katılan tüm katılımcılar için GitHub repoları aracılığıyla hazır çalışma ortamları oluşturuldu. Ayrıca, hayat boyu erişilebilecek kaynaklar ve eğitim materyalleri katılımcılara sunulmaktadır.
Kapsamlı Handsonlar ile Zenginleştirilmiş Kurumsal Eğitimlerimiz
Tüm eğitimlerimiz, kurumsal eğitim formatında sunulmaktadır. Eğitimler, talepleriniz doğrultusunda ihtiyaçlarınıza göre güncellenir ve katılımcılarla birlikte sizin belirlediğiniz senaryolar işlenir. Bu sayede, eğitmenin değil, sizin ihtiyaçlarınıza yönelik konularla donatılmış bir eğitim tamamlanır. Eğitimle birlikte danışmanlık hizmeti de sağlanmış olur. Katılımcılar en yüksek faydayı sağlayarak eğitimlerini tamamlarlar. Ayrıca her eğitimde kapsamlı eğitim içerikleri git ortamında katılımcılara verilir. Çalışmalar bu materyallerle yapılır ve eğtim süresince katılımcılar ve eğitmen tarafından güncellenir. Aradan yıllar geçse de eğitim anındaki tüm materyallere erişim sağlanabilir.
Sizin İçin Özel Hazırlananan Kurumsal Workshoplarımız
Workshoplar konuların 360 derece açıdan ele alındığı, konuların derinlemesine işlendiği, handsonlar ile katılımcıların birlikte çalışma fırsatı bulduğu en kapsamlı eğitim formatımızdır.
Sizin İçin Özel Hazırlananan Kurumsal Seminerlerimiz
Tüm seminerlerimiz sizin senaryolarınız ve ihtiyaçlarınız için size özel hazırlanır. Katılımcı profiline uygun özel örnekler ve katılımı teşvik edecek özel içerikler ile zenginleştirilir.