S:
Makine öğrenimi için veri kazıma, eski geçişte manuel veri girişinden bu yana en emek-yoğun darboğaz haline geldi mi?
A:Bir makine öğrenimi (ML) projesi başlatmaya çalışırken şirketlerin karşılaşabileceği pratik sorunlardan biri, ilk eğitim veri setlerini edinme zorluğudur. Bu, web kazıma veya diğer veri kazıma gibi emek yoğun süreçleri içerebilir.
Web kazıma ve veri kazıma terimleri büyük ölçüde bilgisayar yazılımı tarafından otomatikleştirilmiş etkinliği ifade eder, ancak birçok ML projesi için, bilgisayarların doğru hedeflenen verileri toplamak için karmaşıklığa sahip olmadığı durumlar olacaktır, bu yüzden yapılması gerekecek "elle." Buna "insan ağı / veri kazıma" diyebilirsiniz ve bu çok şükür bir iştir. Genellikle dışarı çıkmayı ve ML programını eğitim setleri aracılığıyla "beslemek" için veri veya görüntü aramayı içerir. Sık sık oldukça tekrarlayıcıdır, bu da onu sıkıcı, halsiz, zorlu işler yapar.
Ücretsiz İndirme: Makine Öğrenmesi ve Neden Önemlidir |
ML eğitim setleri için veri kazıma, kısmen diğer çalışmaların çoğu oldukça kavramsal ve tekrarlayıcı olmadığından, makine öğreniminde benzersiz bir sorunlu darboğazı temsil eder. Birçok kişi, makine öğrenimi görevlerini yerine getiren yeni bir uygulama için harika bir fikir bulabilir, ancak somunlar ve cıvatalar ve pratik çalışmalar çok daha zor olabilir. Özellikle, eğitim setlerini birleştirme işini devretmek, Mike Judge'un "Silikon Vadisi" TV şovunda tam olarak keşfedildiği gibi bir ML projesinin en zor kısımlarından biri olabilir. Dördüncü sezonda, bir başlangıç girişimcisi önce bir işçiyi yoğun emek gerektiren işi yapmak için zorbalık yapar, daha sonra bunu bir ödev olarak gizleyerek üniversite öğrencilerine aktarmaya çalışır.
Bu örnek öğreticidir, çünkü manuel veri kazımanın ne kadar sevilmediğini ve görünüşte önemsiz olduğunu göstermektedir. Bununla birlikte, bu sürecin çok çeşitli makine öğrenimi ürünleri için gerekli olduğunu da göstermektedir. Çoğu kişi veri girişinden nefret etse de, eğitim setleri bir şekilde birleştirilmelidir. Süreçteki uzmanlar genellikle bir web kazıma hizmeti kullanmanızı önerirler - aslında bu çok yoğun emek gerektiren işi dış taraflara dış kaynaklardan temin ederler, ancak bu durum güvenlik sonuçları yaratabilir ve başka sorunlara neden olabilir. Manuel veri toplama işini yerinde tutarken, genellikle çok manuel ve zaman alan bir işlem için bir hüküm bulunmalıdır.
Bazı açılardan, makine öğrenimi için "insan verileri kazıma", bazen eski göçte yapılması gereken manuel veri girişine benzemektedir. Bulut gittikçe daha popüler hale geldikçe ve şirketler süreçlerini ve iş akışlarını buluta yerleştirdikçe, bazıları kurumsal verilerini yalıtılmış bir eski sistemden bulut yerel uygulamalarına nasıl getireceğinin pratik yönleri üzerinde çalışmadıklarını keşfettiler. Sonuç olarak, veri bilimcileri ya da temel BT becerilerine sahip yaratıcı insanlar olan bazı insanlar kendilerini hoş olmayan veri giriş görevleri yaparken buldular.
Aynı şey makine öğrenimi için de geçerli. Bir veri bilimcisinin “ben yaratıcı bir insanım” ya da “gelişim tarafındayım” diye şikayet ettiğini duyabilirsiniz - ama birileri kirli işi yapmak zorundadır.
Yine, yaratıcı akış, iş akışı temsilcisinin pratik bir değerlendirmesi ile eşleşmezse, görev yönetiminin nasıl yönlendirildiği konusunda bir uyumsuzluk olacaktır. Bir şirketin veri kümeleri toplamada veri kazıma işi yapması için insanları yoksa, başarılı bir proje için prosedür zincirinin önemli bir parçası yoktur. Bir şirket, yeni makine öğrenimi uygulamaları geliştirmeye dayanan bir fikre iyi gelmeye çalıştığında bunu akılda tutmaya değer.