Yapay zeka modellerini eğitmek için kullanılan veriler, internet kullanıcılarının dijital izlerinden elde ediliyor. CAPTCHA testleri, oyunlar ve sosyal medya platformları bu sürecin parçası.
Yapay zeka teknolojilerindeki büyük dil modelleri (LLM) olan ChatGPT, Gemini ve Claude gibi platformlar, her gün milyonlarca kullanıcı tarafından kullanılıyor. Bu modellerin geliştirilmesinde kullanılan eğitim materyalleri, kitaplar, internet siteleri ve diğer yazılı kaynaklardan elde ediliyor. Ancak son dönemdeki tartışmalar, internet kullanıcılarının çevrimiçi hareketlerinden elde edilen verilerin de bu eğitim sürecine dahil edildiği yönünde yoğunlaşıyor.
İnternet hizmetlerine erişim öncesinde kullanıcıların robot olmadıklarını teyit eden CAPTCHA ve reCAPTCHA testleri, teknoloji firmaları için önemli bir güvenlik önlemi olmanın ötesinde bir işlev görüyor. Kullanıcılardan istenen görsel tanıma veya harf yazma gibi basit görevler, yapay zeka araçlarının eğitimi için veri sağlıyor. Google’ın kullandığı testlerde sıkça karşılaşılan yaya geçitleri, trafik lambaları gibi nesnelerin sorulması, bu verilerin yapay zeka destekli araçların geliştirilmesinde kullanıldığı iddialarını güçlendiriyor. Google Cloud’dan yapılan açıklamada, reCAPTCHA verilerinin yalnızca hizmetin iyileştirilmesi amacıyla kullanıldığı ve bu durumun hizmet şartlarında belirtildiği ifade edildi.
Niantic firmasının geliştirdiği Pokemon Go oyunu da yapay zeka eğitimine katkı sağlayan bir başka alan olarak öne çıkıyor. Oyuncuların GPS ve kameraları kullanarak gerçek dünyada Pokemon karakterlerini aradığı oyun, sokak görüntülerinden oluşan geniş bir veri havuzu oluşturdu. MIT Technology Review’a göre Niantic Spatial, bu 30 milyar görseli kullanarak gerçek dünyanın sanal bir modelini üretti. Bu teknoloji, GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştırmayı hedefliyor. Niantic, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğrularken bu özelliğin tamamen opsiyonel olduğunu vurguladı.
İsviçre Lozan Üniversitesi’nden Profesör Christian Peukert, yapay zeka eğitiminde kullanılan materyaller ile kullanıcı güvenliği arasındaki dengeyi değerlendirdi. Peukert, eski CAPTCHA versiyonlarında kullanıcıların bir kelimeyi tanıması, diğerini ise sistemin bilmediği bir kelime olması prensibinin işlediğini belirtti. Tanınan kelime kullanıcıyı doğrulamak için kullanılırken, bilinmeyen kelimeye verilen yanıtlar e-kitap uygulamaları gibi dijitalleşme çabaları kapsamında veri olarak depolandı. Bu durum, kullanıcıların metin tanıma sistemlerinin iyileştirilmesine doğrudan katkı sağladığı anlamına geliyor.
Peukert, Reddit ve Twitter gibi sosyal medya platformlarının dil modellerini eğitmek için metin sağladığını, Instagram gibi platformlarda görsellere eklenen açıklamalar ve etiketlerin görsel verinin etiketlenmesine yardımcı olduğunu belirtti. Google aramalarının dil anlama ve sıralama sistemlerini geliştirdiğini, Google Haritalar ve Waze gibi navigasyon uygulamalarının hareket verileriyle tahmin modellerini eğittiğini söyledi. Sohbet robotları ve sesli asistanlarla yapılan görüşmelerin de sistemleri iyileştirmek için kaydedildiği ekledi.
Bu süreçlerin gizlilik ve güvenlik açısından sorunlar teşkil ettiğini vurgulayan Peukert, büyük veri birikiminin fişlemeye, sahte içerik üretimine ve kullanıcıların kendileriyle rekabet eden sistemleri beslemesine yol açabileceğini dile getirdi. Profesör Peukert, bireysel tedbirlerin veri kullanımını azaltmada yetersiz kalacağını, çünkü verilerin büyük veri kümelerine dahil edildiğinde kontrolünü geri kazanmanın zor olduğunu belirtti. Bununla birlikte, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve arama motorları gibi günlük hizmetlerde önemli faydalar sağladığına da işaret etti.
Dijital dünyada iz bırakmak için ihtiyacınız olan tüm proje geliştirme ve yazılım çözümleri Projeyap ile elinizin altında. Web tabanlı sistemlerden SaaS uygulamalarına, mobil platformlardan özel yazılım projelerine kadar geniş bir yelpazede profesyonel destek sunuyoruz.
Yorum Yap