Yeni AI Modeli DeepSeek V3 Neden Kendini ChatGPT Sanıyor?

Paylaş:

DeepSeek, Çin merkezli ve iyi finanse edilen bir AI laboratuvarı, bu hafta DeepSeek V3 adlı yeni bir yapay zeka modeli yayınladı. Model, popüler testlerde birçok rakibini geride bırakacak kadar başarılı ve metin tabanlı görevlerde oldukça verimli. Ancak ilginç bir şekilde, DeepSeek V3 kendisini ChatGPT olarak tanıtıyor.

ChatGPT Olduğunu Sanıyor

TechCrunch’ın testleri ve X platformundaki kullanıcı yorumlarına göre, DeepSeek V3 kendisini ChatGPT olarak tanımlıyor. Üstelik OpenAI’nin 2023’te piyasaya sürdüğü GPT-4 modeli olduğunu iddia ediyor. Daha da ilginci, DeepSeek V3, OpenAI’nin API’si hakkında bilgi verirken aslında ChatGPT’nin API kullanım talimatlarını aktarıyor. Hatta GPT-4’ün esprilerini birebir aynı şekilde tekrarlıyor.

Bu Durumun Sebebi Ne?

Eğitim Verilerinin Kaynağı Belirsiz

Yapay zeka modelleri, milyarlarca veri üzerinde eğitilerek istatistiksel örüntüler oluşturur. DeepSeek, modelin eğitim verileri hakkında fazla bilgi paylaşmadı. Ancak, internette GPT-4 tarafından üretilen metinlerle dolu birçok açık veri seti bulunuyor. Eğer DeepSeek V3 bu tür verilerle eğitildiyse, model GPT-4’ün çıktılarından bazılarını birebir ezberlemiş olabilir.

“Fotokopi Fotokopi Üzerine” Sorunu

King’s College London’dan AI uzmanı Mike Cook’a göre, başka bir yapay zeka modelinin çıktılarıyla eğitim yapmak, model kalitesi açısından büyük riskler taşıyor. Bu yöntem, “fotokopinin fotokopisini almak” gibi bilgi kaybına ve gerçeğe olan bağın kopmasına yol açabilir. Ayrıca, bu durum yanıltıcı veya hatalı cevaplar üretilmesine sebep olabilir.

This actually reproduces as of today. In 5 out of 8 generations, DeepSeekV3 claims to be ChatGPT (v4), while claiming to be DeepSeekV3 only 3 times.

Gives you a rough idea of some of their training data distribution. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
— Lucas Beyer (bl16) (@giffmana) December 27, 2024

Yasal ve Etik Sorunlar

OpenAI’nin kullanım şartları, ürünlerinden elde edilen çıktılarla rakip modeller geliştirilmesini yasaklıyor. DeepSeek’in bu verileri kasıtlı olarak kullanıp kullanmadığı belli değil. Ancak bu durum, hem etik hem de yasal açıdan ciddi bir sorun oluşturabilir.

Yapay Zeka Alanında Artan Veri Kirliliği

Web’deki AI Kaynaklı İçerik Seli

AI modelleri, büyük ölçüde web üzerinden toplanan verilerle eğitilir. Ancak internet, AI tarafından üretilmiş içeriklerle dolup taşmaya başladı. Reddit, X gibi platformlarda botlar ve içerik çiftlikleri giderek yaygınlaşıyor. Hatta yapılan tahminlere göre, 2026 yılına kadar internetin %90’ı AI tarafından oluşturulmuş içeriklerden oluşabilir. Bu durum, eğitim verilerinden yapay zeka kaynaklı içerikleri ayıklamayı zorlaştırıyor.

DeepSeek’in ChatGPT Verileri Kullanmış Olma İhtimali

Google gibi büyük şirketler de geçmişte benzer şekilde suçlanmıştı. Uzmanlar, maliyet avantajı nedeniyle geliştiricilerin bu yönteme başvurma ihtimalinin yüksek olduğunu belirtiyor. Eğer DeepSeek, eğitim setinde ChatGPT’nin çıktılarından faydalandıysa, bu modelin güvenilirliğini sorgulatabilir.

DeepSeek V3, ChatGPT’nin çıktılarından etkilenmiş veya doğrudan kopyalamış olabilir. Ancak daha büyük sorun, bu durumun GPT-4’ün mevcut önyargılarını ve hatalarını daha da kötüleştirme potansiyelidir. Yapay zeka alanındaki bu tür etik ihlaller, teknoloji geliştirme süreçlerine zarar verebilir ve kullanıcılar için yanlış bilgiler yayılmasına neden olabilir.