veri eksikliğinin üstesinden gelmek için OpenAI, Google ve Meta kombinasyonları

YellowSnowman · 13 Nis 2024

Veriyi bulursanız yapay zeka pazarına hakim olursunuz: veriye yönelik bu “arayış” ve OpenAI, Google ve Meta'nın karşılaştığı bin bir yasal veya pratik engel, New York Times 6 Nisan'da yayınlanan bir hikayede meslektaşlarımız, şirket içi toplantıların kayıtlarını ve isimsiz ifadeleri kullanarak, Llama, ChatGPT ve Gemini gibi üretken yapay zeka geliştiren Meta, OpenAI ve Google'ın nasıl gerçek bir ” kıtlık “. Yapay zeka yarışını kazanmalarını sağlayacak şeyin ne olduğunu bulmak için bazen yasallık sınırına varan çeşitli seçenekleri değerlendirmelerine yol açmaya yetecek kadar; yani, büyük dil modellerini besleyen ve sonuncuların nasıl formüle edileceğini öğrenmelerine olanak tanıyan veriler. bir cümle, bir kod veya bir video oluşturun.

Bu gerçek arayış, Ocak 2020'de, bugün Anthropic'te çalışan Amerikan Johns Hopkins Üniversitesi'nden fizikçi Jared Kaplan tarafından formüle edildi. O yıl, bilim adamı yapay zeka hakkındaki bir makalede şu gözlemi yaptı: Büyük bir dil modelini eğitmek için ne kadar çok veri varsa, o kadar verimli olacaktır; tıpkı çok kitap okuyarak kendini daha fazla geliştiren bir öğrenci gibi. .

Sektördeki firmalar oybirliğiyle bu prensibi benimsemiş olsalar da büyük bir sorunla karşı karşıya kalmışlardır: Söz konusu veriler ne serbestçe erişilebilir ne de sınırsızdır. Geçen Mayıs ayında OpenAI başkanı Sam Altman tarafından fark edilen bir nokta. Bir konferans sırasında yönetici, giderek daha fazla veriye ihtiyaç duyan yapay zeka şirketlerinin yakında internetteki tüm kullanılabilir verileri (haber makaleleri, forumlardaki görüşler veya mesajlar, Wikipedia makaleleri, fotoğraflar, podcast'ler, videolar, vb.) “tüketeceğini” kabul etti. ve ayrıca bazı çalışmalar.

Bu sonuca, şirketlerin 2026 yılına kadar İnternet'teki “yüksek kaliteli” verileri tüketebileceklerini söyleyen araştırma enstitüsü Epoch gibi başkaları da vardı – bunlar, profesyoneller tarafından yazılan kitaplardan veya makalelerden alınan verilerdir. Başka bir deyişle yapay zekayı geliştiren şirketler, verileri üretildiklerinden daha hızlı kullanacak.

Meta'da: Veri bulmak için Mart ve Nisan 2023'teki kriz toplantıları

Bu sorun nasıl çözülür? Aylardır sektördeki firmaların başta Meta olmak üzere farklı çözümleri değerlendirdiği belirtiliyor. New York Times. 2023'ün başında Mark Zuckerberg'in grubu, yüksek lisansı oluşturmak için artık yeterli veriye sahip olmadığını fark edecekti. Bir çalışanın meslektaşlarımızla paylaştığı şirket içi toplantı kayıtlarına göre, gözlemi Ahmad Al-Dahle yaptı. Meta'daki üretken yapay zekadan sorumlu başkan yardımcısının, ekibinin web'de İngilizce olarak bulunan hemen hemen her kitabı, makaleyi, şiiri ve haber makalesini kullandığını söylediği aktarıldı. Ancak Ahmad Al-Dahle'nin belirttiğine göre Meta, ek veri olmadan daha fazla veri elde etmediği sürece ChatGPT ile rekabet edemez.

Mart ve Nisan 2023'te bu taşın Meta'nın ayakkabısından nasıl çıkarılacağı konusunda toplantılar birbirini takip edecekti. Facebook ve Instagram'ın ana şirketi olarak ilk olarak Simon & Schuster yayınevini satın almayı düşündük. Amaç: Amerikan medyasının erişebildiği kayıtlı iç toplantılara göre uzun çalışmalara erişim sağlamak. Meta çalışanlarının daha sonra telif hakkıyla korunan eserlerin Web'de kullanımını ve yayıncılar, sanatçılar, müzisyenler ve medya kuruluşlarıyla lisans müzakerelerini tartıştığı iddia edildi. Ancak dahili olarak bu son adımın çok uzun süreceğini ve Meta'nın bu yapay zeka yarışında çok geride kalmasına neden olacağını hissederdik. Bu toplantılardan birinde bir avukatın şu uyarıda bulunduğu bildirildi: etik kaygılar » sanatçıların ve yazarların fikri mülkiyet haklarının izinsiz kullanımıyla bağlantılı. Meslektaşlarımız, toplantıların kayıtlarını destekleyerek, uyarısının ardından sessizliğin geleceğini açıkladı.

Ve sonuçta seçilen seçenek de budur. Grubun avukatlarının, yapay zeka modellerinin eğitilmesine olanak tanıyan Web'den veri toplanmasının dikkate alınması gerektiğini açıkladığı bildirildi “ adil kullanım “. Amerikan telif hakkı yasasının bu istisnası, belirli durumlarda telif hakkıyla korunan eserlerin kullanımına izin vermektedir – ancak bir yapay zekanın eğitimi için böyle bir durum henüz Amerikan mahkemeleri tarafından karara bağlanmamıştır. Sanatçılar ve yazarlar için bu kullanım gerçek bir ” yağma » bunun durdurulması ve telafi edilmesi gerekir. Meslektaşlarımız tarafından sorgulanan Meta, şunları söyledi: agresif yatırımlar yaptı » Yapay zekayı hizmetlerine entegre etmek. Grup, modellerini eğitmek için Instagram ve Facebook'ta halka açık olarak paylaşılan milyarlarca resim ve videoya sahip olduğunu ekledi.

Ayrıca okuyun: büyük bir “dijital yağma”: üretken yapay zeka telif haklarına meydan okuduğunda

Ancak Silikon Vadisi'ndeki bir risk sermayesi firmasını temsil eden avukat Sy Damle için telif hakkıyla korunan ancak Web'den erişilebilen verilere güvenmek ” bu araçların (Yapay Zeka, Editörün notu) var olmasının tek pratik yolu » – sektördeki şirketlerin düzenli olarak ele aldığı bir argüman. Bu üretken yapay zekaların şunları sağlaması gerekir: o veriler için bir lisans ödemeye gerek kalmadan çok büyük miktarda veri üzerinde eğitim alın », bu avukat geçen yıl meslektaşlarımızın da tekrarladığı telif hakkı ve yapay zeka modelleri üzerine halka açık bir tartışma sırasında bunu açıkladı. “ İhtiyaç duyulan veriler o kadar büyük ki toplu bir lisans bile gerçekten işe yaramıyor “, ekledi.

Ayrıca okuyun: OpenAI, telif hakkıyla korunan içerik olmadan ChatGPT oluşturmanın imkansız olduğunu söylüyor

Google'da: YouTube videolarının kullanımı

Google ise bu eksikliği kendi platformlarından birini kullanarak telafi edebilirdi: YouTube. İddiaya göre YouTube videolarını metne dönüştürdü; metin daha sonra yapay zeka modellerini eğitmek için kullanıldı. şirket uygulamalarına aşina beş kişi » meslektaşlarımız tarafından sorgulandı. Dev adamın ayrıca geçen Temmuz ayında Google E-Tablolar veya Google Doküman gibi ücretsiz tüketici uygulamalarının kullanım koşullarını değiştirdiği bildirildi. Amacı: halka açık kullanıcı verilerinin kullanımını, üretken yapay zekası olan Bard'ı (eski adıyla Gemini) kapsayacak şekilde genişletmek: New York Times.

Ancak bir Google sözcüsüne göre hiçbir faydası olmayacak” açık izin olmadan » belirli deneysel işlevleri test etmelerine olanak tanıyan gönüllü bir programa atıfta bulunarak kullanıcıların. Yapay zeka modelleri “ bazı YouTube içerikleri konusunda eğitilmiş » YouTube içerik oluşturucularıyla yapılan anlaşmalar çerçevesinde yetkilendirileceklerini meslektaşlarımıza ekledi.

OpenAI videoların yazılı transkripsiyonunu tercih ederdi

OpenAI'de araştırmacılar ilk olarak bilgisayar kod deposu GitHub gibi verileri veya Quizlet web sitesindeki lise sınavlarını ve ödevlerini açıklayan verileri kullandılar. Ancak Aralık 2021'den itibaren sektör lideri aynı eksiklikle karşı karşıya kaldı: Daha fazla veri mevcut değildi. GPT-4'ü geliştiren ekipler daha sonra farklı seçenekleri değerlendirecekti: sentetik veriler oluşturmak (AI sistemleri tarafından oluşturulan), podcast'leri veya YouTube videolarını yazıya dönüştürmek veya büyük miktarlarda dijitalleştirilmiş veri toplayan start-up'ları satın almak. Meslektaşlarımızın görüştüğü altı kişiye göre OpenAI, son olarak YouTube videolarını ve podcast'leri yazılı olarak yazıya dökmenize olanak tanıyan bir araç olan Whisper'ı tercih etti.

Ve Amerikan şirketi YouTube'un yasaklandığını fark ederse “ herhangi bir otomatik araç (robotlar veya kazıyıcılar gibi) » videolarında bu sınır “ adil kullanım » Meslektaşlarımızın topladığı ifadelere göre OpenAI ekipleri, Amerikan telif hakkı yasasının bu istisnası olduğunu düşündü.

OpenAI'nin YouTube videolarını kullanımı, YouTube içerik oluşturucularının telif haklarını ihlal edecek şekilde yasa dışı mı yapıldı? Mutlaka değil, röportaj yapılan kişileri açıklayın. New York Times. Çünkü röportaj yapılan kişilere göre, Google'ın da aynı şeyi yapması (kendi yapay zeka modellerini eğitmek için YouTube videolarının transkripsiyonlarını kullanması), onları devin herhangi bir eyleminden koruyacaktı. Google, OpenAI'nin uygulamalarından şikayetçi olsaydı, kendi ayağına kurşun sıkacaktı çünkü kendi yöntemleri de inceleme altına alınacaktı.

Bu noktada kendisine sorulan Google sözcüsü Matt Bryant, meslektaşlarımıza şirketin OpenAI uygulamalarından haberi olmadığını ve YouTube'dan içerik indirmeye izin verilmediğini açıkladı. Google'ın ancak yasal bir dayanağı olsaydı harekete geçerdi, diye devam etti. Bu, Google'ın, video platformunun dışında bir hizmet olan yapay zeka modelini beslemek için YouTube kullanıcı verilerini kullanmaya gerçekten yetkili olduğu anlamına mı geliyor? Amerikan gazetesinin görüştüğü uzmanlara göre bu sorunun cevabı kesin olmaktan çok uzak. Ve tüm bu gri alanlara rağmen sektördeki şirketler hâlâ mevcut verilerin tavanına ulaşabiliyor. Yapay zekanın yapması gereken tek şey, onu aşmak için kendi kendine oluşturulan veriler olan sentetik veriler oluşturmaktır; bu yaklaşım da şu an için henüz başlangıç aşamasında olan bir yaklaşım olarak değerlendiriliyor.

01net'ten hiçbir haberi kaçırmamak için bizi Google Haberler ve WhatsApp'tan takip edin.

Kaynak :

New York Times

veri eksikliğinin üstesinden gelmek için OpenAI, Google ve Meta kombinasyonları

YellowSnowman

Member