Çeşitli kuruluşlar genelinde önyargı, performans ve etik uyumlulukla ilgili yapay zeka modellerini denetlemek için kapsamlı yöntemleri araştırmak amacıyla yönetici liderlerle işbirliği yapmak üzere 5 Haziran’da New York’a dönerken bize katılın. Buraya nasıl katılabileceğinizi öğrenin.
Şirketler üretken yapay zekayı uygulamak için yarışırken, büyük dil modellerinin (LLM’ler) doğruluğu ve güvenliğine ilişkin endişeler, kurumsal benimsemenin yaygınlaşmasını tehdit ediyor. Mücadeleye adım atan, yüksek maliyetli ve potansiyel olarak tehlikeli LLM hatalarını geniş ölçekte otomatik olarak tespit etmek için A Serisi fonda 17 milyon dolar toplayan San Francisco merkezli bir girişim olan Patronus AI’dır.
Patronus AI’nin toplam finansmanını 20 milyon dolara çıkaran tur, Lightspeed Venture Partners, eski DoorDash yöneticisi Gokul Rajaram, Factorial Capital, Datadog ve birkaç isimsiz teknoloji yöneticisinin katılımıyla Notable Capital’den Glenn Solomon tarafından yönetildi.
Eski Meta makine öğrenimi (ML) uzmanları Anand Kannappan ve Rebecca Qian tarafından kurulan Patronus AI, LLM çıktılarındaki halüsinasyonlar, telif hakkı ihlali ve güvenlik ihlalleri gibi hataları tanımlamayı vaat eden türünün ilk örneği bir otomatik değerlendirme platformu geliştirdi. Tescilli yapay zekayı kullanan sistem, model performansını puanlıyor, rakip örneklerle modelleri stres testine tabi tutuyor ve ayrıntılı kıyaslamayı mümkün kılıyor; üstelik bunların tümünü günümüzde çoğu işletmenin gerektirdiği manuel çabaya gerek kalmadan gerçekleştiriyor.
Üretken yapay zekanın karanlık tarafı açığa çıkıyor: halüsinasyonlar, telif hakkı ihlalleri ve güvenlik riskleri
Patronus AI CEO’su Kannappan, VentureBeat ile yaptığı röportajda, “Ürünümüzün, hatalar açısından gerçekten yakalayabilme konusunda gerçekten iyi olduğu çeşitli şeyler var” dedi. “Bu, halüsinasyonlar, telif hakkı ve güvenlikle ilgili risklerin yanı sıra markanın tarzı ve ses tonu gibi konularda kuruma özgü birçok yeteneği de içeriyor.”
VB Etkinliği
Yapay Zeka Etki Turu: Yapay Zeka Denetimi
Üst düzey yönetici liderlerle etkileşimde bulunmak, çeşitli kuruluşlar genelinde adaleti, optimum performansı ve etik uyumu sağlamak amacıyla yapay zeka modellerini denetlemeye yönelik stratejileri incelemek üzere 5 Haziran’da New York’a döndüğümüzde bize katılın. Yalnızca davetle katılabileceğiniz bu özel etkinliğe katılımınızı güvence altına alın.
Davet et
OpenAI’nin GPT-4o’su ve Meta’nın Llama 3’ü gibi güçlü Yüksek Lisans’ların ortaya çıkışı, teknolojinin üretken yeteneklerinden yararlanmak için Silikon Vadisi’nde bir silahlanma yarışı başlattı. Ancak abartılı döngüler hızlandıkça, haber sitesi CNET’in yapay zeka tarafından oluşturulan hatalarla dolu makaleler yayınlamasından, LLM halüsinasyonlu moleküllere dayanan araştırma makalelerini geri çeken ilaç keşif girişimlerine kadar yüksek profilli model başarısızlıkları da artıyor.
Patronus AI’nin iddiasına göre, bu kamuya açık yanlış adımlar, mevcut LLM’lere özgü daha geniş sorunların yalnızca yüzeyini çiziyor. Üç ay önce yayınlanan “CopyrightCatcher” API’si ve altı ay önce açıklanan “FinanceBench” karşılaştırması da dahil olmak üzere şirketin daha önce yayınlanmış araştırması, önde gelen modellerin gerçeğe dayalı soruları doğru bir şekilde yanıtlama becerisindeki şaşırtıcı eksiklikleri ortaya koyuyor.
FinanceBench ve CopyrightCatcher: Patronus AI’nin çığır açan araştırması, Yüksek Lisans eksikliklerini ortaya koyuyor
Patronus, “FinanceBench” karşılaştırması için GPT-4 gibi modellere kamuya açık SEC dosyalarına dayalı mali sorguları yanıtlama görevi verdi. Şaşırtıcı bir şekilde, en iyi performansı gösteren model, yıllık raporun tamamını aldıktan sonra soruların yalnızca %19’unu doğru yanıtladı. Patronus’un yeni “CopyrightCatcher” API’si ile yapılan ayrı bir deney, açık kaynaklı LLM’lerin, çıktıların %44’ünde telif hakkıyla korunan metni kelimesi kelimesine yeniden ürettiğini buldu.
CTO olarak görev yapan Qian, “En son teknolojiye sahip modeller bile halüsinasyon görüyordu ve finans ortamlarında yanıtların yalnızca %90’ı doğru olabiliyordu” diye açıkladı. “Araştırmamız, açık kaynak modellerinin birçok yüksek öncelikli zarar alanında %20’den fazla güvensiz yanıtlara sahip olduğunu gösterdi. Telif hakkı ihlali de büyük bir risk; büyük yayıncıların, medya şirketlerinin veya yüksek lisans kullanan herkesin endişelenmesi gerekiyor.”
Credo AI, Weights & Biases ve Robust Intelligence gibi diğer girişimler LLM değerlendirmesi için araçlar geliştirirken Patronus, kurucuların derin uzmanlığından yararlanan araştırma öncelikli yaklaşımının onu farklı kıldığına inanıyor. Temel teknoloji, belirli bir LLM’nin başarısız olma ihtimalinin olduğu uç durumları güvenilir bir şekilde ortaya çıkaran özel değerlendirme modellerinin eğitimine dayanmaktadır.
Kannappan, “Şu anda başka hiçbir şirket bizim şirket olarak sahip olduğumuz derinlik düzeyinde araştırma ve teknolojiye sahip değil” dedi. “Her şeye yaklaşımımızı gerçekten benzersiz kılan şey, araştırma öncelikli yaklaşımımızdır; bu, eğitim değerlendirme modelleri, yeni hizalama teknikleri geliştirme, araştırma makaleleri yayınlama biçimindedir.”
Bu strateji, otomotiv, eğitim, finans ve yazılım gibi endüstrileri kapsayan çeşitli Fortune 500 şirketlerinin, belirli müşterilerin isimlerini vermeyi reddetmesine rağmen, LLM’leri “kendi kuruluşları içinde güvenli bir şekilde” dağıtmak için Patronus AI’yı kullanmasıyla halihazırda ilgi gördü. Patronus, yeni sermayeyle araştırma, mühendislik ve satış ekiplerini büyütmeyi ve aynı zamanda ek sektör kriterleri geliştirmeyi planlıyor.
Patronus vizyonuna ulaşırsa, LLM’lerin titiz bir şekilde otomatik olarak değerlendirilmesi, teknolojiyi dağıtmak isteyen kuruluşlar için önemli bir konu haline gelebilir, aynı şekilde güvenlik denetimleri de bulutun yaygın olarak benimsenmesinin yolunu açmıştır. Qian, modelleri Patronus ile test etmenin, birim test kodu kadar sıradan olacağı bir gelecek görüyor.
“Platformumuz etki alanından bağımsızdır ve bu nedenle oluşturduğumuz değerlendirme teknolojisi, ister yasal, ister sağlık hizmetleri, ister diğer alanlar olsun, herhangi bir alana genişletilebilir” dedi. “Her sektördeki kuruluşların yüksek lisans programlarının gücünden faydalanmalarını sağlarken, modellerin güvenli ve kendi özel kullanım senaryosu gereksinimleriyle uyumlu olduğundan emin olmak istiyoruz.”
Yine de, temel modellerin kara kutu yapısı ve olası çıktıların neredeyse sonsuz alanı göz önüne alındığında, bir Yüksek Lisans performansının nihai olarak doğrulanması açık bir zorluk olmaya devam ediyor. Patronus, yapay zeka değerlendirmesinde en son teknolojiyi geliştirerek, gerçek dünyada hesap verebilir kullanıma giden yolu hızlandırmayı amaçlıyor.
Kannappan, “LLM performansını otomatik bir şekilde ölçmek gerçekten zor ve bunun nedeni, bu modellerin doğası gereği üretken olduğu göz önüne alındığında, çok geniş bir davranış alanının olması” dedi. “Ancak araştırma odaklı bir yaklaşım sayesinde, manuel testlerin temelde yakalayamadığı hataları son derece güvenilir ve ölçeklenebilir bir şekilde yakalayabiliyoruz.”
Web sitemizde size en iyi deneyimi sunabilmemiz için çerezleri kullanıyoruz. Bu siteyi kullanmaya devam ederseniz, bunu kabul ettiğinizi varsayarız.TamamGizlilik politikası