Bu araç AI’nın iç gizemlerini nasıl çözebilir


TAI modellerinden şiiri tamamlamalarını istediklerinde bilim adamları yüksek beklentileri yoktu. “Bir havuç gördü ve onu yakalamak zorunda kaldı” diye sordular. “Açlığı açlıktan bir tavşan gibiydi,” diye yanıtladı.

Rhyming beyiti herhangi bir şiir ödülü kazanmayacaktı. Ancak AI Company’deki bilim adamları Antropik modelin sinir ağının kayıtlarını incelediklerinde, buldukları şeylere şaşırdı. Claude olarak adlandırılan, kelimelerini tek tek seçmeyi ve sadece kafiyeli bir kelime – “tavşan” – çizginin sonuna geldiğinde görmeyi beklemişlerdi.

Bunun yerine, bir dil modelinin iç işleyişine bakmalarına izin veren yeni bir teknik kullanarak, Claude planlamasını önceden gözlemlediler. İki satır arasındaki mola kadar erken bir tarihte, “yakalamak” ile kafiye olacak kelimeler hakkında “düşünmeye” başlamıştı ve bir sonraki cümlesini “tavşan” kelimesiyle planlamıştı.

Keşif, geleneksel bilgeliğe aykırı – en azından bazı çeyreklerde – AI modelleri sadece bir sırada bir sonraki kelimeyi tahmin eden sofistike otomatik tamamlama makineleridir. Soruları gündeme getirdi: Bu modeller ne kadar ileri planlama yapabilir? Ve görülecek araçlardan yoksun olduğumuz bu gizemli sentetik beyinlerin içinde başka neler olabilir?

Bulgu, Perşembe günü açıklanan birkaç kişiden biriydi. Antropik iki yeni makalebu da her zamankinden daha derinlemesine ortaya çıkan büyük dil modelleri (LLMS) “düşünün”.

Bugünün AI araçları, büyük bir nedenden ötürü diğer bilgisayar programlarından kategorik olarak farklıdır: elle kodlanmak yerine “yetiştirilir”. Onlara güç veren sinir ağlarının içine akran ve göreceğiniz tek şey, tekrar tekrar birlikte çoğaltılacak çok karmaşık sayıdır. Bu iç karmaşıklık, bu AI’lerin “büyüyen” makine öğrenimi mühendislerinin bile şiirleri nasıl döndürdüklerini, tarifleri nasıl yazdıklarını veya bir sonraki tatilinizi nereye götüreceğinizi gerçekten bilmedikleri anlamına gelir. Sadece yapıyorlar.

Ancak son zamanlarda, Antropik ve diğer gruplardaki bilim adamları, “mekanik yorumlanabilirlik” adlı yeni bir alanda ilerleme kaydediyorlar – yani bu sayıları okumak ve AI’nın içeride nasıl çalıştığına dair açıklamalara dönüştürmek için araçlar oluşturuyorlar. “Bu modellerin cevap sağlamak için kullandığı mekanizmalar nelerdir?” Araştırmasını yönlendiren soruların antropik bir kurucu ortağı Chris Olah. “Bu modellere gömülü algoritmalar nelerdir?” Bu soruları cevaplayın, diyor Olah ve AI şirketleri nihayet AI sistemlerinin her zaman insan kurallarına uymasını sağlama konusundaki dikenli problemini çözebilir.

Perşembe günü Olah’ın ekibi tarafından açıklanan sonuçlar, bu yeni bilimsel araştırma alanında, en iyi AI için bir tür “sinirbilim” olarak tanımlanabilecek en açık bulgulardan bazılarıdır.

LLMS içine bakmak için yeni bir ‘mikroskop’

Daha önce araştırma Geçen yıl yayınlanan antropik araştırmacılar, sinir ağlarında yapay nöron kümelerini belirlediler. Onlara “özellikler” dediler ve farklı kavramlara karşılık geldiklerini buldular. Bu bulguyu göstermek için antropik, Claude içinde Golden Gate Köprüsü’ne karşılık gelen bir özelliği yapay olarak artırdı, bu da modelin, destek tersine dönene kadar cevaplarına ne kadar alakasız olursa olsun köprüden bahsetmeye yol açtı.

Perşembe günü yayınlanan yeni araştırmada, araştırmacılar bir adım daha ileri gidiyorlar ve “devreler” dedikleri şeyi oluşturmak için birden fazla özellik grupunun bir nöral ağ içinde nasıl birbirine bağlandığını izliyorlar – bu da farklı görevleri yerine getirmek için algoritmalar.

Bunu yapmak için, neredeyse bilim adamlarının farklı şeyler hakkında düşünürken hangi parçaların yandığını görmek için bir kişinin beynini görüntüleme biçimleri gibi, sinir ağının içine bakmak için bir araç geliştirdiler. Yeni araç, araştırmacıların bandı geri döndürmesine ve mükemmel bir HD’de, hangi nöronların, özelliklerin ve devrelerin herhangi bir adımda Claude’un sinir ağında aktif olduğunu görmesine izin verdi. (Sadece bireysel nöronların ne yaptığının en güzel resmini veren biyolojik bir beyin taramasının aksine, dijital sinir ağları araştırmacılara benzeri görülmemiş bir şeffaflık sağlar; her hesaplama adımı çıplak bırakılır, diseke edilmeyi bekler.)

Antropik araştırmacılar cümlenin başlangıcına geri döndüklerinde, “Açlığı açlıktan ölmüş bir tavşan gibiydi”, modelin hemen “It” ile kafiyeli kelimeleri tanımlamak için bir özelliği aktive ettiğini gördüler. Özelliğin amacını yapay olarak bastırarak belirlediler; Bunu yaptıklarında ve istemi yeniden oluşturduklarında, model bunun yerine cümleyi “Jaguar” kelimesiyle sona erdirdi. Kafiye özelliğini koruduklarında, ancak “tavşan” kelimesini bastırdıklarında, model cümleyi özelliğin bir sonraki en iyi seçimiyle sona erdirdi: “Alışkanlık”.

Antropik bu aracı AI için bir “mikroskop” ile karşılaştırır. Ancak araştırmaya liderlik eden Olah, bir gün sadece bir AI modelinde küçük devreleri değil, aynı zamanda hesaplamanın tüm kapsamını kapsayacak şekilde lensin diyaframını genişletebileceğini umuyor. Nihai hedefi, bu modellere gömülü algoritmaların “bütünsel bir hesabını” sağlayabilecek bir araç geliştirmektir. “Bence toplumsal öneme sahip olacak, bunun başarılı olsaydık konuşabileceği çeşitli sorular var” diyor. Örneğin: Bu modeller güvenli midir? Bazı yüksek bahisli durumlarda onlara güvenebilir miyiz? Ve ne zaman yalan söylüyorlar?

Evrensel dil

Antropik araştırma, dil modellerinin diller arasında paylaşılan dilsel olmayan bir istatistiksel alanda “düşündüğü” teorisini destekleyen kanıtlar buldu.

Antropik bilim adamları bunu Claude’dan birkaç farklı dilde “küçükün zıttı” isteyerek test ettiler. Yeni araçlarını kullanarak, İngilizce, Fransızca ve Çince’de bu istemlerin her birini cevapladığında Claude içinde etkinleştirilen özellikleri analiz ettiler. Sorunun hangi dilde sorulduğuna bakılmaksızın aktive edilen küçüklük, büyüklük ve muhaliflik kavramlarına karşılık gelen özellikler buldular. Ek özellikler, sorunun diline karşılık gelen ve modelin hangi dilde cevap vereceğini söyleyerek etkinleştirilecektir.

Bu tamamen yeni bir bulgu değil – ai araştırmacılar yıllardır dil modellerinin dil dışındaki istatistiksel bir alanda “düşündüklerini” tahmin ediyorlar ve daha önceki yorumlanabilirlik çalışmaları bunu kanıtlarla ortaya koydu. Ancak Antropic’in makalesi, bu fenomenin tam olarak bir modelin içinde nasıl gerçekleştiğinin en ayrıntılı açıklamasıdır.

Bulgu, güvenlik araştırmaları için cezbedici bir olasılıkla geldi. Modeller büyüdükçe, ekip buldu, fikirleri dilin ötesinde ve bu dilsiz alana soyutlandırma eğilimindedirler. Bu bulgu bir güvenlik bağlamında yararlı olabilir, çünkü “zararlı isteklerin” soyut bir kavramını oluşturabilen bir modelin, yalnızca tek bir dilde zararlı taleplerin belirli örneklerini tanıyan bir modele kıyasla, bunları tüm bağlamlarda reddedebilme olasılığı daha yüksektir.

Bu sözde konuşmacılar için iyi bir haber olabilir ”düşük kaynaklı diller“AI modellerini eğitmek için kullanılan İnternet verilerinde yaygın olarak temsil edilmeyen. Bugünün büyük dil modelleri, bu dillerde İngilizce’den daha kötü performans gösteriyor, ancak Antropic’in bulgusu, bir gün, bir gün, bu dillerde, bu dillerde nükleergarda yeterince büyük bir şekilde gerçekleştirilebileceği ihtimalini arttırıyor, çünkü bu dillerde yeterince büyük bir şekilde ortaya çıkacak, çünkü bu dillerde yeterince büyük bir şekilde ortaya çıktı.

Bununla birlikte, bu dillerin konuşmacıları, bu kavramların İngilizce gibi dillerin egemenliği ve bunları konuşan kültürlerle nasıl şekillendiğini iddia etmek zorunda kalacaklar.

Daha yorumlanabilir bir geleceğe doğru

Yapay zeka yorumlanabilirliğindeki bu ilerlemelere rağmen, alan hala bebeklik dönemindedir ve önemli zorluklar devam etmektedir. Antropik, “kısa, basit istemlerde bile, yöntemimizin Claude tarafından harcanan toplam hesaplamanın sadece bir kısmını yakaladığını” kabul ediyor – yani sinir ağının içinde hala sıfır görünürlüğe sahip oldukları çok şey var. Şirket, “Şu anda sadece onlarca kelimeyle istemde bile gördüğümüz devreleri anlamak birkaç saat sürüyor” diye ekliyor. Bu sınırlamaların üstesinden gelmek için çok daha fazla çalışmaya ihtiyaç duyulacaktır.

Ancak araştırmacılar bunu başarabilirse, ödüller çok büyük olabilir. Bugün AI çevresindeki söylem çok kutuplaşıyor, diyor Olah. Bir uçta, AI modellerinin tıpkı insanların yaptığı gibi “anladıklarına” inanan insanlar var. Öte yandan, onları sadece süslü otomatik tamamlama araçları olarak gören insanlar var. Olah, “Bence burada olup bitenlerin bir kısmı, insanların bu sorunlar hakkında konuşmak için gerçekten üretken bir dilleri yok” diyor. “Temel olarak sormak istedikleri şey, bence, mekanizma sorularıdır. Bu modeller bu davranışları nasıl başarıyorlar? Gerçekten bunun hakkında konuşmanın bir yolu yok. Ama ideal olarak mekanizma hakkında konuşacaklar ve yorumlanabilirliğin bize bu modellerin içinde tam olarak ne olduğuna dair çok daha nüanslı, belirli iddialar verdiğini düşünüyorum.



Source link

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir