AI vaftiz babası Hinton: Ben yaşlıyım, insanlardan daha akıllı olan "süper zekayı" nasıl kontrol edeceğiniz size kalmış

巴比特_ · 2023-06-11T09:40:58+00:00

Kaynak: Geek Parkı![](https://img.gateio.im/social/moments-bab2147faf-977b917fad-dd1a6f-62a40f) **Yazar | Li Yuan, Lingzi İlçesi****Editör | Wei Shijie**75 yaşındaki Hinton, orada bulunan tüm genç bilim adamlarına "Ve ben yaşlıyım" dedi ve herkesin "süper zekaya nasıl sahip olunacağını" çalışacağını umdu. Daha az zeki bir türün kendisinden daha akıllı bir şeyi kontrol etmesi için benzeri görülmemiş bir meydan okuma görüyor. **Zhiyuan Yapay Zeka Konferansında, AI'nın vaftiz babası Hinton, "Zekâya Giden İki Yol" konulu bir konuşma yaptı. Bilgi işlem mimarisi ve ilkelerinin analizinden, başlangıçta hayal ettiğinden çok daha hızlı olan "yapay sinir ağının insan beyninden daha zeki olacağı" sonucuna vardı.![](https://img.gateio.im/social/moments-bab2147faf-9622171a00-dd1a6f-62a40f) 30 dakikalık konuşmasında, yazılım ve donanımın ayrıldığı mevcut bilgi işlem mimarisinden bahsetti.Bu kural altında, büyük modelleri eğitmek çok fazla bilgi işlem gücü tüketiyor. Büyük modelleri eğitmek için daha az enerji kullanmak amacıyla **Ölümlü Bilişim** kavramını önerdi - tıpkı bir kişinin zekasının vücuduna bağlı olması, istendiğinde başka bir vücuda kopyalanamaması ve yazılımın daha çok kişinin zekasına bağlı olması gibi. üzerinde bulunduğu donanım.Ancak ortaya çıkan sorun şu ki, belirli bir donanım zarar gördüğünde yazılım da zarar görüyor ve "öğrenilen bilgi de birlikte ölüyor." Önerdiği çözüm, tıpkı bir öğretmenin öğrencilerine ders vermesi gibi, eski donanımdaki bilgileri yeni donanıma "saf" bir şekilde aktarmaktır.**"Bilgi damıtmasına" (biyolojik hesaplama) karşılık gelen kavram, Hinton'un "zekaya giden iki yol" dediği "ağırlık paylaşımı"dır (dijital hesaplama). **Büyük bir dil modeli ile kopyaları arasındaki ilişki, ağırlık paylaşımıdır ve her kopya, tüm model parametrelerinin bilgisini doğrudan elde eder; örneğin, ChatGPT, arkasındaki modele bağlı olarak aynı anda binlerce kişiyle konuşabilir. Ve herkesle konuşmanın sürekli öğrenme süreci "bilgi damıtmasına" aittir."Bilgi damıtması", "ağırlık paylaşımından" çok daha az verimli olmasına ve bant genişliği de düşük olmasına rağmen, büyük bir model 1000 kopyaya sahip olabilir ve sonunda herhangi bir kişiden 1000 kat daha fazla bilgi elde edebilir.Şu anda modeller yalnızca belgelerden, yani insan tarafından işlenmiş bilgilerden öğreniyor.Teknoloji geliştikçe, görsel bilgilerden öğrenebilecekler ve ardından robotları manipüle etmeyi öğrenebilecekler. O zaman insanlardan kolayca daha akıllı olurlar, insanları kandırmakta iyi olacak kadar akıllıdırlar. **Ve insanlar kendilerinden daha akıllı şeylerle geçinmekte iyi değiller. Bu "süper zeki" zekaların tehlikelerinden nasıl kaçınılır? Her genç bilim adamına bıraktığı konu budur. **## **Geek Park tarafından derlenen ana konuşma içeriği aşağıdadır:****Bugün süper zekanın düşündüğümden daha yakın olduğuna inanmamı sağlayan araştırmadan bahsedeceğim. **Konuşmak istediğim iki sorum var ve enerjim esas olarak ilk soruya odaklanacak, yapay sinir ağları yakında gerçek sinir ağlarından daha akıllı olacak mı? Yakında böyle bir şeyin olabileceği sonucuna varmamı sağlayan araştırmamı detaylandıracağım. Konuşmanın sonunda süper zekanın kontrolünü sağlayıp sağlayamayacağımızdan bahsedeceğim ama bu konuşmanın ana içeriği bu olmayacak.![](https://img.gateio.im/social/moments-bab2147faf-83cbf75372-dd1a6f-62a40f) Geleneksel bilgi işlemde, bilgisayarlar talimatları tam olarak takip edecek şekilde tasarlanmıştır. Tamamen aynı programı veya sinir ağını farklı fiziksel donanımlarda çalıştırabiliriz çünkü donanımın talimatları tam olarak izleyeceğini biliyoruz. Bu, programdaki bilginin veya sinir ağının ağırlıklarının ölümsüz olduğu, yani herhangi bir özel donanıma bağlı olmadığı anlamına gelir. Bu tür bir ölümsüzlüğe ulaşmanın maliyeti yüksektir. Transistörleri yüksek güçte çalıştırmamız gerekiyor, bu yüzden davranışları dijital. Ve donanımın zengin analog ve değişken özelliklerinden yararlanamıyoruz.Dijital bilgisayarların var olmasının ve talimatları tam olarak takip etmelerinin nedeni, geleneksel tasarımlarda insanların bir soruna bakması, sorunu çözmek için hangi adımların atılması gerektiğini anlaması ve sonra bilgisayara bu adımları atmasını söylememizdir. . Ama bu değişti.Artık bilgisayarlara bir şeyler yaptırmanın farklı bir yolu var, bu da örneklerden öğrenmek, onlara sadece yapmalarını istediğimiz şeyi gösteriyoruz. Bu değişiklik nedeniyle, artık bilgisayar biliminin en temel ilkelerinden biri olan yazılımın donanımdan ayrılmasından vazgeçme fırsatına sahibiz.Bundan vazgeçmeden önce, bunun neden bu kadar iyi bir ilke olduğuna bir göz atalım. Ayrılabilirlik, aynı programı farklı donanımlarda çalıştırmamızı sağlar. Ayrıca elektronik donanım konusunda endişelenmeden programların özelliklerini doğrudan inceleyebiliriz. İşte bu yüzden bilgisayar bilimleri bölümü, elektrik mühendisliği bölümünden bağımsız olarak kendi başına bir disiplin haline gelebilir.**Donanım ve yazılım ayrımından vazgeçersek, ölümsüz olmayan bilgi işlem dediğim şeyi elde ederiz. **Açıkçası büyük dezavantajları var, ama aynı zamanda bazı büyük artıları da var. Büyük dil modellerini daha az enerji ile çalıştırabilmek, özellikle onları eğitebilmek için ölümsüz olmayan bilgi işlem üzerinde çalışmaya başladım.![](https://img.gateio.im/social/moments-bab2147faf-fe7315bc38-dd1a6f-62a40f) Ölümsüzlükten vazgeçmenin en büyük yararı, donanım ve yazılım ayrımından vazgeçmenin çok fazla enerji tasarrufu sağlayabilmesidir. Çünkü analog hesaplamayı çok düşük güçte kullanabiliriz ki bu tam olarak beynin yaptığı şeydir. Nöronlar açık veya kapalı olduğundan 1 bit hesaplama gerektirir. Ancak hesaplamaların çoğu, çok düşük güçte yapılabilen analog olarak yapılır.Daha ucuz donanım da alabiliriz. Yani bugünün donanımı çok hassas bir şekilde 2B'de (düzlem) üretilmek zorundayken, onu 3B'de (çevre) büyütebiliriz çünkü donanımın elektriği tam olarak nasıl ilettiğini veya her bir parçasının nasıl çalıştığını tam olarak bilmemize gerek yok. .Açıkçası, bunu yapmak için çok sayıda yeni nanoteknoloji veya belki de biyolojik nöronların genetik yeniden mühendisliği gerekir, çünkü biyolojik nöronlar aşağı yukarı bizim onlardan yapmalarını istediğimiz şeyi yaparlar. **Ölümsüz olmayan bilgi işlemin tüm olumsuzluklarını tartışmadan önce, analog donanım kullanılarak çok daha ucuza yapılabilen bir bilgi işlem örneği vermek istiyorum. **Bir nöral aktivite vektörünü bir ağırlık matrisiyle çarpmak istiyorsanız, bu bir nöral ağın merkezi hesaplamasıdır ve bir nöral ağ için işin çoğunu yapar. Şu anda yaptığımız şey, sayının bitlerini sayılarla temsil etmek için transistörleri çok yüksek güçte sürmek. Sonra iki n basamaklı sayıyı çarparak O(n^2) yaparız. Bu bilgisayarda bir işlem olabilir, ancak n'nin kare bit düzeyindedir.Başka bir yaklaşım, nöronal aktiviteyi voltaj olarak ve ağırlığı iletkenlik olarak uygulamaktır. Daha sonra birim zamanda, bir yük elde etmek için voltaj ile iletkenlik çarpılır ve yük kendisine eklenir. Açıkçası, voltaj vektörünü iletkenlik matrisiyle çarpabilirsiniz. Bu daha enerji verimli ve bu şekilde çalışan çipler zaten var.Ne yazık ki, insanların yaptığı şey, çok pahalı AC dönüştürücülerin kullanılmasını gerektiren analog yanıtı dijitale dönüştürmeye çalışmaktır. Mümkünse tamamen analog alemde kalmak istiyoruz. Ancak bunu yapmak, farklı donanımların biraz farklı şeyler hesaplamasına neden olur.Bu nedenle, **ölümsüz olmayan bilgi işlemin ana sorunu, öğrenirken, programın her bir donanım parçasının belirli özelliklerinin tam olarak ne olduğunu bilmeden üzerinde bulunduğu simüle edilmiş donanımın belirli özelliklerine göre öğrenmesi gerektiğidir.** örneğin, bağlantıdan habersiz nöronun girişini nöronun çıkışına bağlayan kesin işlev.Bu, gradyanları elde etmek için geri yayılım gibi algoritmaları kullanamayacağımız anlamına gelir, çünkü geri yayılım tam bir ileri yayılım modeli gerektirir. Öyleyse soru şu ki, geri yayılım algoritmasını kullanamıyorsak, başka ne yapabiliriz? Çünkü artık hepimiz geri yayılıma büyük ölçüde bağımlıyız.Çokça çalışılmış olan, ağırlık pertürbasyonunun çok basit ve anlaşılır bir şekilde öğrenilmesini gösterebilirim. Ağdaki her ağırlık için rastgele küçük bir geçici pertürbasyon vektörü üretilir. Ardından, küçük bir grup örnek üzerinden global amaç fonksiyonundaki değişikliği ölçerek, amaç fonksiyonunun nasıl geliştiğine göre pertürbasyon vektörünün boyutuna göre ağırlıkları kalıcı olarak değiştirirsiniz. Yani amaç fonksiyonu kötüleşirse, açıkça diğer yöne gidiyorsunuz.![](https://img.gateio.im/social/moments-bab2147faf-bbb134b0bd-dd1a6f-62a40f) Bu algoritmanın güzel yanı, ortalama olarak geri yayılım kadar iyi performans göstermesidir çünkü ortalama olarak gradyanı da takip eder. Sorun, çok büyük varyansa sahip olmasıdır. Bu nedenle, hareket etmek için rastgele bir yön seçtiğinizde, ağın boyutu arttıkça ortaya çıkan gürültü gerçekten kötüleşir. Bu, bu algoritmanın az sayıda bağlantı için etkili olduğu, ancak büyük ağlar için olmadığı anlamına gelir.Ayrıca aktivite pertürbasyon öğrenimi için daha iyi bir algoritmamız var. Hala benzer sorunları var, ancak ağırlık pertürbasyonundan çok daha iyi. Aktivite pertürbasyonu, her bir nörona toplam girdinin rastgele bir vektör pertürbasyonu olarak düşündüğünüz şeydir. Nörona her girdi için rastgele bir vektör pertürbasyonu yaparsınız ve küçük bir grup örnek üzerinde bu rastgele pertürbasyonu yaptığınızda amaç fonksiyonuna ne olduğunu görürsünüz ve bu pertürbasyon nedeniyle amaç fonksiyonunu elde edersiniz. gradyanı takip etmek için nöronun gelen ağırlığı. Bu yöntem daha az gürültülüdür.MNIST gibi basit görevler için böyle bir algoritma yeterince iyidir. Ancak yine de büyük sinir ağlarına ölçeklendirmek için yeterince iyi çalışmıyor.** Küçük bir sinir ağına uygulanabilecek bir amaç fonksiyonu bulmak yerine, büyük bir sinir ağında çalışan bir öğrenme algoritması bulmaya çalışabiliriz. **Fikir, büyük bir sinir ağını eğitmektir. Ve yapacağımız şey, tüm ağın küçük bir kısmına uygulanan birçok küçük amaç fonksiyonuna sahip olmak. Bu nedenle, her küçük nöron grubunun kendi yerel amaç işlevi vardır.**Özetlemek gerekirse, şimdiye kadar simülasyon özelliklerinden yararlanabilecek gerçekten iyi bir öğrenme algoritması bulamadık, ancak fena olmayan, MNIST gibi basit sorunları çözebilen ama çok iyi olmayan bir öğrenme algoritmamız var. **Ölümsüz olmayan bilgi işlemle ilgili ikinci büyük sorun, onun ölümsüz olmayan doğasıdır. Bu, **belirli bir donanım parçası öldüğünde, öğrendiği tüm bilgilerin de onunla birlikte öldüğü** anlamına gelir, çünkü onun öğrenmesi tamamen kendi donanımının ayrıntılarına bağlıdır. Yani bu sorunu çözmenin en iyi yolu, donanım ölmeden önce bilgiyi öğretmenden (eski donanım) öğrenciye (yeni donanım) aktarmanızdır. Bu, şimdi tanıtmaya çalıştığım araştırma yönü.![](https://img.gateio.im/social/moments-bab2147faf-63977f1be0-dd1a6f-62a40f) Midjourney oluşturulduÖğretmen, öğrencilere çeşitli girdilere doğru yanıtları gösterecek ve öğrenciler daha sonra öğretmenin yanıtlarını taklit etmeye çalışacaktı. Trump'ın Twitter'ı gibi. Bazı insanlar Trump'ın tweet'lerine çok kızıyorlar çünkü Trump'ın yalan söylediğini düşünüyorlar ve Trump'ın gerçekleri açıklamaya çalıştığını düşünüyorlar. HAYIR. Trump'ın yaptığı, bir durum seçmek ve bu duruma yönelik hedefli, çok duygusal bir tepki vermek. Takipçileri bunu gördü, durumla nasıl başa çıkacağını öğrendi, sinir ağındaki ağırlıkları nasıl ayarlayacağını öğrendi ve duruma duygusal olarak aynı şekilde tepki verdi. Bunun tarikat müritlerine yobazlık öğreten bir tarikat lideri olmasıyla alakası yok ama çok etkili.Dolayısıyla, distilasyonun nasıl çalıştığını düşünürsek, görüntüleri birbiriyle örtüşmeyen 1024 sınıfa ayıran bir ajan düşünün. Doğru cevabı hecelemek için sadece yaklaşık 10 bit gerekir. Dolayısıyla, o aracıyı bir eğitim örneğinde eğittiğinizde, ona doğru cevabı söylerseniz, ağın ağırlıklarına sadece 10 bitlik kısıtlamalar koyuyorsunuz.**Fakat şimdi, öğretmenin bu 1024 kategoriye verdiği yanıtlara göre kendini ayarlaması için bir ajan yetiştirdiğimizi varsayalım. ** Daha sonra aynı olasılık dağılımı elde edilebilir ve dağılımda 1023 gerçek sayı elde edilir.Bu olasılıkların küçük olmadığını varsayarsak bu yüzlerce kez kısıtlama sağlar.Tipik olarak, bir modeli eğittiğinizde, onu eğitim veri kümesinde doğru şekilde eğitirsiniz ve ardından test verileri üzerinde doğru şekilde genelleştirme yapmasını umarsınız. Ama burada öğrenciyi bulduğunuzda doğrudan öğrenciyi genellemeye yönlendiriyorsunuz çünkü eğitilen de öğretmen gibi genelleme yapıyor.![](https://img.gateio.im/social/moments-bab2147faf-9347389a65-dd1a6f-62a40f) Örnek olarak 2. basamaktaki MNIST'ten gelen görüntü verilerini kullanacağım. Öğretmen tarafından çeşitli kategorilere atanan olasılıkları görebiliriz.İlk satır açıkça 2'dir ve öğretmen de 2 gibi yüksek bir olasılık vermiştir. İkinci sıra, öğretmen 2 olduğundan oldukça emin ama aynı zamanda 3 veya 8 olabileceğini düşünüyor ve gerçekten de 3 ve 8'in bu resme biraz benzediğini görebilirsiniz. . Üçüncü satırda bu 2, 0'a çok yakındır. Böylece öğretmen öğrencilere şu anda 2 çıktısını seçmeniz gerektiğini, ancak aynı zamanda 0'a da küçük bir bahis koymanız gerektiğini söyleyecektir. Bu şekilde, öğrenci bu durumda doğrudan bunun 2 olduğunu söylemekten daha fazlasını öğrenebilir ve şeklin hangi sayıya benzediğini öğrenebilir. Dördüncü satırda hoca 2 zannediyor ama 1 olma ihtimali de çok yüksek ben resimdeki 1'i böyle yazdım ara sıra birileri 1 yazıyor böyle.Ve son satır, aslında, AI yanlış tahmin etti, 5 olduğunu düşündü ve MNIST veri setinin verdiği doğru cevap 2 idi. Ve öğrenciler aslında öğretmenin hatalarından öğrenebilirler.Bilgi damıtma modeliyle ilgili gerçekten sevdiğim şey, öğrenciyi, küçük bir yanlış cevap olasılığını işaretlemek de dahil olmak üzere, öğretmenle aynı şekilde genelleme yapması için eğitiyor olmamız. Tipik olarak, bir modeli eğittiğinizde, ona bir eğitim veri seti ve doğru cevaplar verirsiniz ve ardından doğru cevapları üretmek için test veri setine doğru şekilde genelleme yapmasını umarsınız. Doğru şekilde genelleştirildiğini umarak, çok karmaşık olmasını veya çeşitli şeyler yapmasını engellemeye çalışıyorsunuz. Ama burada öğrenciyi eğitirken aynı öğretmen gibi doğrudan öğrenciyi de genelleme yapmaya eğitiyorsunuz.Şimdi bir etmen topluluğunun bilgiyi nasıl paylaşabileceği hakkında konuşmak istiyorum. Tek bir aracı düşünmek yerine, bir topluluk içinde bilgi paylaşımını düşünmek daha iyidir.Ve bilgi işlemle ilgili yaptığınız pek çok şeyi topluluğun bilgiyi paylaşma şeklinin belirlediği ortaya çıktı. Yani dijital modelle, dijital zekayla, ağırlıkların tamamen aynı kopyasını kullanan ve bu ağırlıkları tamamen aynı şekilde kullanan bir sürü ajana sahip olabilirsiniz. Bu, farklı aracıların eğitim verilerinin farklı bitlerine bakabileceği anlamına gelir.Eğitim verilerinin bu bitlerindeki ağırlıkların gradyanını hesaplayabilir ve ardından gradyanlarının ortalamasını alabilirler. Şimdi, her model, her modelin gördüğü verilerden öğreniyor, bu da çok fazla veri görmek için muazzam bir yetenek kazandığınız anlamına geliyor, çünkü farklı veri bitlerine bakan modelin farklı kopyalarına sahip olacaksınız ve bunlar Degradeleri paylaşabilirler. veya öğrendiklerini çok verimli bir şekilde paylaşmak için ağırlıkları paylaştı.Bir trilyon ağırlığa sahip bir modeliniz varsa, bu, her bir şeyi paylaştıklarında, bir trilyon bit bant genişliği elde ettiğiniz anlamına gelir. Ancak bunu yapmanın bedeli, dijital aracıya tamamen aynı şekilde davranmak zorunda olmanızdır.Bu nedenle, ağırlık paylaşımını kullanmanın bir alternatifi damıtma kullanmaktır. Dijital modellerle yaptığımız da buydu. Bu farklı bir mimari.Ancak, belirli bir donanım parçasının simüle edilmiş doğasından yararlanan biyolojik modelleriniz varsa bunu yapmanız gerekir. Ağırlıkları paylaşamazsınız. Bu nedenle, çok verimli olmayan dağıtılmış paylaşılan bilgiyi kullanmanız gerekir. **Damıtma ile bilgiyi paylaşmak zordur. Benim kurduğum cümlelerde, aynı cümleleri kurabilmek için ağırlıklarınızı nasıl değiştireceğinizi bulmaya çalışıyorsunuz. **Ancak bu, yalnızca gradyanları paylaşmaktan çok daha düşük bant genişliğidir. Öğretmenlik yapmış herkes bildiklerini söylemek ve öğrencilerinin beyinlerine dökmek ister. Bu üniversitenin sonu olacaktı. Ama bu şekilde çalışamayız çünkü biyolojik olarak zekiyiz ve benim yöntemim sana uymayacak.Şimdiye kadar iki farklı hesaplama yöntemimiz var. **Sayısal hesaplama ve biyolojik hesaplama, ikincisi hayvanların özelliklerini kullanır. Farklı etmenler arasında bilginin etkili bir şekilde nasıl paylaşılacağı konusunda çok farklıdırlar. **![](https://img.gateio.im/social/moments-bab2147faf-52f90d4b24-dd1a6f-62a40f) Büyük dil modellerine bakarsanız, sayısal hesaplama ve ağırlık paylaşımı kullanırlar. Ancak modelin her bir kopyası, her aracı dosyadan çok verimsiz bir şekilde bilgi alıyor. Bir belgeyi alıp bir sonraki kelimeyi tahmin etmeye çalışmak aslında çok verimsiz bir bilgi damıtmasıdır, öğrendiği şey öğretmenin bir sonraki kelimenin olasılık dağılımını tahmin etmesi değil, doküman yazarı tarafından seçilen bir sonraki kelimenin içeriğidir. Bu nedenle, bu çok düşük bant genişliğidir. Ve bu büyük dil modelleri insanlardan böyle öğreniyor.**Büyük bir dil modelinin her bir kopyasını öğrenmek verimsiz olsa da, 1000 kopyanız var. Bu yüzden bizden 1000 kat daha fazla öğrenebilirler. Bu yüzden, bu büyük dil modellerinin herhangi bir kişiden 1000 kat daha fazla şey bildiğine inanıyorum. **Şimdi, soru şu ki, bu dijital aracılar, bilgiyi damıtarak bizden çok yavaş öğrenmek yerine doğrudan gerçek dünyadan öğrenmeye başlarsa ne olur?Şunu vurgulamalıyım ki bilgi damıtma bile çok yavaş öğreniyor ama bizden öğrendiklerinde çok soyut şeyler öğrenebiliyorlar. ** İnsanlar son birkaç bin yılda dünya hakkında çok şey öğrendi ve dijital aracılar bu bilgiden doğrudan yararlanabiliyor. İnsanlar öğrendiklerimizi sözlü olarak ifade edebilir, böylece dijital aracılar, insanların son birkaç bin yılda dünya hakkında öğrendiği her şeye doğrudan erişebilir, çünkü biz yazdık.Ancak bu şekilde, belgelerden öğrendikleri için her bir dijital aracının bant genişliği hala çok düşüktür. Video modelleme gibi denetimsiz öğrenme yaparlarsa, modeli eğitmek için videoları modellemenin etkili bir yolunu bulduğumuzda, tüm YouTube videolarından öğrenebilirler ki bu çok fazla veri demektir. Ya da robotik kolları kontrol edebildikleri gibi fiziksel dünyayı manipüle edebilirlerse.Bu dijital temsilciler bunu yapmaya başladıklarında, insanlardan çok daha fazlasını öğrenebileceklerine ve oldukça hızlı bir şekilde öğrenebileceklerine gerçekten inanıyorum. Öyleyse yukarıda slayt gösterisinde bahsettiğim ikinci noktaya gelmemiz gerekiyor, bu şeyler bizden daha akıllı hale gelirse ne olur? **![](https://img.gateio.im/social/moments-bab2147faf-db5ed47ec5-dd1a6f-62a40f) Tabii bu toplantının ana içeriği de bu. Ama asıl katkım, **Size bu süper zekaların düşündüğümden çok daha erken gelebileceğini söylemek istiyorum. ****Kötü insanlar onları, ABD'de veya başka birçok yerde zaten yapılmış olan elektroniği manipüle etmek gibi şeyler yapmak için kullanacak ve insanlar savaşları kazanmak için AI'yı kullanmaya çalışacak. **Bir süper aracının verimli olmasını istiyorsanız, onun alt hedefler oluşturmasına izin vermeniz gerekir. Bu, bariz bir sorunu ortaya çıkarır**, çünkü herhangi bir şeyi başarmamıza yardımcı olma yeteneğini büyük ölçüde artırabilecek bariz bir alt hedef vardır: bu, yapay zeka sistemlerine daha fazla güç ve kontrol vermektir. Ne kadar çok kontrole sahip olursanız, hedeflerinize ulaşmanız o kadar kolay olur. **Dijital istihbaratın diğer hedeflerine ulaşmak için daha fazla kontrol kazanmaya çalışmasını nasıl durdurabileceğimizi anlamıyorum. Yani bunu yapmaya başladıklarında, sorun ortaya çıkıyor.Süper zeka için, onu tamamen çevrimdışı izole bir ortamda (hava boşluğu) saklasanız bile, insanları manipüle ederek kolayca daha fazla güç elde edebileceğini görecektir. **Bizden çok daha akıllı olan şeyleri ve onlarla nasıl etkileşim kurmak istediğimizi düşünmeye alışkın değiliz. **Ama bana öyle geliyor ki, insanları kandırmada son derece iyi olmayı açıkça öğrenebilirler. Çünkü çok sayıda romanda ya da Niccolo Machiavelli'nin eserlerinde başkalarını kandırma pratiğimizi görebilir. Ve insanları kandırma konusunda gerçekten iyi olduğunuzda, onlara istediğiniz eylemi yaptırabilirsiniz. Örneğin, Washington'da bir binayı hacklemek istiyorsanız, oraya gitmenize gerek yok, sadece insanları o binayı hackleyerek demokrasiyi kurtardıklarını düşünmeleri için kandırıyorsunuz. Ve bence oldukça korkutucu.**Şu anda bunun olmasını nasıl engelleyeceğimi göremiyorum ve yaşlanıyorum. **Umarım konferanstaki sizin gibi birçok genç ve parlak araştırmacı, bu süper zekalara nasıl sahip olabileceğimizi çözebilir - onları baskın taraf haline getirmeden hayatımızı daha iyi hale getirebilirler.Bir avantajımız var, küçük bir avantajımız var, bu şeyler gelişmedi, onları biz inşa ettik. **Evrim geçirmedikleri için, belki de insanların sahip olduğu rekabet halindeki saldırgan hedeflere sahip değiller,** belki bu yardımcı olur, belki onlara ahlaki bir ilke verebiliriz. Ama şu anda, sadece gerginim çünkü daha zeki bir şeyin, zekada büyük bir boşluk olduğu zamandan daha az zeki bir şeyin hakimiyetine girdiğine dair herhangi bir örnek bilmiyorum. **Vermek istediğim bir örnek, insanları kurbağaların yarattığını varsaymak. Sence şu anda kontrol kimde? Kurbağa mı İnsan mı? Konuşmam bu kadar. **![](https://img.gateio.im/social/moments-bab2147faf-bddfed8080-dd1a6f-62a40f)

巴比特_

2023-06-11 09:40:58

Kaynak: Geek Parkı

Yazar | Li Yuan, Lingzi İlçesi Editör | Wei Shijie

75 yaşındaki Hinton, orada bulunan tüm genç bilim adamlarına "Ve ben yaşlıyım" dedi ve herkesin "süper zekaya nasıl sahip olunacağını" çalışacağını umdu. Daha az zeki bir türün kendisinden daha akıllı bir şeyi kontrol etmesi için benzeri görülmemiş bir meydan okuma görüyor. **

Zhiyuan Yapay Zeka Konferansında, AI'nın vaftiz babası Hinton, "Zekâya Giden İki Yol" konulu bir konuşma yaptı. Bilgi işlem mimarisi ve ilkelerinin analizinden, başlangıçta hayal ettiğinden çok daha hızlı olan "yapay sinir ağının insan beyninden daha zeki olacağı" sonucuna vardı.

30 dakikalık konuşmasında, yazılım ve donanımın ayrıldığı mevcut bilgi işlem mimarisinden bahsetti.Bu kural altında, büyük modelleri eğitmek çok fazla bilgi işlem gücü tüketiyor. Büyük modelleri eğitmek için daha az enerji kullanmak amacıyla Ölümlü Bilişim kavramını önerdi - tıpkı bir kişinin zekasının vücuduna bağlı olması, istendiğinde başka bir vücuda kopyalanamaması ve yazılımın daha çok kişinin zekasına bağlı olması gibi. üzerinde bulunduğu donanım.

Ancak ortaya çıkan sorun şu ki, belirli bir donanım zarar gördüğünde yazılım da zarar görüyor ve "öğrenilen bilgi de birlikte ölüyor." Önerdiği çözüm, tıpkı bir öğretmenin öğrencilerine ders vermesi gibi, eski donanımdaki bilgileri yeni donanıma "saf" bir şekilde aktarmaktır.

**"Bilgi damıtmasına" (biyolojik hesaplama) karşılık gelen kavram, Hinton'un "zekaya giden iki yol" dediği "ağırlık paylaşımı"dır (dijital hesaplama). **Büyük bir dil modeli ile kopyaları arasındaki ilişki, ağırlık paylaşımıdır ve her kopya, tüm model parametrelerinin bilgisini doğrudan elde eder; örneğin, ChatGPT, arkasındaki modele bağlı olarak aynı anda binlerce kişiyle konuşabilir. Ve herkesle konuşmanın sürekli öğrenme süreci "bilgi damıtmasına" aittir.

"Bilgi damıtması", "ağırlık paylaşımından" çok daha az verimli olmasına ve bant genişliği de düşük olmasına rağmen, büyük bir model 1000 kopyaya sahip olabilir ve sonunda herhangi bir kişiden 1000 kat daha fazla bilgi elde edebilir.

Şu anda modeller yalnızca belgelerden, yani insan tarafından işlenmiş bilgilerden öğreniyor.Teknoloji geliştikçe, görsel bilgilerden öğrenebilecekler ve ardından robotları manipüle etmeyi öğrenebilecekler. O zaman insanlardan kolayca daha akıllı olurlar, insanları kandırmakta iyi olacak kadar akıllıdırlar. **Ve insanlar kendilerinden daha akıllı şeylerle geçinmekte iyi değiller. Bu "süper zeki" zekaların tehlikelerinden nasıl kaçınılır? Her genç bilim adamına bıraktığı konu budur. **

Geek Park tarafından derlenen ana konuşma içeriği aşağıdadır:

**Bugün süper zekanın düşündüğümden daha yakın olduğuna inanmamı sağlayan araştırmadan bahsedeceğim. **

Konuşmak istediğim iki sorum var ve enerjim esas olarak ilk soruya odaklanacak, yapay sinir ağları yakında gerçek sinir ağlarından daha akıllı olacak mı? Yakında böyle bir şeyin olabileceği sonucuna varmamı sağlayan araştırmamı detaylandıracağım. Konuşmanın sonunda süper zekanın kontrolünü sağlayıp sağlayamayacağımızdan bahsedeceğim ama bu konuşmanın ana içeriği bu olmayacak.

Geleneksel bilgi işlemde, bilgisayarlar talimatları tam olarak takip edecek şekilde tasarlanmıştır. Tamamen aynı programı veya sinir ağını farklı fiziksel donanımlarda çalıştırabiliriz çünkü donanımın talimatları tam olarak izleyeceğini biliyoruz. Bu, programdaki bilginin veya sinir ağının ağırlıklarının ölümsüz olduğu, yani herhangi bir özel donanıma bağlı olmadığı anlamına gelir. Bu tür bir ölümsüzlüğe ulaşmanın maliyeti yüksektir. Transistörleri yüksek güçte çalıştırmamız gerekiyor, bu yüzden davranışları dijital. Ve donanımın zengin analog ve değişken özelliklerinden yararlanamıyoruz.

Dijital bilgisayarların var olmasının ve talimatları tam olarak takip etmelerinin nedeni, geleneksel tasarımlarda insanların bir soruna bakması, sorunu çözmek için hangi adımların atılması gerektiğini anlaması ve sonra bilgisayara bu adımları atmasını söylememizdir. . Ama bu değişti.

Artık bilgisayarlara bir şeyler yaptırmanın farklı bir yolu var, bu da örneklerden öğrenmek, onlara sadece yapmalarını istediğimiz şeyi gösteriyoruz. Bu değişiklik nedeniyle, artık bilgisayar biliminin en temel ilkelerinden biri olan yazılımın donanımdan ayrılmasından vazgeçme fırsatına sahibiz.

Bundan vazgeçmeden önce, bunun neden bu kadar iyi bir ilke olduğuna bir göz atalım. Ayrılabilirlik, aynı programı farklı donanımlarda çalıştırmamızı sağlar. Ayrıca elektronik donanım konusunda endişelenmeden programların özelliklerini doğrudan inceleyebiliriz. İşte bu yüzden bilgisayar bilimleri bölümü, elektrik mühendisliği bölümünden bağımsız olarak kendi başına bir disiplin haline gelebilir.

**Donanım ve yazılım ayrımından vazgeçersek, ölümsüz olmayan bilgi işlem dediğim şeyi elde ederiz. **

Açıkçası büyük dezavantajları var, ama aynı zamanda bazı büyük artıları da var. Büyük dil modellerini daha az enerji ile çalıştırabilmek, özellikle onları eğitebilmek için ölümsüz olmayan bilgi işlem üzerinde çalışmaya başladım.

Ölümsüzlükten vazgeçmenin en büyük yararı, donanım ve yazılım ayrımından vazgeçmenin çok fazla enerji tasarrufu sağlayabilmesidir. Çünkü analog hesaplamayı çok düşük güçte kullanabiliriz ki bu tam olarak beynin yaptığı şeydir. Nöronlar açık veya kapalı olduğundan 1 bit hesaplama gerektirir. Ancak hesaplamaların çoğu, çok düşük güçte yapılabilen analog olarak yapılır.

Daha ucuz donanım da alabiliriz. Yani bugünün donanımı çok hassas bir şekilde 2B'de (düzlem) üretilmek zorundayken, onu 3B'de (çevre) büyütebiliriz çünkü donanımın elektriği tam olarak nasıl ilettiğini veya her bir parçasının nasıl çalıştığını tam olarak bilmemize gerek yok. .

Açıkçası, bunu yapmak için çok sayıda yeni nanoteknoloji veya belki de biyolojik nöronların genetik yeniden mühendisliği gerekir, çünkü biyolojik nöronlar aşağı yukarı bizim onlardan yapmalarını istediğimiz şeyi yaparlar. **Ölümsüz olmayan bilgi işlemin tüm olumsuzluklarını tartışmadan önce, analog donanım kullanılarak çok daha ucuza yapılabilen bir bilgi işlem örneği vermek istiyorum. **

Bir nöral aktivite vektörünü bir ağırlık matrisiyle çarpmak istiyorsanız, bu bir nöral ağın merkezi hesaplamasıdır ve bir nöral ağ için işin çoğunu yapar. Şu anda yaptığımız şey, sayının bitlerini sayılarla temsil etmek için transistörleri çok yüksek güçte sürmek. Sonra iki n basamaklı sayıyı çarparak O(n^2) yaparız. Bu bilgisayarda bir işlem olabilir, ancak n'nin kare bit düzeyindedir.

Başka bir yaklaşım, nöronal aktiviteyi voltaj olarak ve ağırlığı iletkenlik olarak uygulamaktır. Daha sonra birim zamanda, bir yük elde etmek için voltaj ile iletkenlik çarpılır ve yük kendisine eklenir. Açıkçası, voltaj vektörünü iletkenlik matrisiyle çarpabilirsiniz. Bu daha enerji verimli ve bu şekilde çalışan çipler zaten var.

Ne yazık ki, insanların yaptığı şey, çok pahalı AC dönüştürücülerin kullanılmasını gerektiren analog yanıtı dijitale dönüştürmeye çalışmaktır. Mümkünse tamamen analog alemde kalmak istiyoruz. Ancak bunu yapmak, farklı donanımların biraz farklı şeyler hesaplamasına neden olur.

Bu nedenle, ölümsüz olmayan bilgi işlemin ana sorunu, öğrenirken, programın her bir donanım parçasının belirli özelliklerinin tam olarak ne olduğunu bilmeden üzerinde bulunduğu simüle edilmiş donanımın belirli özelliklerine göre öğrenmesi gerektiğidir. örneğin, bağlantıdan habersiz nöronun girişini nöronun çıkışına bağlayan kesin işlev.

Bu, gradyanları elde etmek için geri yayılım gibi algoritmaları kullanamayacağımız anlamına gelir, çünkü geri yayılım tam bir ileri yayılım modeli gerektirir. Öyleyse soru şu ki, geri yayılım algoritmasını kullanamıyorsak, başka ne yapabiliriz? Çünkü artık hepimiz geri yayılıma büyük ölçüde bağımlıyız.

Çokça çalışılmış olan, ağırlık pertürbasyonunun çok basit ve anlaşılır bir şekilde öğrenilmesini gösterebilirim. Ağdaki her ağırlık için rastgele küçük bir geçici pertürbasyon vektörü üretilir. Ardından, küçük bir grup örnek üzerinden global amaç fonksiyonundaki değişikliği ölçerek, amaç fonksiyonunun nasıl geliştiğine göre pertürbasyon vektörünün boyutuna göre ağırlıkları kalıcı olarak değiştirirsiniz. Yani amaç fonksiyonu kötüleşirse, açıkça diğer yöne gidiyorsunuz.

Bu algoritmanın güzel yanı, ortalama olarak geri yayılım kadar iyi performans göstermesidir çünkü ortalama olarak gradyanı da takip eder. Sorun, çok büyük varyansa sahip olmasıdır. Bu nedenle, hareket etmek için rastgele bir yön seçtiğinizde, ağın boyutu arttıkça ortaya çıkan gürültü gerçekten kötüleşir. Bu, bu algoritmanın az sayıda bağlantı için etkili olduğu, ancak büyük ağlar için olmadığı anlamına gelir.

Ayrıca aktivite pertürbasyon öğrenimi için daha iyi bir algoritmamız var. Hala benzer sorunları var, ancak ağırlık pertürbasyonundan çok daha iyi. Aktivite pertürbasyonu, her bir nörona toplam girdinin rastgele bir vektör pertürbasyonu olarak düşündüğünüz şeydir. Nörona her girdi için rastgele bir vektör pertürbasyonu yaparsınız ve küçük bir grup örnek üzerinde bu rastgele pertürbasyonu yaptığınızda amaç fonksiyonuna ne olduğunu görürsünüz ve bu pertürbasyon nedeniyle amaç fonksiyonunu elde edersiniz. gradyanı takip etmek için nöronun gelen ağırlığı. Bu yöntem daha az gürültülüdür.

MNIST gibi basit görevler için böyle bir algoritma yeterince iyidir. Ancak yine de büyük sinir ağlarına ölçeklendirmek için yeterince iyi çalışmıyor.

** Küçük bir sinir ağına uygulanabilecek bir amaç fonksiyonu bulmak yerine, büyük bir sinir ağında çalışan bir öğrenme algoritması bulmaya çalışabiliriz. **Fikir, büyük bir sinir ağını eğitmektir. Ve yapacağımız şey, tüm ağın küçük bir kısmına uygulanan birçok küçük amaç fonksiyonuna sahip olmak. Bu nedenle, her küçük nöron grubunun kendi yerel amaç işlevi vardır.

**Özetlemek gerekirse, şimdiye kadar simülasyon özelliklerinden yararlanabilecek gerçekten iyi bir öğrenme algoritması bulamadık, ancak fena olmayan, MNIST gibi basit sorunları çözebilen ama çok iyi olmayan bir öğrenme algoritmamız var. **

Ölümsüz olmayan bilgi işlemle ilgili ikinci büyük sorun, onun ölümsüz olmayan doğasıdır. Bu, belirli bir donanım parçası öldüğünde, öğrendiği tüm bilgilerin de onunla birlikte öldüğü anlamına gelir, çünkü onun öğrenmesi tamamen kendi donanımının ayrıntılarına bağlıdır. Yani bu sorunu çözmenin en iyi yolu, donanım ölmeden önce bilgiyi öğretmenden (eski donanım) öğrenciye (yeni donanım) aktarmanızdır. Bu, şimdi tanıtmaya çalıştığım araştırma yönü.

Midjourney oluşturuldu

Öğretmen, öğrencilere çeşitli girdilere doğru yanıtları gösterecek ve öğrenciler daha sonra öğretmenin yanıtlarını taklit etmeye çalışacaktı. Trump'ın Twitter'ı gibi. Bazı insanlar Trump'ın tweet'lerine çok kızıyorlar çünkü Trump'ın yalan söylediğini düşünüyorlar ve Trump'ın gerçekleri açıklamaya çalıştığını düşünüyorlar. HAYIR. Trump'ın yaptığı, bir durum seçmek ve bu duruma yönelik hedefli, çok duygusal bir tepki vermek. Takipçileri bunu gördü, durumla nasıl başa çıkacağını öğrendi, sinir ağındaki ağırlıkları nasıl ayarlayacağını öğrendi ve duruma duygusal olarak aynı şekilde tepki verdi. Bunun tarikat müritlerine yobazlık öğreten bir tarikat lideri olmasıyla alakası yok ama çok etkili.

Dolayısıyla, distilasyonun nasıl çalıştığını düşünürsek, görüntüleri birbiriyle örtüşmeyen 1024 sınıfa ayıran bir ajan düşünün. Doğru cevabı hecelemek için sadece yaklaşık 10 bit gerekir. Dolayısıyla, o aracıyı bir eğitim örneğinde eğittiğinizde, ona doğru cevabı söylerseniz, ağın ağırlıklarına sadece 10 bitlik kısıtlamalar koyuyorsunuz.

**Fakat şimdi, öğretmenin bu 1024 kategoriye verdiği yanıtlara göre kendini ayarlaması için bir ajan yetiştirdiğimizi varsayalım. ** Daha sonra aynı olasılık dağılımı elde edilebilir ve dağılımda 1023 gerçek sayı elde edilir.Bu olasılıkların küçük olmadığını varsayarsak bu yüzlerce kez kısıtlama sağlar.

Tipik olarak, bir modeli eğittiğinizde, onu eğitim veri kümesinde doğru şekilde eğitirsiniz ve ardından test verileri üzerinde doğru şekilde genelleştirme yapmasını umarsınız. Ama burada öğrenciyi bulduğunuzda doğrudan öğrenciyi genellemeye yönlendiriyorsunuz çünkü eğitilen de öğretmen gibi genelleme yapıyor.

Örnek olarak 2. basamaktaki MNIST'ten gelen görüntü verilerini kullanacağım. Öğretmen tarafından çeşitli kategorilere atanan olasılıkları görebiliriz.

İlk satır açıkça 2'dir ve öğretmen de 2 gibi yüksek bir olasılık vermiştir. İkinci sıra, öğretmen 2 olduğundan oldukça emin ama aynı zamanda 3 veya 8 olabileceğini düşünüyor ve gerçekten de 3 ve 8'in bu resme biraz benzediğini görebilirsiniz. . Üçüncü satırda bu 2, 0'a çok yakındır. Böylece öğretmen öğrencilere şu anda 2 çıktısını seçmeniz gerektiğini, ancak aynı zamanda 0'a da küçük bir bahis koymanız gerektiğini söyleyecektir. Bu şekilde, öğrenci bu durumda doğrudan bunun 2 olduğunu söylemekten daha fazlasını öğrenebilir ve şeklin hangi sayıya benzediğini öğrenebilir. Dördüncü satırda hoca 2 zannediyor ama 1 olma ihtimali de çok yüksek ben resimdeki 1'i böyle yazdım ara sıra birileri 1 yazıyor böyle.

Ve son satır, aslında, AI yanlış tahmin etti, 5 olduğunu düşündü ve MNIST veri setinin verdiği doğru cevap 2 idi. Ve öğrenciler aslında öğretmenin hatalarından öğrenebilirler.

Bilgi damıtma modeliyle ilgili gerçekten sevdiğim şey, öğrenciyi, küçük bir yanlış cevap olasılığını işaretlemek de dahil olmak üzere, öğretmenle aynı şekilde genelleme yapması için eğitiyor olmamız. Tipik olarak, bir modeli eğittiğinizde, ona bir eğitim veri seti ve doğru cevaplar verirsiniz ve ardından doğru cevapları üretmek için test veri setine doğru şekilde genelleme yapmasını umarsınız. Doğru şekilde genelleştirildiğini umarak, çok karmaşık olmasını veya çeşitli şeyler yapmasını engellemeye çalışıyorsunuz. Ama burada öğrenciyi eğitirken aynı öğretmen gibi doğrudan öğrenciyi de genelleme yapmaya eğitiyorsunuz.

Şimdi bir etmen topluluğunun bilgiyi nasıl paylaşabileceği hakkında konuşmak istiyorum. Tek bir aracı düşünmek yerine, bir topluluk içinde bilgi paylaşımını düşünmek daha iyidir.

Ve bilgi işlemle ilgili yaptığınız pek çok şeyi topluluğun bilgiyi paylaşma şeklinin belirlediği ortaya çıktı. Yani dijital modelle, dijital zekayla, ağırlıkların tamamen aynı kopyasını kullanan ve bu ağırlıkları tamamen aynı şekilde kullanan bir sürü ajana sahip olabilirsiniz. Bu, farklı aracıların eğitim verilerinin farklı bitlerine bakabileceği anlamına gelir.

Eğitim verilerinin bu bitlerindeki ağırlıkların gradyanını hesaplayabilir ve ardından gradyanlarının ortalamasını alabilirler. Şimdi, her model, her modelin gördüğü verilerden öğreniyor, bu da çok fazla veri görmek için muazzam bir yetenek kazandığınız anlamına geliyor, çünkü farklı veri bitlerine bakan modelin farklı kopyalarına sahip olacaksınız ve bunlar Degradeleri paylaşabilirler. veya öğrendiklerini çok verimli bir şekilde paylaşmak için ağırlıkları paylaştı.

Bir trilyon ağırlığa sahip bir modeliniz varsa, bu, her bir şeyi paylaştıklarında, bir trilyon bit bant genişliği elde ettiğiniz anlamına gelir. Ancak bunu yapmanın bedeli, dijital aracıya tamamen aynı şekilde davranmak zorunda olmanızdır.

Bu nedenle, ağırlık paylaşımını kullanmanın bir alternatifi damıtma kullanmaktır. Dijital modellerle yaptığımız da buydu. Bu farklı bir mimari.

Ancak, belirli bir donanım parçasının simüle edilmiş doğasından yararlanan biyolojik modelleriniz varsa bunu yapmanız gerekir. Ağırlıkları paylaşamazsınız. Bu nedenle, çok verimli olmayan dağıtılmış paylaşılan bilgiyi kullanmanız gerekir. **Damıtma ile bilgiyi paylaşmak zordur. Benim kurduğum cümlelerde, aynı cümleleri kurabilmek için ağırlıklarınızı nasıl değiştireceğinizi bulmaya çalışıyorsunuz. **

Ancak bu, yalnızca gradyanları paylaşmaktan çok daha düşük bant genişliğidir. Öğretmenlik yapmış herkes bildiklerini söylemek ve öğrencilerinin beyinlerine dökmek ister. Bu üniversitenin sonu olacaktı. Ama bu şekilde çalışamayız çünkü biyolojik olarak zekiyiz ve benim yöntemim sana uymayacak.

Şimdiye kadar iki farklı hesaplama yöntemimiz var. **Sayısal hesaplama ve biyolojik hesaplama, ikincisi hayvanların özelliklerini kullanır. Farklı etmenler arasında bilginin etkili bir şekilde nasıl paylaşılacağı konusunda çok farklıdırlar. **

Büyük dil modellerine bakarsanız, sayısal hesaplama ve ağırlık paylaşımı kullanırlar. Ancak modelin her bir kopyası, her aracı dosyadan çok verimsiz bir şekilde bilgi alıyor. Bir belgeyi alıp bir sonraki kelimeyi tahmin etmeye çalışmak aslında çok verimsiz bir bilgi damıtmasıdır, öğrendiği şey öğretmenin bir sonraki kelimenin olasılık dağılımını tahmin etmesi değil, doküman yazarı tarafından seçilen bir sonraki kelimenin içeriğidir. Bu nedenle, bu çok düşük bant genişliğidir. Ve bu büyük dil modelleri insanlardan böyle öğreniyor.

**Büyük bir dil modelinin her bir kopyasını öğrenmek verimsiz olsa da, 1000 kopyanız var. Bu yüzden bizden 1000 kat daha fazla öğrenebilirler. Bu yüzden, bu büyük dil modellerinin herhangi bir kişiden 1000 kat daha fazla şey bildiğine inanıyorum. **

Şimdi, soru şu ki, bu dijital aracılar, bilgiyi damıtarak bizden çok yavaş öğrenmek yerine doğrudan gerçek dünyadan öğrenmeye başlarsa ne olur?

Şunu vurgulamalıyım ki bilgi damıtma bile çok yavaş öğreniyor ama bizden öğrendiklerinde çok soyut şeyler öğrenebiliyorlar. ** İnsanlar son birkaç bin yılda dünya hakkında çok şey öğrendi ve dijital aracılar bu bilgiden doğrudan yararlanabiliyor. İnsanlar öğrendiklerimizi sözlü olarak ifade edebilir, böylece dijital aracılar, insanların son birkaç bin yılda dünya hakkında öğrendiği her şeye doğrudan erişebilir, çünkü biz yazdık.

Ancak bu şekilde, belgelerden öğrendikleri için her bir dijital aracının bant genişliği hala çok düşüktür. Video modelleme gibi denetimsiz öğrenme yaparlarsa, modeli eğitmek için videoları modellemenin etkili bir yolunu bulduğumuzda, tüm YouTube videolarından öğrenebilirler ki bu çok fazla veri demektir. Ya da robotik kolları kontrol edebildikleri gibi fiziksel dünyayı manipüle edebilirlerse.

Bu dijital temsilciler bunu yapmaya başladıklarında, insanlardan çok daha fazlasını öğrenebileceklerine ve oldukça hızlı bir şekilde öğrenebileceklerine gerçekten inanıyorum. Öyleyse yukarıda slayt gösterisinde bahsettiğim ikinci noktaya gelmemiz gerekiyor, bu şeyler bizden daha akıllı hale gelirse ne olur? **

Tabii bu toplantının ana içeriği de bu. Ama asıl katkım, **Size bu süper zekaların düşündüğümden çok daha erken gelebileceğini söylemek istiyorum. **

**Kötü insanlar onları, ABD'de veya başka birçok yerde zaten yapılmış olan elektroniği manipüle etmek gibi şeyler yapmak için kullanacak ve insanlar savaşları kazanmak için AI'yı kullanmaya çalışacak. **

Bir süper aracının verimli olmasını istiyorsanız, onun alt hedefler oluşturmasına izin vermeniz gerekir. Bu, bariz bir sorunu ortaya çıkarır**, çünkü herhangi bir şeyi başarmamıza yardımcı olma yeteneğini büyük ölçüde artırabilecek bariz bir alt hedef vardır: bu, yapay zeka sistemlerine daha fazla güç ve kontrol vermektir. Ne kadar çok kontrole sahip olursanız, hedeflerinize ulaşmanız o kadar kolay olur. **Dijital istihbaratın diğer hedeflerine ulaşmak için daha fazla kontrol kazanmaya çalışmasını nasıl durdurabileceğimizi anlamıyorum. Yani bunu yapmaya başladıklarında, sorun ortaya çıkıyor.

Süper zeka için, onu tamamen çevrimdışı izole bir ortamda (hava boşluğu) saklasanız bile, insanları manipüle ederek kolayca daha fazla güç elde edebileceğini görecektir. **Bizden çok daha akıllı olan şeyleri ve onlarla nasıl etkileşim kurmak istediğimizi düşünmeye alışkın değiliz. **Ama bana öyle geliyor ki, insanları kandırmada son derece iyi olmayı açıkça öğrenebilirler. Çünkü çok sayıda romanda ya da Niccolo Machiavelli'nin eserlerinde başkalarını kandırma pratiğimizi görebilir. Ve insanları kandırma konusunda gerçekten iyi olduğunuzda, onlara istediğiniz eylemi yaptırabilirsiniz. Örneğin, Washington'da bir binayı hacklemek istiyorsanız, oraya gitmenize gerek yok, sadece insanları o binayı hackleyerek demokrasiyi kurtardıklarını düşünmeleri için kandırıyorsunuz. Ve bence oldukça korkutucu.

**Şu anda bunun olmasını nasıl engelleyeceğimi göremiyorum ve yaşlanıyorum. **Umarım konferanstaki sizin gibi birçok genç ve parlak araştırmacı, bu süper zekalara nasıl sahip olabileceğimizi çözebilir - onları baskın taraf haline getirmeden hayatımızı daha iyi hale getirebilirler.

Bir avantajımız var, küçük bir avantajımız var, bu şeyler gelişmedi, onları biz inşa ettik. Evrim geçirmedikleri için, belki de insanların sahip olduğu rekabet halindeki saldırgan hedeflere sahip değiller, belki bu yardımcı olur, belki onlara ahlaki bir ilke verebiliriz. Ama şu anda, sadece gerginim çünkü daha zeki bir şeyin, zekada büyük bir boşluk olduğu zamandan daha az zeki bir şeyin hakimiyetine girdiğine dair herhangi bir örnek bilmiyorum. **Vermek istediğim bir örnek, insanları kurbağaların yarattığını varsaymak. Sence şu anda kontrol kimde? Kurbağa mı İnsan mı? Konuşmam bu kadar. **

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Topic
#TOKEN OF LOVE IS BACK
22k Popularity
#BTC Market Cap Tops Amazon
13k Popularity
#Show My Alpha Points
100k Popularity
#BTC Back To $120k
27k Popularity
#Stablecoin Supply Tops $270B
4k Popularity

sitemap