Bố già AI Hinton: Tôi già rồi, làm sao điều khiển được "siêu trí tuệ" thông minh hơn người là tùy bạn

巴比特_ · 2023-06-11T09:40:58+00:00

Nguồn: Công viên Geek![](https://img.gateio.im/social/moments-bab2147faf-977b917fad-dd1a6f-62a40f) **Tác giả | Li Yuan, Lingzi County****Biên tập viên | Ngụy Thế Kiệt**"Và tôi đã già", Hinton, 75 tuổi, nói với tất cả các nhà khoa học trẻ có mặt, và ông hy vọng rằng mọi người sẽ nghiên cứu "làm thế nào để có trí tuệ siêu phàm". Anh ta nhận thấy một thách thức chưa từng có đối với một loài kém thông minh hơn là kiểm soát thứ gì đó thông minh hơn chính nó. **Tại Hội nghị trí tuệ nhân tạo Zhiyuan, Hinton, cha đỡ đầu của AI, đã có bài phát biểu về "Hai con đường dẫn đến trí thông minh". Từ việc phân tích kiến trúc và nguyên tắc máy tính, anh ấy đã đưa ra kết luận của riêng mình rằng "mạng lưới thần kinh nhân tạo sẽ thông minh hơn bộ não con người", nhanh hơn nhiều so với tưởng tượng ban đầu của anh ấy.![](https://img.gateio.im/social/moments-bab2147faf-9622171a00-dd1a6f-62a40f) Trong bài phát biểu dài 30 phút của mình, ông đã nói về kiến trúc điện toán hiện tại nơi phần mềm và phần cứng được tách biệt, theo quy tắc này, việc đào tạo các mô hình lớn tiêu tốn rất nhiều năng lượng tính toán. Để sử dụng ít năng lượng hơn để đào tạo các mô hình lớn, anh ấy đã đề xuất khái niệm **Máy tính chết** - giống như trí thông minh của một người phụ thuộc vào cơ thể của anh ta, nó không thể được sao chép sang cơ thể khác theo ý muốn và phần mềm phụ thuộc nhiều hơn vào phần cứng nó tồn tại trên.Nhưng vấn đề kéo theo là khi phần cứng hư hỏng thì phần mềm cũng hư theo, và “kiến thức học được cũng chết theo”. Giải pháp mà anh đưa ra là truyền kiến thức trên phần cứng cũ sang phần cứng mới theo cách "chắt lọc", giống như thầy dạy học trò.**Khái niệm tương ứng với "chắt lọc kiến thức" (điện toán sinh học) là "chia sẻ trọng số" (điện toán kỹ thuật số), đó là cái mà Hinton gọi là "hai con đường dẫn đến trí thông minh". **Mối quan hệ giữa mô hình ngôn ngữ lớn và các bản sao của nó là chia sẻ trọng số và mỗi bản sao trực tiếp thu được kiến thức về toàn bộ tham số mô hình—ví dụ: ChatGPT có thể nói chuyện với hàng nghìn người cùng lúc dựa trên mô hình đằng sau nó. Và quá trình học hỏi không ngừng để nói chuyện với mọi người thuộc về "sự chắt lọc kiến thức".Mặc dù "chắt lọc kiến thức" kém hiệu quả hơn nhiều so với "chia sẻ trọng lượng" và băng thông cũng thấp, nhưng một mô hình lớn có thể có 1000 bản sao và cuối cùng thu được lượng kiến thức gấp 1000 lần so với bất kỳ người nào.Các mô hình hiện tại chỉ học từ tài liệu—tức là kiến thức do con người xử lý. Khi công nghệ phát triển, chúng sẽ có thể học từ thông tin hình ảnh và sau đó có thể học cách điều khiển robot. Khi đó chúng dễ dàng thông minh hơn con người, đủ thông minh để lừa người giỏi. **Và con người không giỏi hòa đồng với những thứ thông minh hơn mình. Làm sao để tránh khỏi những nguy hiểm từ những trí thông minh "siêu thông minh" này? Đây là chủ đề ông để lại cho mọi nhà khoa học trẻ. **## **Sau đây là nội dung bài phát biểu chính do Geek Park biên soạn:****Hôm nay tôi sẽ nói về nghiên cứu khiến tôi tin rằng siêu trí tuệ ở gần hơn tôi nghĩ. **Tôi có hai câu hỏi muốn nói, và năng lượng của tôi sẽ chủ yếu tập trung vào câu hỏi đầu tiên, liệu mạng thần kinh nhân tạo sẽ sớm thông minh hơn mạng thần kinh thực? Tôi sẽ giải thích chi tiết về nghiên cứu của mình, điều này dẫn tôi đến kết luận rằng một điều như vậy có thể sớm xảy ra. Vào cuối buổi nói chuyện, tôi sẽ nói về việc liệu chúng ta có thể duy trì sự kiểm soát của siêu trí tuệ hay không, nhưng đây sẽ không phải là nội dung chính của buổi nói chuyện này.![](https://img.gateio.im/social/moments-bab2147faf-83cbf75372-dd1a6f-62a40f) Trong điện toán truyền thống, máy tính được thiết kế để làm theo hướng dẫn một cách chính xác. Chúng ta có thể chạy chính xác cùng một chương trình hoặc mạng thần kinh trên các phần cứng vật lý khác nhau, bởi vì chúng ta biết rằng phần cứng sẽ tuân theo các hướng dẫn một cách chính xác. Điều này có nghĩa là kiến thức trong chương trình hay trọng số của mạng nơ-ron là bất biến, tức là không phụ thuộc vào bất kỳ phần cứng cụ thể nào. Chi phí để đạt được loại bất tử này là cao. Chúng tôi phải chạy các bóng bán dẫn ở công suất cao, vì vậy hành vi của chúng là kỹ thuật số. Và chúng ta không thể tận dụng các thuộc tính biến đổi và tương tự phong phú của phần cứng.Vì vậy, lý do máy tính kỹ thuật số tồn tại và lý do chúng làm theo hướng dẫn một cách chính xác là bởi vì trong các thiết kế truyền thống, con người xem xét một vấn đề, tìm ra những bước cần thực hiện để giải quyết vấn đề và sau đó chúng tôi yêu cầu máy tính thực hiện các bước đó. . Nhưng điều đó đã thay đổi.Bây giờ chúng ta có một cách khác để khiến máy tính làm mọi việc, đó là học từ các ví dụ, chúng ta chỉ cho chúng thấy những gì chúng ta muốn chúng làm. Vì sự thay đổi này, giờ đây chúng ta có cơ hội từ bỏ một trong những nguyên tắc cơ bản nhất của khoa học máy tính, tách phần mềm khỏi phần cứng.Trước khi từ bỏ nó, chúng ta hãy xem tại sao nó lại là một nguyên tắc tốt như vậy. Khả năng tách biệt cho phép chúng tôi chạy cùng một chương trình trên các phần cứng khác nhau. Chúng ta cũng có thể nghiên cứu trực tiếp các thuộc tính của chương trình mà không phải lo lắng về phần cứng điện tử. Và đó là lý do tại sao khoa khoa học máy tính có thể trở thành một chuyên ngành riêng, độc lập với khoa kỹ thuật điện.**Nếu chúng ta từ bỏ sự tách biệt giữa phần cứng và phần mềm, chúng ta sẽ có được cái mà tôi gọi là máy tính không bất tử. **Nó rõ ràng có nhược điểm lớn, nhưng nó cũng có một số ưu điểm lớn. Để có thể chạy các mô hình ngôn ngữ lớn với ít năng lượng hơn, đặc biệt là để đào tạo chúng, tôi bắt đầu nghiên cứu về máy tính không bất tử.![](https://img.gateio.im/social/moments-bab2147faf-fe7315bc38-dd1a6f-62a40f) Lợi ích lớn nhất thu được từ việc từ bỏ sự bất tử là việc từ bỏ sự tách biệt giữa phần cứng và phần mềm có thể tiết kiệm rất nhiều năng lượng. Bởi vì chúng ta có thể sử dụng máy tính tương tự với mức năng lượng rất thấp, đó chính xác là những gì bộ não đang làm. Nó yêu cầu 1 bit tính toán, vì các nơ-ron đang bật hoặc tắt. Nhưng hầu hết các phép tính được thực hiện bằng tín hiệu tương tự, có thể được thực hiện ở mức công suất rất thấp.Chúng tôi cũng có thể nhận được phần cứng rẻ hơn. Vì vậy, phần cứng ngày nay phải được sản xuất rất chính xác ở dạng 2D (mặt phẳng) trong khi chúng ta có thể phát triển nó ở dạng 3D (môi trường) vì chúng ta không cần biết chính xác phần cứng dẫn điện như thế nào hoặc chính xác từng bộ phận của nó hoạt động như thế nào. .Rõ ràng, để làm được điều đó sẽ cần rất nhiều công nghệ nano mới, hoặc có lẽ là tái cấu trúc di truyền của tế bào thần kinh sinh học, bởi vì tế bào thần kinh sinh học làm đại khái những gì chúng ta muốn chúng làm. **Trước khi chúng ta thảo luận về tất cả các nhược điểm của điện toán không bất tử, tôi muốn đưa ra một ví dụ về điện toán có thể được thực hiện rẻ hơn nhiều bằng cách sử dụng phần cứng tương tự. **Nếu bạn muốn nhân một vectơ hoạt động nơ-ron với một ma trận trọng số, thì đó là phép tính trung tâm của mạng nơ-ron và nó thực hiện hầu hết công việc đối với mạng nơ-ron. Những gì chúng tôi đang làm hiện nay là điều khiển các bóng bán dẫn ở công suất rất cao để biểu thị các bit của con số, bằng các con số. Sau đó, chúng tôi thực hiện O(n^2), nhân hai số có n chữ số. Đây có thể là một thao tác trên máy tính, nhưng nó ở mức bit vuông của n.Một cách tiếp cận khác là thực hiện hoạt động của tế bào thần kinh dưới dạng điện áp và trọng lượng dưới dạng độ dẫn điện. Sau đó, trong một đơn vị thời gian, điện áp được nhân với độ dẫn điện để có điện tích và điện tích được tự thêm vào. Vì vậy, rõ ràng bạn chỉ có thể nhân vectơ điện áp với ma trận độ dẫn. Điều này tiết kiệm năng lượng hơn và các chip hoạt động theo cách này đã tồn tại.Thật không may, những gì mọi người làm sau đó là cố gắng chuyển đổi câu trả lời tương tự sang kỹ thuật số, điều này đòi hỏi phải sử dụng bộ chuyển đổi AC rất đắt tiền. Chúng tôi muốn ở lại hoàn toàn trong lĩnh vực tương tự nếu có thể. Nhưng làm như vậy sẽ khiến các phần cứng khác nhau tính toán những thứ hơi khác nhau.Do đó, **vấn đề chính của máy tính không bất tử là khi học, chương trình phải học theo các thuộc tính cụ thể của phần cứng mô phỏng mà nó đang chạy, mà không biết chính xác các thuộc tính cụ thể của từng phần cứng là gì,** ví dụ: Chức năng chính xác kết nối đầu vào của nơ-ron với đầu ra của nơ-ron, không biết về kết nối.Điều này có nghĩa là chúng ta không thể sử dụng các thuật toán như lan truyền ngược để thu được độ dốc, bởi vì lan truyền ngược yêu cầu một mô hình lan truyền thuận chính xác. Vì vậy, câu hỏi đặt ra là, nếu chúng ta không thể sử dụng thuật toán lan truyền ngược, thì chúng ta có thể làm gì khác? Bởi vì hiện tại tất cả chúng ta đều phụ thuộc rất nhiều vào lan truyền ngược.Tôi có thể chỉ ra một cách học rất đơn giản và dễ hiểu về sự nhiễu loạn cân nặng, điều đã được nghiên cứu rất nhiều. Đối với mỗi trọng số trong mạng, một vectơ nhiễu loạn tạm thời nhỏ ngẫu nhiên được tạo ra. Sau đó, đo lường sự thay đổi trong hàm mục tiêu tổng thể qua một loạt ví dụ nhỏ, bạn thay đổi vĩnh viễn các trọng số theo kích thước của vectơ nhiễu loạn tùy theo mức độ cải thiện của hàm mục tiêu. Vì vậy, nếu chức năng mục tiêu trở nên tồi tệ hơn, rõ ràng là bạn đang đi theo hướng khác.![](https://img.gateio.im/social/moments-bab2147faf-bbb134b0bd-dd1a6f-62a40f) Điều thú vị về thuật toán này là tính trung bình, nó thực hiện tốt như lan truyền ngược bởi vì tính trung bình, nó cũng tuân theo độ dốc. Vấn đề là nó có phương sai rất lớn. Vì vậy, khi bạn chọn một hướng ngẫu nhiên để di chuyển, tiếng ồn sẽ trở nên rất tệ khi kích thước của mạng tăng lên. Điều này có nghĩa là thuật toán này có hiệu quả đối với một số lượng nhỏ kết nối, nhưng không hiệu quả đối với các mạng lớn.Chúng tôi cũng có một thuật toán tốt hơn để học nhiễu loạn hoạt động. Nó vẫn có những vấn đề tương tự, nhưng tốt hơn nhiều so với sự nhiễu loạn trọng lượng. Nhiễu loạn hoạt động là những gì bạn coi là nhiễu loạn vectơ ngẫu nhiên của tổng đầu vào cho mỗi nơ-ron. Bạn thực hiện nhiễu loạn vectơ ngẫu nhiên của từng đầu vào nơ-ron và xem điều gì xảy ra với hàm mục tiêu của bạn khi bạn thực hiện nhiễu loạn ngẫu nhiên này trên một loạt ví dụ nhỏ và bạn nhận được hàm mục tiêu do nhiễu loạn này. Sau đó, bạn có thể tính toán cách thay đổi từng trọng lượng tới của tế bào thần kinh để theo gradient. Phương pháp này ít ồn ào hơn.Đối với các tác vụ đơn giản như MNIST, thuật toán như vậy là đủ tốt. Nhưng nó vẫn chưa hoạt động đủ tốt để mở rộng sang các mạng thần kinh lớn.**Thay vì tìm một hàm mục tiêu có thể áp dụng cho mạng nơ-ron nhỏ, chúng ta có thể thử tìm một thuật toán học phù hợp với mạng nơ-ron lớn. ** Ý tưởng là đào tạo một mạng lưới thần kinh lớn. Và những gì chúng ta sẽ làm là có nhiều hàm mục tiêu nhỏ áp dụng cho một phần nhỏ của toàn bộ mạng lưới. Do đó, mỗi nhóm nhỏ các tế bào thần kinh có chức năng mục tiêu cục bộ của riêng mình.**Tóm lại, cho đến nay chúng ta vẫn chưa tìm được một thuật toán học nào thực sự tốt, tận dụng được tính chất mô phỏng, nhưng chúng ta có một thuật toán học cũng không tồi, có thể giải các bài toán đơn giản như MNIST, nhưng không quá xuất sắc. **Vấn đề lớn thứ hai với máy tính không bất tử là bản chất không bất tử của nó. Điều này có nghĩa là **khi một phần cứng cụ thể chết, tất cả kiến thức mà nó học được sẽ chết theo nó,** bởi vì việc học của nó hoàn toàn dựa trên các chi tiết của phần cứng cụ thể đó. Vì vậy, cách tốt nhất để giải quyết vấn đề này là bạn chắt lọc kiến thức từ giáo viên (phần cứng cũ) cho học sinh (phần cứng mới) trước khi phần cứng chết. Đây là hướng nghiên cứu mà tôi đang cố gắng thúc đẩy hiện nay.![](https://img.gateio.im/social/moments-bab2147faf-63977f1be0-dd1a6f-62a40f) Đã tạo giữa hành trìnhGiáo viên sẽ cho học sinh xem các câu trả lời đúng với các đầu vào khác nhau và sau đó học sinh sẽ cố gắng bắt chước các câu trả lời của giáo viên. Nó giống như Twitter của Trump. Một số người rất tức giận với các dòng tweet của Trump vì họ cảm thấy rằng Trump đang nói dối và họ nghĩ rằng Trump đang cố gắng giải thích sự thật. KHÔNG. Những gì Trump đã làm là chọn ra một tình huống và có một phản ứng có mục tiêu, rất xúc động đối với tình huống đó. Những người theo ông đã nhìn thấy điều đó, học cách đối phó với tình huống, học cách điều chỉnh các trọng số trong mạng lưới thần kinh và phản ứng theo cảm xúc với tình huống theo cách tương tự. Nó không liên quan gì đến việc đây là một thủ lĩnh giáo phái đang dạy sự cố chấp cho những người theo giáo phái của mình, nhưng nó rất hiệu quả.Vì vậy, nếu chúng ta nghĩ về cách hoạt động của quá trình chưng cất, hãy xem xét một tác nhân phân loại ảnh thành 1024 lớp không chồng lấp. Câu trả lời đúng chỉ mất khoảng 10 bit để đánh vần. Vì vậy, khi bạn đào tạo tác nhân đó trên một phiên bản đào tạo, nếu bạn cho nó biết câu trả lời đúng, thì bạn chỉ đang đặt các ràng buộc 10 bit lên trọng số của mạng.**Nhưng bây giờ, giả sử chúng ta đào tạo một tác nhân tự điều chỉnh theo câu trả lời của giáo viên cho 1024 danh mục này. ** Sau đó, có thể thu được phân phối xác suất giống nhau và thu được số thực 1023. Giả sử rằng các xác suất này không nhỏ, điều này cung cấp các ràng buộc hàng trăm lần.Thông thường, khi bạn huấn luyện một mô hình, bạn huấn luyện mô hình đó một cách chính xác trên tập dữ liệu huấn luyện và sau đó hy vọng rằng mô hình đó tổng quát hóa chính xác trên dữ liệu thử nghiệm. Nhưng ở đây, khi bạn tìm thấy học sinh, bạn trực tiếp đào tạo học sinh khái quát hóa, bởi vì học sinh được đào tạo khái quát hóa theo cách giống như giáo viên.![](https://img.gateio.im/social/moments-bab2147faf-9347389a65-dd1a6f-62a40f) Tôi sẽ sử dụng dữ liệu hình ảnh từ MNIST trên chữ số 2 làm ví dụ. Chúng ta có thể thấy các xác suất được giáo viên chỉ định cho các loại khác nhau.Dòng đầu tiên rõ ràng là 2, và giáo viên cũng đưa ra xác suất cao là 2. Hàng thứ hai, giáo viên khá tự tin đó là số 2, nhưng nó cũng nghĩ nó có thể là số 3, hoặc có thể là số 8, và bạn có thể thấy rằng, thực sự, số 3 và số 8 có một chút giống với bức tranh này . Ở hàng thứ ba, số 2 này rất gần với 0. Vì vậy, giáo viên sẽ nói với học sinh rằng bạn nên chọn đầu ra 2 vào lúc này, nhưng bạn cũng phải đặt cược nhỏ vào 0. Bằng cách này, học sinh có thể học được nhiều hơn trong trường hợp này thay vì nói trực tiếp với học sinh rằng đây là số 2 và học sinh có thể biết hình dạng của số đó trông như thế nào. Ở dòng thứ tư, giáo viên cho rằng đó là số 2, nhưng cũng rất có thể là số 1, đó là cách tôi viết số 1 trong hình, thỉnh thoảng có người viết số 1 như thế này.Và dòng cuối cùng, trên thực tế, AI đã đoán sai, nó nghĩ rằng đó là số 5 và câu trả lời đúng mà bộ dữ liệu MNIST đưa ra là 2. Và học sinh thực sự có thể học hỏi từ những sai lầm của giáo viên.Điều tôi thực sự thích ở mô hình chắt lọc kiến thức là chúng tôi đang huấn luyện học sinh cách khái quát hóa giống như giáo viên, bao gồm cả việc đánh dấu một xác suất nhỏ các câu trả lời sai. Thông thường, khi bạn huấn luyện một mô hình, bạn cung cấp cho nó một tập dữ liệu huấn luyện và các câu trả lời đúng, sau đó hy vọng nó sẽ tổng quát hóa chính xác tập dữ liệu thử nghiệm để tạo ra các câu trả lời đúng. Bạn đang cố gắng giữ cho nó không quá phức tạp hoặc làm nhiều việc khác nhau, hy vọng nó khái quát chính xác. Nhưng ở đây, khi bạn huấn luyện học sinh, bạn trực tiếp huấn luyện học sinh cách khái quát hóa giống như giáo viên.Vì vậy, bây giờ tôi muốn nói về cách một cộng đồng đại lý có thể chia sẻ kiến thức. Thay vì nghĩ về một tác nhân duy nhất, tốt hơn là nghĩ về việc chia sẻ kiến thức trong một cộng đồng.Và hóa ra cách cộng đồng chia sẻ kiến thức quyết định rất nhiều điều bạn làm về điện toán. Vì vậy, với mô hình kỹ thuật số, với trí thông minh kỹ thuật số, bạn có thể có cả đống tác nhân sử dụng cùng một bản sao chính xác của các trọng số và sử dụng các trọng số đó theo cùng một cách chính xác. Điều này có nghĩa là các tác nhân khác nhau có thể xem các bit khác nhau của dữ liệu huấn luyện.Họ có thể tính toán độ dốc của các trọng số trên các bit này của dữ liệu huấn luyện và sau đó có thể lấy trung bình độ dốc của chúng. Vì vậy, bây giờ, mỗi mô hình học từ dữ liệu mà mỗi mô hình nhìn thấy, điều đó có nghĩa là bạn có được khả năng to lớn để xem nhiều dữ liệu, bởi vì bạn sẽ có các bản sao khác nhau của mô hình xem xét các bit dữ liệu khác nhau và chúng có thể chia sẻ Độ dốc hoặc chia sẻ trọng số để chia sẻ những gì họ học được rất hiệu quả.Nếu bạn có một mô hình với một nghìn tỷ trọng số, điều đó có nghĩa là mỗi khi họ chia sẻ thứ gì đó, bạn sẽ nhận được một nghìn tỷ bit băng thông. Nhưng cái giá của việc làm này là bạn phải hành xử với tác nhân kỹ thuật số theo cùng một cách.Do đó, một giải pháp thay thế cho việc chia sẻ trọng lượng là sử dụng phương pháp chưng cất. Và đó là những gì chúng tôi đã làm với các mô hình kỹ thuật số. Đây là một kiến trúc khác.Tuy nhiên, bạn phải làm điều này nếu bạn có các mô hình sinh học đang tận dụng tính chất mô phỏng của một phần cứng cụ thể. Bạn không thể chia sẻ trọng lượng. Do đó, bạn phải sử dụng kiến thức được chia sẻ phân tán, điều này không hiệu quả lắm. **Chia sẻ kiến thức chắt lọc khó lắm. Các câu tôi tạo ra, bạn đang cố gắng tìm ra cách thay đổi trọng số của mình để bạn tạo ra các câu giống nhau. **Tuy nhiên, đây là băng thông thấp hơn nhiều so với việc chỉ chia sẻ độ dốc. Tất cả những ai đã từng dạy học đều mong muốn được nói những gì mình biết và truyền tải nó vào bộ não của học sinh. Đó sẽ là kết thúc của đại học. Nhưng chúng ta không thể làm việc như thế này vì chúng ta thông minh về mặt sinh học và cách của tôi sẽ không hiệu quả với bạn.Cho đến nay, chúng ta có hai cách tính toán khác nhau. ** Điện toán số và điện toán sinh học, sau này sử dụng các đặc điểm của động vật. Chúng rất khác nhau về cách chia sẻ kiến thức hiệu quả giữa các tác nhân khác nhau. **![](https://img.gateio.im/social/moments-bab2147faf-52f90d4b24-dd1a6f-62a40f) Nếu bạn nhìn vào các mô hình ngôn ngữ lớn, chúng sử dụng tính toán số và chia sẻ trọng số. Nhưng mỗi bản sao của mô hình, mỗi tác nhân, đang thu thập kiến thức từ tệp theo cách rất kém hiệu quả. Lấy một tài liệu và cố gắng dự đoán từ tiếp theo thực sự là quá trình chắt lọc kiến thức rất kém hiệu quả, những gì nó học được không phải là dự đoán của giáo viên về phân bố xác suất của từ tiếp theo, mà là nội dung của từ tiếp theo do tác giả tài liệu chọn. Do đó, đây là băng thông rất thấp. Và đó là cách những mô hình ngôn ngữ lớn này học hỏi từ mọi người.**Mặc dù học từng bản sao của một mô hình ngôn ngữ lớn là không hiệu quả, nhưng bạn có 1000 bản sao. Đó là lý do tại sao họ có thể học được gấp 1000 lần chúng ta. Vì vậy, tôi tin rằng những mô hình ngôn ngữ lớn này biết nhiều hơn 1000 lần so với bất kỳ cá nhân nào. **Bây giờ, câu hỏi là, điều gì sẽ xảy ra nếu những tác nhân kỹ thuật số này, thay vì học từ chúng ta rất chậm thông qua chắt lọc kiến thức, lại bắt đầu học trực tiếp từ thế giới thực?Tôi nên nhấn mạnh rằng ngay cả sự chắt lọc kiến thức học rất chậm, nhưng khi họ học từ chúng tôi, họ có thể học những điều rất trừu tượng. ** Con người đã học được rất nhiều về thế giới trong vài thiên niên kỷ qua và các tác nhân kỹ thuật số có thể tận dụng kiến thức này một cách trực tiếp. Con người có thể diễn đạt bằng lời những gì chúng ta đã học, vì vậy các tác nhân kỹ thuật số có quyền truy cập trực tiếp vào mọi thứ con người đã học về thế giới trong hàng thiên niên kỷ qua do chúng ta viết ra.Nhưng theo cách này, băng thông của mỗi tác nhân kỹ thuật số vẫn rất thấp, bởi vì họ học từ tài liệu. Nếu họ học không giám sát, chẳng hạn như bằng cách lập mô hình video, thì sau khi chúng tôi tìm ra cách hiệu quả để lập mô hình video nhằm huấn luyện mô hình, họ có thể học hỏi từ tất cả các video trên YouTube, vốn chứa rất nhiều dữ liệu. Hoặc nếu họ có thể thao túng thế giới vật chất, chẳng hạn như họ có thể điều khiển cánh tay rô-bốt, v.v.Tôi thực sự tin rằng một khi các tác nhân kỹ thuật số này bắt đầu làm điều này, họ sẽ có thể học được nhiều điều hơn con người và họ sẽ có thể học khá nhanh. Vì vậy, chúng ta cần đến điểm thứ hai mà tôi đã đề cập ở trên trong bản trình chiếu, đó là điều gì sẽ xảy ra nếu những thứ này trở nên thông minh hơn chúng ta? **![](https://img.gateio.im/social/moments-bab2147faf-db5ed47ec5-dd1a6f-62a40f) Đương nhiên, đây cũng là nội dung chính của cuộc họp này. Nhưng đóng góp chính của tôi là, **Tôi muốn nói với bạn rằng những siêu trí tuệ này có thể xuất hiện sớm hơn nhiều so với tôi từng nghĩ. ****Những kẻ xấu sẽ sử dụng chúng để làm những việc như điều khiển thiết bị điện tử, điều đã được thực hiện ở Mỹ hoặc nhiều nơi khác và mọi người sẽ cố gắng sử dụng AI để giành chiến thắng trong các cuộc chiến. **Nếu bạn muốn một siêu đại lý hoạt động hiệu quả, bạn cần cho phép nó tạo các mục tiêu phụ. Điều này dẫn đến một vấn đề rõ ràng**, bởi vì có một mục tiêu phụ rõ ràng có thể nâng cao đáng kể khả năng giúp chúng ta đạt được bất cứ điều gì: đó là cung cấp cho các hệ thống trí tuệ nhân tạo nhiều quyền lực và khả năng kiểm soát hơn. Bạn càng có nhiều quyền kiểm soát, bạn càng dễ dàng đạt được mục tiêu của mình. **Tôi không hiểu làm thế nào chúng ta có thể ngăn trí thông minh kỹ thuật số cố gắng giành thêm quyền kiểm soát để đạt được các mục tiêu khác của chúng. Vì vậy, một khi họ bắt đầu làm điều đó, vấn đề sẽ phát sinh.Đối với siêu trí tuệ, ngay cả khi bạn lưu trữ nó trong một môi trường biệt lập hoàn toàn ngoại tuyến (airgap), nó sẽ thấy rằng nó có thể dễ dàng thu được nhiều quyền lực hơn bằng cách thao túng con người. **Chúng ta không quen suy nghĩ về những thứ thông minh hơn chúng ta nhiều và cách chúng ta muốn tương tác với chúng. **Nhưng đối với tôi, dường như họ rõ ràng có thể học cách lừa dối mọi người cực kỳ giỏi. Bởi vì nó có thể thấy hành vi lừa dối người khác của chúng ta trong một số lượng lớn tiểu thuyết hoặc trong các tác phẩm của Niccolo Machiavelli. Và một khi bạn thực sự thành thạo trong việc lừa dối mọi người, bạn có thể khiến họ thực hiện bất kỳ hành động nào bạn muốn. Ví dụ: nếu bạn muốn hack một tòa nhà ở Washington, bạn không cần phải đến đó, bạn chỉ cần lừa mọi người nghĩ rằng bằng cách hack tòa nhà đó, họ đang bảo vệ nền dân chủ. Và tôi nghĩ nó khá đáng sợ.** Tôi không thể biết làm thế nào để ngăn chặn điều này xảy ra bây giờ và tôi đang già đi. **Tôi hy vọng rằng nhiều nhà nghiên cứu trẻ và xuất sắc, giống như bạn tại hội nghị, có thể tìm ra cách chúng ta có được những siêu trí tuệ này - rằng chúng sẽ làm cho cuộc sống của chúng ta tốt đẹp hơn mà không khiến chúng trở thành đảng thống trị.Chúng tôi có một lợi thế, một lợi thế nhỏ, đó là những thứ này không phát triển, chúng tôi đã tạo ra chúng. **Bởi vì chúng không tiến hóa, có thể chúng không có những mục tiêu cạnh tranh hung hăng như con người,** có thể điều đó sẽ hữu ích, có thể chúng ta có thể trao cho chúng một nguyên tắc đạo đức. Nhưng hiện tại, tôi chỉ lo lắng vì tôi không biết có ví dụ nào về việc một thứ thông minh hơn bị một thứ kém thông minh hơn thống trị so với khi có khoảng cách lớn về trí thông minh. **Tôi muốn đưa ra một ví dụ là giả định rằng ếch đã tạo ra con người. Bạn nghĩ ai đang kiểm soát ngay bây giờ? Ếch hay Người? Đó là tất cả cho bài phát biểu của tôi. **![](https://img.gateio.im/social/moments-bab2147faf-bddfed8080-dd1a6f-62a40f)

巴比特_

2023-06-11 09:40:58

Nguồn: Công viên Geek

Tác giả | Li Yuan, Lingzi County Biên tập viên | Ngụy Thế Kiệt

"Và tôi đã già", Hinton, 75 tuổi, nói với tất cả các nhà khoa học trẻ có mặt, và ông hy vọng rằng mọi người sẽ nghiên cứu "làm thế nào để có trí tuệ siêu phàm". Anh ta nhận thấy một thách thức chưa từng có đối với một loài kém thông minh hơn là kiểm soát thứ gì đó thông minh hơn chính nó. **

Tại Hội nghị trí tuệ nhân tạo Zhiyuan, Hinton, cha đỡ đầu của AI, đã có bài phát biểu về "Hai con đường dẫn đến trí thông minh". Từ việc phân tích kiến trúc và nguyên tắc máy tính, anh ấy đã đưa ra kết luận của riêng mình rằng "mạng lưới thần kinh nhân tạo sẽ thông minh hơn bộ não con người", nhanh hơn nhiều so với tưởng tượng ban đầu của anh ấy.

Trong bài phát biểu dài 30 phút của mình, ông đã nói về kiến trúc điện toán hiện tại nơi phần mềm và phần cứng được tách biệt, theo quy tắc này, việc đào tạo các mô hình lớn tiêu tốn rất nhiều năng lượng tính toán. Để sử dụng ít năng lượng hơn để đào tạo các mô hình lớn, anh ấy đã đề xuất khái niệm Máy tính chết - giống như trí thông minh của một người phụ thuộc vào cơ thể của anh ta, nó không thể được sao chép sang cơ thể khác theo ý muốn và phần mềm phụ thuộc nhiều hơn vào phần cứng nó tồn tại trên.

Nhưng vấn đề kéo theo là khi phần cứng hư hỏng thì phần mềm cũng hư theo, và “kiến thức học được cũng chết theo”. Giải pháp mà anh đưa ra là truyền kiến thức trên phần cứng cũ sang phần cứng mới theo cách "chắt lọc", giống như thầy dạy học trò.

**Khái niệm tương ứng với "chắt lọc kiến thức" (điện toán sinh học) là "chia sẻ trọng số" (điện toán kỹ thuật số), đó là cái mà Hinton gọi là "hai con đường dẫn đến trí thông minh". **Mối quan hệ giữa mô hình ngôn ngữ lớn và các bản sao của nó là chia sẻ trọng số và mỗi bản sao trực tiếp thu được kiến thức về toàn bộ tham số mô hình—ví dụ: ChatGPT có thể nói chuyện với hàng nghìn người cùng lúc dựa trên mô hình đằng sau nó. Và quá trình học hỏi không ngừng để nói chuyện với mọi người thuộc về "sự chắt lọc kiến thức".

Mặc dù "chắt lọc kiến thức" kém hiệu quả hơn nhiều so với "chia sẻ trọng lượng" và băng thông cũng thấp, nhưng một mô hình lớn có thể có 1000 bản sao và cuối cùng thu được lượng kiến thức gấp 1000 lần so với bất kỳ người nào.

Các mô hình hiện tại chỉ học từ tài liệu—tức là kiến thức do con người xử lý. Khi công nghệ phát triển, chúng sẽ có thể học từ thông tin hình ảnh và sau đó có thể học cách điều khiển robot. Khi đó chúng dễ dàng thông minh hơn con người, đủ thông minh để lừa người giỏi. **Và con người không giỏi hòa đồng với những thứ thông minh hơn mình. Làm sao để tránh khỏi những nguy hiểm từ những trí thông minh "siêu thông minh" này? Đây là chủ đề ông để lại cho mọi nhà khoa học trẻ. **

Sau đây là nội dung bài phát biểu chính do Geek Park biên soạn:

**Hôm nay tôi sẽ nói về nghiên cứu khiến tôi tin rằng siêu trí tuệ ở gần hơn tôi nghĩ. **

Tôi có hai câu hỏi muốn nói, và năng lượng của tôi sẽ chủ yếu tập trung vào câu hỏi đầu tiên, liệu mạng thần kinh nhân tạo sẽ sớm thông minh hơn mạng thần kinh thực? Tôi sẽ giải thích chi tiết về nghiên cứu của mình, điều này dẫn tôi đến kết luận rằng một điều như vậy có thể sớm xảy ra. Vào cuối buổi nói chuyện, tôi sẽ nói về việc liệu chúng ta có thể duy trì sự kiểm soát của siêu trí tuệ hay không, nhưng đây sẽ không phải là nội dung chính của buổi nói chuyện này.

Trong điện toán truyền thống, máy tính được thiết kế để làm theo hướng dẫn một cách chính xác. Chúng ta có thể chạy chính xác cùng một chương trình hoặc mạng thần kinh trên các phần cứng vật lý khác nhau, bởi vì chúng ta biết rằng phần cứng sẽ tuân theo các hướng dẫn một cách chính xác. Điều này có nghĩa là kiến thức trong chương trình hay trọng số của mạng nơ-ron là bất biến, tức là không phụ thuộc vào bất kỳ phần cứng cụ thể nào. Chi phí để đạt được loại bất tử này là cao. Chúng tôi phải chạy các bóng bán dẫn ở công suất cao, vì vậy hành vi của chúng là kỹ thuật số. Và chúng ta không thể tận dụng các thuộc tính biến đổi và tương tự phong phú của phần cứng.

Vì vậy, lý do máy tính kỹ thuật số tồn tại và lý do chúng làm theo hướng dẫn một cách chính xác là bởi vì trong các thiết kế truyền thống, con người xem xét một vấn đề, tìm ra những bước cần thực hiện để giải quyết vấn đề và sau đó chúng tôi yêu cầu máy tính thực hiện các bước đó. . Nhưng điều đó đã thay đổi.

Bây giờ chúng ta có một cách khác để khiến máy tính làm mọi việc, đó là học từ các ví dụ, chúng ta chỉ cho chúng thấy những gì chúng ta muốn chúng làm. Vì sự thay đổi này, giờ đây chúng ta có cơ hội từ bỏ một trong những nguyên tắc cơ bản nhất của khoa học máy tính, tách phần mềm khỏi phần cứng.

Trước khi từ bỏ nó, chúng ta hãy xem tại sao nó lại là một nguyên tắc tốt như vậy. Khả năng tách biệt cho phép chúng tôi chạy cùng một chương trình trên các phần cứng khác nhau. Chúng ta cũng có thể nghiên cứu trực tiếp các thuộc tính của chương trình mà không phải lo lắng về phần cứng điện tử. Và đó là lý do tại sao khoa khoa học máy tính có thể trở thành một chuyên ngành riêng, độc lập với khoa kỹ thuật điện.

**Nếu chúng ta từ bỏ sự tách biệt giữa phần cứng và phần mềm, chúng ta sẽ có được cái mà tôi gọi là máy tính không bất tử. **

Nó rõ ràng có nhược điểm lớn, nhưng nó cũng có một số ưu điểm lớn. Để có thể chạy các mô hình ngôn ngữ lớn với ít năng lượng hơn, đặc biệt là để đào tạo chúng, tôi bắt đầu nghiên cứu về máy tính không bất tử.

Lợi ích lớn nhất thu được từ việc từ bỏ sự bất tử là việc từ bỏ sự tách biệt giữa phần cứng và phần mềm có thể tiết kiệm rất nhiều năng lượng. Bởi vì chúng ta có thể sử dụng máy tính tương tự với mức năng lượng rất thấp, đó chính xác là những gì bộ não đang làm. Nó yêu cầu 1 bit tính toán, vì các nơ-ron đang bật hoặc tắt. Nhưng hầu hết các phép tính được thực hiện bằng tín hiệu tương tự, có thể được thực hiện ở mức công suất rất thấp.

Chúng tôi cũng có thể nhận được phần cứng rẻ hơn. Vì vậy, phần cứng ngày nay phải được sản xuất rất chính xác ở dạng 2D (mặt phẳng) trong khi chúng ta có thể phát triển nó ở dạng 3D (môi trường) vì chúng ta không cần biết chính xác phần cứng dẫn điện như thế nào hoặc chính xác từng bộ phận của nó hoạt động như thế nào. .

Rõ ràng, để làm được điều đó sẽ cần rất nhiều công nghệ nano mới, hoặc có lẽ là tái cấu trúc di truyền của tế bào thần kinh sinh học, bởi vì tế bào thần kinh sinh học làm đại khái những gì chúng ta muốn chúng làm. **Trước khi chúng ta thảo luận về tất cả các nhược điểm của điện toán không bất tử, tôi muốn đưa ra một ví dụ về điện toán có thể được thực hiện rẻ hơn nhiều bằng cách sử dụng phần cứng tương tự. **

Nếu bạn muốn nhân một vectơ hoạt động nơ-ron với một ma trận trọng số, thì đó là phép tính trung tâm của mạng nơ-ron và nó thực hiện hầu hết công việc đối với mạng nơ-ron. Những gì chúng tôi đang làm hiện nay là điều khiển các bóng bán dẫn ở công suất rất cao để biểu thị các bit của con số, bằng các con số. Sau đó, chúng tôi thực hiện O(n^2), nhân hai số có n chữ số. Đây có thể là một thao tác trên máy tính, nhưng nó ở mức bit vuông của n.

Một cách tiếp cận khác là thực hiện hoạt động của tế bào thần kinh dưới dạng điện áp và trọng lượng dưới dạng độ dẫn điện. Sau đó, trong một đơn vị thời gian, điện áp được nhân với độ dẫn điện để có điện tích và điện tích được tự thêm vào. Vì vậy, rõ ràng bạn chỉ có thể nhân vectơ điện áp với ma trận độ dẫn. Điều này tiết kiệm năng lượng hơn và các chip hoạt động theo cách này đã tồn tại.

Thật không may, những gì mọi người làm sau đó là cố gắng chuyển đổi câu trả lời tương tự sang kỹ thuật số, điều này đòi hỏi phải sử dụng bộ chuyển đổi AC rất đắt tiền. Chúng tôi muốn ở lại hoàn toàn trong lĩnh vực tương tự nếu có thể. Nhưng làm như vậy sẽ khiến các phần cứng khác nhau tính toán những thứ hơi khác nhau.

Do đó, vấn đề chính của máy tính không bất tử là khi học, chương trình phải học theo các thuộc tính cụ thể của phần cứng mô phỏng mà nó đang chạy, mà không biết chính xác các thuộc tính cụ thể của từng phần cứng là gì, ví dụ: Chức năng chính xác kết nối đầu vào của nơ-ron với đầu ra của nơ-ron, không biết về kết nối.

Điều này có nghĩa là chúng ta không thể sử dụng các thuật toán như lan truyền ngược để thu được độ dốc, bởi vì lan truyền ngược yêu cầu một mô hình lan truyền thuận chính xác. Vì vậy, câu hỏi đặt ra là, nếu chúng ta không thể sử dụng thuật toán lan truyền ngược, thì chúng ta có thể làm gì khác? Bởi vì hiện tại tất cả chúng ta đều phụ thuộc rất nhiều vào lan truyền ngược.

Tôi có thể chỉ ra một cách học rất đơn giản và dễ hiểu về sự nhiễu loạn cân nặng, điều đã được nghiên cứu rất nhiều. Đối với mỗi trọng số trong mạng, một vectơ nhiễu loạn tạm thời nhỏ ngẫu nhiên được tạo ra. Sau đó, đo lường sự thay đổi trong hàm mục tiêu tổng thể qua một loạt ví dụ nhỏ, bạn thay đổi vĩnh viễn các trọng số theo kích thước của vectơ nhiễu loạn tùy theo mức độ cải thiện của hàm mục tiêu. Vì vậy, nếu chức năng mục tiêu trở nên tồi tệ hơn, rõ ràng là bạn đang đi theo hướng khác.

Điều thú vị về thuật toán này là tính trung bình, nó thực hiện tốt như lan truyền ngược bởi vì tính trung bình, nó cũng tuân theo độ dốc. Vấn đề là nó có phương sai rất lớn. Vì vậy, khi bạn chọn một hướng ngẫu nhiên để di chuyển, tiếng ồn sẽ trở nên rất tệ khi kích thước của mạng tăng lên. Điều này có nghĩa là thuật toán này có hiệu quả đối với một số lượng nhỏ kết nối, nhưng không hiệu quả đối với các mạng lớn.

Chúng tôi cũng có một thuật toán tốt hơn để học nhiễu loạn hoạt động. Nó vẫn có những vấn đề tương tự, nhưng tốt hơn nhiều so với sự nhiễu loạn trọng lượng. Nhiễu loạn hoạt động là những gì bạn coi là nhiễu loạn vectơ ngẫu nhiên của tổng đầu vào cho mỗi nơ-ron. Bạn thực hiện nhiễu loạn vectơ ngẫu nhiên của từng đầu vào nơ-ron và xem điều gì xảy ra với hàm mục tiêu của bạn khi bạn thực hiện nhiễu loạn ngẫu nhiên này trên một loạt ví dụ nhỏ và bạn nhận được hàm mục tiêu do nhiễu loạn này. Sau đó, bạn có thể tính toán cách thay đổi từng trọng lượng tới của tế bào thần kinh để theo gradient. Phương pháp này ít ồn ào hơn.

Đối với các tác vụ đơn giản như MNIST, thuật toán như vậy là đủ tốt. Nhưng nó vẫn chưa hoạt động đủ tốt để mở rộng sang các mạng thần kinh lớn.

**Thay vì tìm một hàm mục tiêu có thể áp dụng cho mạng nơ-ron nhỏ, chúng ta có thể thử tìm một thuật toán học phù hợp với mạng nơ-ron lớn. ** Ý tưởng là đào tạo một mạng lưới thần kinh lớn. Và những gì chúng ta sẽ làm là có nhiều hàm mục tiêu nhỏ áp dụng cho một phần nhỏ của toàn bộ mạng lưới. Do đó, mỗi nhóm nhỏ các tế bào thần kinh có chức năng mục tiêu cục bộ của riêng mình.

**Tóm lại, cho đến nay chúng ta vẫn chưa tìm được một thuật toán học nào thực sự tốt, tận dụng được tính chất mô phỏng, nhưng chúng ta có một thuật toán học cũng không tồi, có thể giải các bài toán đơn giản như MNIST, nhưng không quá xuất sắc. **

Vấn đề lớn thứ hai với máy tính không bất tử là bản chất không bất tử của nó. Điều này có nghĩa là khi một phần cứng cụ thể chết, tất cả kiến thức mà nó học được sẽ chết theo nó, bởi vì việc học của nó hoàn toàn dựa trên các chi tiết của phần cứng cụ thể đó. Vì vậy, cách tốt nhất để giải quyết vấn đề này là bạn chắt lọc kiến thức từ giáo viên (phần cứng cũ) cho học sinh (phần cứng mới) trước khi phần cứng chết. Đây là hướng nghiên cứu mà tôi đang cố gắng thúc đẩy hiện nay.

Đã tạo giữa hành trình

Giáo viên sẽ cho học sinh xem các câu trả lời đúng với các đầu vào khác nhau và sau đó học sinh sẽ cố gắng bắt chước các câu trả lời của giáo viên. Nó giống như Twitter của Trump. Một số người rất tức giận với các dòng tweet của Trump vì họ cảm thấy rằng Trump đang nói dối và họ nghĩ rằng Trump đang cố gắng giải thích sự thật. KHÔNG. Những gì Trump đã làm là chọn ra một tình huống và có một phản ứng có mục tiêu, rất xúc động đối với tình huống đó. Những người theo ông đã nhìn thấy điều đó, học cách đối phó với tình huống, học cách điều chỉnh các trọng số trong mạng lưới thần kinh và phản ứng theo cảm xúc với tình huống theo cách tương tự. Nó không liên quan gì đến việc đây là một thủ lĩnh giáo phái đang dạy sự cố chấp cho những người theo giáo phái của mình, nhưng nó rất hiệu quả.

Vì vậy, nếu chúng ta nghĩ về cách hoạt động của quá trình chưng cất, hãy xem xét một tác nhân phân loại ảnh thành 1024 lớp không chồng lấp. Câu trả lời đúng chỉ mất khoảng 10 bit để đánh vần. Vì vậy, khi bạn đào tạo tác nhân đó trên một phiên bản đào tạo, nếu bạn cho nó biết câu trả lời đúng, thì bạn chỉ đang đặt các ràng buộc 10 bit lên trọng số của mạng.

**Nhưng bây giờ, giả sử chúng ta đào tạo một tác nhân tự điều chỉnh theo câu trả lời của giáo viên cho 1024 danh mục này. ** Sau đó, có thể thu được phân phối xác suất giống nhau và thu được số thực 1023. Giả sử rằng các xác suất này không nhỏ, điều này cung cấp các ràng buộc hàng trăm lần.

Thông thường, khi bạn huấn luyện một mô hình, bạn huấn luyện mô hình đó một cách chính xác trên tập dữ liệu huấn luyện và sau đó hy vọng rằng mô hình đó tổng quát hóa chính xác trên dữ liệu thử nghiệm. Nhưng ở đây, khi bạn tìm thấy học sinh, bạn trực tiếp đào tạo học sinh khái quát hóa, bởi vì học sinh được đào tạo khái quát hóa theo cách giống như giáo viên.

Tôi sẽ sử dụng dữ liệu hình ảnh từ MNIST trên chữ số 2 làm ví dụ. Chúng ta có thể thấy các xác suất được giáo viên chỉ định cho các loại khác nhau.

Dòng đầu tiên rõ ràng là 2, và giáo viên cũng đưa ra xác suất cao là 2. Hàng thứ hai, giáo viên khá tự tin đó là số 2, nhưng nó cũng nghĩ nó có thể là số 3, hoặc có thể là số 8, và bạn có thể thấy rằng, thực sự, số 3 và số 8 có một chút giống với bức tranh này . Ở hàng thứ ba, số 2 này rất gần với 0. Vì vậy, giáo viên sẽ nói với học sinh rằng bạn nên chọn đầu ra 2 vào lúc này, nhưng bạn cũng phải đặt cược nhỏ vào 0. Bằng cách này, học sinh có thể học được nhiều hơn trong trường hợp này thay vì nói trực tiếp với học sinh rằng đây là số 2 và học sinh có thể biết hình dạng của số đó trông như thế nào. Ở dòng thứ tư, giáo viên cho rằng đó là số 2, nhưng cũng rất có thể là số 1, đó là cách tôi viết số 1 trong hình, thỉnh thoảng có người viết số 1 như thế này.

Và dòng cuối cùng, trên thực tế, AI đã đoán sai, nó nghĩ rằng đó là số 5 và câu trả lời đúng mà bộ dữ liệu MNIST đưa ra là 2. Và học sinh thực sự có thể học hỏi từ những sai lầm của giáo viên.

Điều tôi thực sự thích ở mô hình chắt lọc kiến thức là chúng tôi đang huấn luyện học sinh cách khái quát hóa giống như giáo viên, bao gồm cả việc đánh dấu một xác suất nhỏ các câu trả lời sai. Thông thường, khi bạn huấn luyện một mô hình, bạn cung cấp cho nó một tập dữ liệu huấn luyện và các câu trả lời đúng, sau đó hy vọng nó sẽ tổng quát hóa chính xác tập dữ liệu thử nghiệm để tạo ra các câu trả lời đúng. Bạn đang cố gắng giữ cho nó không quá phức tạp hoặc làm nhiều việc khác nhau, hy vọng nó khái quát chính xác. Nhưng ở đây, khi bạn huấn luyện học sinh, bạn trực tiếp huấn luyện học sinh cách khái quát hóa giống như giáo viên.

Vì vậy, bây giờ tôi muốn nói về cách một cộng đồng đại lý có thể chia sẻ kiến thức. Thay vì nghĩ về một tác nhân duy nhất, tốt hơn là nghĩ về việc chia sẻ kiến thức trong một cộng đồng.

Và hóa ra cách cộng đồng chia sẻ kiến thức quyết định rất nhiều điều bạn làm về điện toán. Vì vậy, với mô hình kỹ thuật số, với trí thông minh kỹ thuật số, bạn có thể có cả đống tác nhân sử dụng cùng một bản sao chính xác của các trọng số và sử dụng các trọng số đó theo cùng một cách chính xác. Điều này có nghĩa là các tác nhân khác nhau có thể xem các bit khác nhau của dữ liệu huấn luyện.

Họ có thể tính toán độ dốc của các trọng số trên các bit này của dữ liệu huấn luyện và sau đó có thể lấy trung bình độ dốc của chúng. Vì vậy, bây giờ, mỗi mô hình học từ dữ liệu mà mỗi mô hình nhìn thấy, điều đó có nghĩa là bạn có được khả năng to lớn để xem nhiều dữ liệu, bởi vì bạn sẽ có các bản sao khác nhau của mô hình xem xét các bit dữ liệu khác nhau và chúng có thể chia sẻ Độ dốc hoặc chia sẻ trọng số để chia sẻ những gì họ học được rất hiệu quả.

Nếu bạn có một mô hình với một nghìn tỷ trọng số, điều đó có nghĩa là mỗi khi họ chia sẻ thứ gì đó, bạn sẽ nhận được một nghìn tỷ bit băng thông. Nhưng cái giá của việc làm này là bạn phải hành xử với tác nhân kỹ thuật số theo cùng một cách.

Do đó, một giải pháp thay thế cho việc chia sẻ trọng lượng là sử dụng phương pháp chưng cất. Và đó là những gì chúng tôi đã làm với các mô hình kỹ thuật số. Đây là một kiến trúc khác.

Tuy nhiên, bạn phải làm điều này nếu bạn có các mô hình sinh học đang tận dụng tính chất mô phỏng của một phần cứng cụ thể. Bạn không thể chia sẻ trọng lượng. Do đó, bạn phải sử dụng kiến thức được chia sẻ phân tán, điều này không hiệu quả lắm. **Chia sẻ kiến thức chắt lọc khó lắm. Các câu tôi tạo ra, bạn đang cố gắng tìm ra cách thay đổi trọng số của mình để bạn tạo ra các câu giống nhau. **

Tuy nhiên, đây là băng thông thấp hơn nhiều so với việc chỉ chia sẻ độ dốc. Tất cả những ai đã từng dạy học đều mong muốn được nói những gì mình biết và truyền tải nó vào bộ não của học sinh. Đó sẽ là kết thúc của đại học. Nhưng chúng ta không thể làm việc như thế này vì chúng ta thông minh về mặt sinh học và cách của tôi sẽ không hiệu quả với bạn.

Cho đến nay, chúng ta có hai cách tính toán khác nhau. ** Điện toán số và điện toán sinh học, sau này sử dụng các đặc điểm của động vật. Chúng rất khác nhau về cách chia sẻ kiến thức hiệu quả giữa các tác nhân khác nhau. **

Nếu bạn nhìn vào các mô hình ngôn ngữ lớn, chúng sử dụng tính toán số và chia sẻ trọng số. Nhưng mỗi bản sao của mô hình, mỗi tác nhân, đang thu thập kiến thức từ tệp theo cách rất kém hiệu quả. Lấy một tài liệu và cố gắng dự đoán từ tiếp theo thực sự là quá trình chắt lọc kiến thức rất kém hiệu quả, những gì nó học được không phải là dự đoán của giáo viên về phân bố xác suất của từ tiếp theo, mà là nội dung của từ tiếp theo do tác giả tài liệu chọn. Do đó, đây là băng thông rất thấp. Và đó là cách những mô hình ngôn ngữ lớn này học hỏi từ mọi người.

**Mặc dù học từng bản sao của một mô hình ngôn ngữ lớn là không hiệu quả, nhưng bạn có 1000 bản sao. Đó là lý do tại sao họ có thể học được gấp 1000 lần chúng ta. Vì vậy, tôi tin rằng những mô hình ngôn ngữ lớn này biết nhiều hơn 1000 lần so với bất kỳ cá nhân nào. **

Bây giờ, câu hỏi là, điều gì sẽ xảy ra nếu những tác nhân kỹ thuật số này, thay vì học từ chúng ta rất chậm thông qua chắt lọc kiến thức, lại bắt đầu học trực tiếp từ thế giới thực?

Tôi nên nhấn mạnh rằng ngay cả sự chắt lọc kiến thức học rất chậm, nhưng khi họ học từ chúng tôi, họ có thể học những điều rất trừu tượng. ** Con người đã học được rất nhiều về thế giới trong vài thiên niên kỷ qua và các tác nhân kỹ thuật số có thể tận dụng kiến thức này một cách trực tiếp. Con người có thể diễn đạt bằng lời những gì chúng ta đã học, vì vậy các tác nhân kỹ thuật số có quyền truy cập trực tiếp vào mọi thứ con người đã học về thế giới trong hàng thiên niên kỷ qua do chúng ta viết ra.

Nhưng theo cách này, băng thông của mỗi tác nhân kỹ thuật số vẫn rất thấp, bởi vì họ học từ tài liệu. Nếu họ học không giám sát, chẳng hạn như bằng cách lập mô hình video, thì sau khi chúng tôi tìm ra cách hiệu quả để lập mô hình video nhằm huấn luyện mô hình, họ có thể học hỏi từ tất cả các video trên YouTube, vốn chứa rất nhiều dữ liệu. Hoặc nếu họ có thể thao túng thế giới vật chất, chẳng hạn như họ có thể điều khiển cánh tay rô-bốt, v.v.

Tôi thực sự tin rằng một khi các tác nhân kỹ thuật số này bắt đầu làm điều này, họ sẽ có thể học được nhiều điều hơn con người và họ sẽ có thể học khá nhanh. Vì vậy, chúng ta cần đến điểm thứ hai mà tôi đã đề cập ở trên trong bản trình chiếu, đó là điều gì sẽ xảy ra nếu những thứ này trở nên thông minh hơn chúng ta? **

Đương nhiên, đây cũng là nội dung chính của cuộc họp này. Nhưng đóng góp chính của tôi là, **Tôi muốn nói với bạn rằng những siêu trí tuệ này có thể xuất hiện sớm hơn nhiều so với tôi từng nghĩ. **

**Những kẻ xấu sẽ sử dụng chúng để làm những việc như điều khiển thiết bị điện tử, điều đã được thực hiện ở Mỹ hoặc nhiều nơi khác và mọi người sẽ cố gắng sử dụng AI để giành chiến thắng trong các cuộc chiến. **

Nếu bạn muốn một siêu đại lý hoạt động hiệu quả, bạn cần cho phép nó tạo các mục tiêu phụ. Điều này dẫn đến một vấn đề rõ ràng**, bởi vì có một mục tiêu phụ rõ ràng có thể nâng cao đáng kể khả năng giúp chúng ta đạt được bất cứ điều gì: đó là cung cấp cho các hệ thống trí tuệ nhân tạo nhiều quyền lực và khả năng kiểm soát hơn. Bạn càng có nhiều quyền kiểm soát, bạn càng dễ dàng đạt được mục tiêu của mình. **Tôi không hiểu làm thế nào chúng ta có thể ngăn trí thông minh kỹ thuật số cố gắng giành thêm quyền kiểm soát để đạt được các mục tiêu khác của chúng. Vì vậy, một khi họ bắt đầu làm điều đó, vấn đề sẽ phát sinh.

Đối với siêu trí tuệ, ngay cả khi bạn lưu trữ nó trong một môi trường biệt lập hoàn toàn ngoại tuyến (airgap), nó sẽ thấy rằng nó có thể dễ dàng thu được nhiều quyền lực hơn bằng cách thao túng con người. **Chúng ta không quen suy nghĩ về những thứ thông minh hơn chúng ta nhiều và cách chúng ta muốn tương tác với chúng. **Nhưng đối với tôi, dường như họ rõ ràng có thể học cách lừa dối mọi người cực kỳ giỏi. Bởi vì nó có thể thấy hành vi lừa dối người khác của chúng ta trong một số lượng lớn tiểu thuyết hoặc trong các tác phẩm của Niccolo Machiavelli. Và một khi bạn thực sự thành thạo trong việc lừa dối mọi người, bạn có thể khiến họ thực hiện bất kỳ hành động nào bạn muốn. Ví dụ: nếu bạn muốn hack một tòa nhà ở Washington, bạn không cần phải đến đó, bạn chỉ cần lừa mọi người nghĩ rằng bằng cách hack tòa nhà đó, họ đang bảo vệ nền dân chủ. Và tôi nghĩ nó khá đáng sợ.

** Tôi không thể biết làm thế nào để ngăn chặn điều này xảy ra bây giờ và tôi đang già đi. **Tôi hy vọng rằng nhiều nhà nghiên cứu trẻ và xuất sắc, giống như bạn tại hội nghị, có thể tìm ra cách chúng ta có được những siêu trí tuệ này - rằng chúng sẽ làm cho cuộc sống của chúng ta tốt đẹp hơn mà không khiến chúng trở thành đảng thống trị.

Chúng tôi có một lợi thế, một lợi thế nhỏ, đó là những thứ này không phát triển, chúng tôi đã tạo ra chúng. Bởi vì chúng không tiến hóa, có thể chúng không có những mục tiêu cạnh tranh hung hăng như con người, có thể điều đó sẽ hữu ích, có thể chúng ta có thể trao cho chúng một nguyên tắc đạo đức. Nhưng hiện tại, tôi chỉ lo lắng vì tôi không biết có ví dụ nào về việc một thứ thông minh hơn bị một thứ kém thông minh hơn thống trị so với khi có khoảng cách lớn về trí thông minh. **Tôi muốn đưa ra một ví dụ là giả định rằng ếch đã tạo ra con người. Bạn nghĩ ai đang kiểm soát ngay bây giờ? Ếch hay Người? Đó là tất cả cho bài phát biểu của tôi. **

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#Show My Alpha Points
113k Phổ biến
#ETH Breaks $4,600
22k Phổ biến
#CPI Data Coming
27k Phổ biến
#TOKEN OF LOVE IS BACK
24k Phổ biến
#Circle Launches ARC
3k Phổ biến

Ghim

sơ đồ trang web