Nội dung quan trọng:
Chúng tôi đang thảo luận về ứng dụng của sức mạnh tính toán phân tán trong đào tạo và thường tập trung vào việc đào tạo các mô hình ngôn ngữ lớn. Lý do chính là việc đào tạo các mô hình nhỏ không yêu cầu nhiều sức mạnh tính toán. Để thực hiện quyền riêng tư dữ liệu phân tán và một loạt của các dự án Vấn đề không hiệu quả về chi phí, tốt hơn là giải quyết nó một cách trực tiếp và tập trung. Mô hình ngôn ngữ lớn có nhu cầu rất lớn về sức mạnh tính toán và hiện đang ở giai đoạn đầu bùng phát. Từ năm 2012 đến 2018, nhu cầu tính toán của AI sẽ tăng gấp đôi sau mỗi 4 tháng. Đánh giá rằng 5-8 năm tới sẽ vẫn là một nhu cầu gia tăng lớn.
Trong khi có những cơ hội to lớn, những vấn đề cũng cần được nhìn thấy rõ ràng. Mọi người đều biết rằng bối cảnh là rất lớn, nhưng những thách thức cụ thể ở đâu? Ai có thể nhắm mục tiêu những vấn đề này thay vì mù quáng bước vào cuộc chơi là cốt lõi để đánh giá các dự án xuất sắc của đường đua này.
(Khung NVIDIA NeMo Megatron)
Hãy đào tạo một mô hình lớn với 175 tỷ tham số làm ví dụ. Do kích thước của mô hình rất lớn nên nó cần được đào tạo song song trên nhiều thiết bị GPU. Giả sử có một phòng máy tính tập trung với 100 GPU và mỗi thiết bị có 32GB bộ nhớ.
Quá trình này liên quan đến một lượng lớn dữ liệu được truyền và đồng bộ hóa, điều này có thể trở thành nút thắt cổ chai đối với hiệu quả đào tạo. Do đó, việc tối ưu hóa độ trễ và băng thông mạng cũng như sử dụng các chiến lược đồng bộ hóa và song song hiệu quả là rất quan trọng đối với việc đào tạo mô hình quy mô lớn.
Cần lưu ý rằng nút cổ chai giao tiếp cũng là lý do tại sao mạng điện toán phân tán hiện tại không thể đào tạo mô hình ngôn ngữ lớn.
Mỗi nút cần trao đổi thông tin thường xuyên để làm việc cùng nhau, điều này tạo ra chi phí truyền thông. Đối với các mô hình ngôn ngữ lớn, vấn đề này đặc biệt nghiêm trọng do số lượng lớn các tham số của mô hình. Chi phí truyền thông được chia thành các khía cạnh sau:
Mặc dù có một số phương pháp để giảm chi phí truyền thông, chẳng hạn như nén tham số và độ dốc, chiến lược song song hiệu quả, v.v., những phương pháp này có thể tạo thêm gánh nặng tính toán hoặc ảnh hưởng tiêu cực đến hiệu quả đào tạo của mô hình. Ngoài ra, các phương pháp này không thể giải quyết hoàn toàn vấn đề chi phí liên lạc, đặc biệt trong trường hợp điều kiện mạng kém hoặc khoảng cách lớn giữa các nút tính toán.
Ví dụ:
Mô hình GPT-3 có 175 tỷ tham số và nếu chúng tôi biểu thị các tham số này bằng cách sử dụng các số dấu phẩy động có độ chính xác đơn (4 byte cho mỗi tham số), thì việc lưu trữ các tham số này cần ~700GB bộ nhớ. Trong đào tạo phân tán, các tham số này cần được truyền và cập nhật thường xuyên giữa các nút tính toán.
Giả sử có 100 nút tính toán, mỗi nút cần cập nhật tất cả các tham số trong mỗi bước, thì mỗi bước cần truyền khoảng 70TB (700GB*100) dữ liệu. Nếu chúng ta giả định rằng một bước mất 1 giây (giả định rất lạc quan), thì 70TB dữ liệu cần được truyền mỗi giây. Nhu cầu về băng thông này đã vượt xa nhu cầu của hầu hết các mạng và cũng là một vấn đề về tính khả thi.
Trong thực tế, do sự chậm trễ trong giao tiếp và tắc nghẽn mạng, thời gian truyền dữ liệu có thể lâu hơn 1 giây. Điều này có nghĩa là các nút điện toán có thể cần dành nhiều thời gian chờ truyền dữ liệu thay vì thực hiện các phép tính thực tế. Điều này sẽ làm giảm đáng kể hiệu quả của đào tạo và việc giảm hiệu quả này không thể được giải quyết bằng cách chờ đợi mà là sự khác biệt giữa khả thi và không khả thi, điều này sẽ khiến toàn bộ quá trình đào tạo trở nên không khả thi.
**Ngay cả trong môi trường phòng máy tính tập trung, việc đào tạo các mô hình lớn vẫn yêu cầu tối ưu hóa giao tiếp nặng. **
Trong môi trường phòng máy tính tập trung, các thiết bị tính toán hiệu suất cao được sử dụng như một cụm, được kết nối thông qua mạng tốc độ cao để chia sẻ các tác vụ tính toán. Tuy nhiên, ngay cả khi đào tạo một mô hình với số lượng tham số cực lớn trong môi trường mạng tốc độ cao như vậy, chi phí truyền thông vẫn là một nút cổ chai, bởi vì các tham số và độ dốc của mô hình cần được truyền và cập nhật thường xuyên giữa các thiết bị máy tính khác nhau .
Như đã đề cập ở phần đầu, giả sử có 100 nút điện toán và mỗi máy chủ có băng thông mạng là 25Gbps. Nếu mỗi máy chủ cần cập nhật tất cả các tham số trong mỗi bước đào tạo, thì mỗi bước đào tạo cần truyền khoảng 700GB dữ liệu và mất khoảng ~224 giây. Bằng cách tận dụng phòng máy tính tập trung, các nhà phát triển có thể tối ưu hóa cấu trúc liên kết mạng bên trong trung tâm dữ liệu và sử dụng các công nghệ như mô hình song song để giảm đáng kể thời gian này.
Ngược lại, nếu quá trình đào tạo tương tự được thực hiện trong môi trường phân tán, giả sử vẫn còn 100 nút điện toán được phân phối trên toàn thế giới, thì băng thông mạng trung bình của mỗi nút chỉ là 1Gbps. Trong trường hợp này, phải mất ~5600 giây để truyền cùng 700GB dữ liệu, lâu hơn nhiều so với trong phòng máy tính tập trung. Ngoài ra, do sự chậm trễ và tắc nghẽn mạng, thời gian thực tế cần thiết có thể lâu hơn.
Tuy nhiên, so với tình huống trong mạng điện toán phân tán, việc tối ưu hóa chi phí liên lạc trong môi trường phòng máy tính tập trung là tương đối dễ dàng. Bởi vì trong môi trường phòng máy tính tập trung, các thiết bị máy tính thường được kết nối với cùng một mạng tốc độ cao, băng thông và độ trễ của mạng tương đối tốt. Trong một mạng điện toán phân tán, các nút điện toán có thể được phân phối trên toàn thế giới và điều kiện mạng có thể tương đối kém, điều này làm cho vấn đề chi phí liên lạc trở nên nghiêm trọng hơn.
Trong quá trình đào tạo GPT-3, OpenAI sử dụng một mô hình framework song song có tên Megatron để giải quyết vấn đề về chi phí truyền thông. Megatron chia các tham số của mô hình và xử lý song song giữa nhiều GPU và mỗi thiết bị chỉ chịu trách nhiệm lưu trữ và cập nhật một phần tham số, do đó giảm lượng tham số mà mỗi thiết bị cần xử lý và giảm chi phí giao tiếp. Đồng thời, mạng kết nối tốc độ cao cũng được sử dụng trong quá trình đào tạo và độ dài của đường truyền thông được giảm bằng cách tối ưu hóa cấu trúc liên kết mạng.
Nó có thể được thực hiện, nhưng so với phòng máy tính tập trung, hiệu quả của những tối ưu hóa này là rất hạn chế.
Tối ưu hóa cấu trúc liên kết mạng: Trong phòng máy tính tập trung, phần cứng và bố cục mạng có thể được kiểm soát trực tiếp, vì vậy cấu trúc liên kết mạng có thể được thiết kế và tối ưu hóa theo nhu cầu. Tuy nhiên, trong một môi trường phân tán, các nút điện toán được phân bổ ở các vị trí địa lý khác nhau, thậm chí một ở Trung Quốc và một ở Hoa Kỳ và không có cách nào để kiểm soát trực tiếp kết nối mạng giữa chúng. Mặc dù phần mềm có thể được sử dụng để tối ưu hóa đường truyền dữ liệu, nhưng nó không hiệu quả bằng việc tối ưu hóa trực tiếp mạng phần cứng. Đồng thời, do sự khác biệt về vị trí địa lý, độ trễ mạng và băng thông cũng khác nhau rất nhiều, điều này càng hạn chế hiệu quả của việc tối ưu hóa cấu trúc liên kết mạng.
**Song song mô hình:**Song song mô hình là công nghệ phân chia các tham số của mô hình thành nhiều nút tính toán và cải thiện tốc độ đào tạo thông qua xử lý song song. Tuy nhiên, phương thức này thường phải truyền dữ liệu giữa các nút thường xuyên nên có yêu cầu cao về băng thông mạng và độ trễ. Trong một phòng máy tính tập trung, do băng thông mạng cao và độ trễ thấp, mô hình song song hóa có thể rất hiệu quả. Tuy nhiên, trong một môi trường phân tán, tính song song của mô hình bị hạn chế rất nhiều do điều kiện mạng kém.
Hầu như tất cả các liên kết liên quan đến xử lý và truyền dữ liệu đều có thể ảnh hưởng đến bảo mật và quyền riêng tư của dữ liệu:
Bản tóm tắt
Mỗi phương pháp trên đều có các kịch bản và giới hạn có thể áp dụng, và không có phương pháp nào có thể giải quyết hoàn toàn vấn đề bảo mật dữ liệu trong đào tạo mô hình lớn của mạng điện toán phân tán.
ZK, công ty có nhiều hy vọng, có thể giải quyết vấn đề bảo mật dữ liệu trong đào tạo mô hình lớn không?
**Về lý thuyết, ZKP có thể được sử dụng để đảm bảo tính riêng tư của dữ liệu trong điện toán phân tán, cho phép một nút chứng minh rằng nó đã thực hiện các phép tính theo quy định, nhưng không cần tiết lộ dữ liệu đầu vào và đầu ra thực tế. **
Nhưng trên thực tế, các điểm nghẽn sau đây gặp phải trong kịch bản sử dụng ZKP cho các mô hình lớn đào tạo mạng điện toán phân tán quy mô lớn:
** Chi phí tính toán và truyền thông: ** Xây dựng và xác minh bằng chứng không kiến thức đòi hỏi nhiều tài nguyên máy tính. Ngoài ra, chi phí liên lạc của ZKP cũng cao do cần phải tự truyền bằng chứng. Những chi phí này có thể trở nên đặc biệt quan trọng trong trường hợp đào tạo mô hình lớn. Ví dụ: nếu tính toán của từng lô nhỏ yêu cầu tạo bằng chứng, điều này có thể làm tăng đáng kể tổng thời gian và chi phí đào tạo.
**Sự phức tạp của giao thức ZK: **Việc thiết kế và triển khai một giao thức ZKP phù hợp với việc đào tạo mô hình lớn sẽ rất phức tạp. Giao thức này cần có khả năng xử lý dữ liệu quy mô lớn và các tính toán phức tạp, đồng thời nó cần có khả năng xử lý các lỗi bất thường có thể xảy ra.
**Khả năng tương thích của phần cứng và phần mềm: **Việc sử dụng ZKP yêu cầu hỗ trợ phần cứng và phần mềm cụ thể, có thể không có sẵn trên tất cả các thiết bị máy tính phân tán.
Để sử dụng ZKP cho các mô hình đào tạo mạng điện toán phân tán quy mô lớn, sẽ mất vài năm nghiên cứu và phát triển, đồng thời cũng cần nhiều năng lượng và tài nguyên hơn từ cộng đồng học thuật theo hướng này.
Một kịch bản tương đối lớn khác của sức mạnh tính toán phân tán là lý luận mô hình.Theo nhận định của chúng tôi về lộ trình phát triển của các mô hình lớn, nhu cầu đào tạo mô hình sẽ dần chậm lại khi các mô hình lớn trưởng thành sau khi vượt qua điểm cao.Yêu cầu lý luận sẽ tương ứng tăng theo cấp số nhân với sự trưởng thành của các mô hình lớn và AIGC.
So với các tác vụ huấn luyện, các tác vụ suy luận thường có độ phức tạp tính toán thấp hơn và tương tác dữ liệu yếu hơn, đồng thời phù hợp hơn với môi trường phân tán.
(Suy luận Power LLM với NVIDIA Triton)
Chậm giao tiếp:
Trong một môi trường phân tán, giao tiếp giữa các nút là điều cần thiết. Trong một mạng điện toán phân tán phi tập trung, các nút có thể trải rộng khắp thế giới, do đó, độ trễ của mạng có thể là một vấn đề, đặc biệt đối với các tác vụ lý luận yêu cầu phản hồi theo thời gian thực.
Triển khai và cập nhật mô hình:
Mô hình cần được triển khai cho từng nút. Nếu mô hình được cập nhật, mỗi nút cần cập nhật mô hình của nó, điều này tiêu tốn rất nhiều băng thông mạng và thời gian.
Bảo mật dữ liệu:
Mặc dù các tác vụ suy luận thường chỉ yêu cầu dữ liệu đầu vào và mô hình và không cần trả lại một lượng lớn dữ liệu và tham số trung gian, nhưng dữ liệu đầu vào vẫn có thể chứa thông tin nhạy cảm, chẳng hạn như thông tin cá nhân của người dùng.
Mẫu bảo mật:
Trong một mạng phi tập trung, mô hình cần được triển khai trên các nút không đáng tin cậy, điều này sẽ dẫn đến rò rỉ mô hình và dẫn đến vấn đề lạm dụng và quyền sở hữu mô hình. Điều này cũng có thể gây lo ngại về bảo mật và quyền riêng tư, nếu một mô hình được sử dụng để xử lý dữ liệu nhạy cảm, các nút có thể suy ra thông tin nhạy cảm bằng cách phân tích hành vi của mô hình.
QC:
Mỗi nút trong mạng điện toán phân tán phi tập trung có thể có các khả năng và tài nguyên điện toán khác nhau, điều này có thể gây khó khăn cho việc đảm bảo hiệu suất và chất lượng của các tác vụ suy luận.
Độ phức tạp tính toán:
Trong giai đoạn huấn luyện, mô hình cần lặp đi lặp lại nhiều lần, trong quá trình huấn luyện cần tính toán lan truyền xuôi và lan truyền ngược của từng lớp, bao gồm tính hàm kích hoạt, tính hàm mất mát, tính hàm độ dốc và cập nhật trọng số. Do đó, độ phức tạp tính toán của đào tạo mô hình là cao.
Trong giai đoạn suy luận, chỉ cần một lần chuyển tiếp để tính toán dự đoán. Ví dụ: trong GPT-3, cần phải chuyển đổi văn bản đầu vào thành một vectơ, sau đó thực hiện truyền xuôi qua từng lớp của mô hình (thường là lớp Biến áp), cuối cùng thu được phân phối xác suất đầu ra và tạo tiếp theo từ theo phân phối này. Trong GAN, mô hình cần tạo hình ảnh dựa trên vectơ nhiễu đầu vào. Các hoạt động này chỉ liên quan đến việc truyền về phía trước của mô hình, không cần tính toán độ dốc hoặc cập nhật tham số và có độ phức tạp tính toán thấp.
Tương tác dữ liệu:
Trong giai đoạn suy luận, mô hình thường xử lý một đầu vào duy nhất thay vì lô dữ liệu lớn trong quá trình đào tạo. Kết quả của mỗi suy luận cũng chỉ phụ thuộc vào đầu vào hiện tại, không phụ thuộc vào đầu vào hoặc đầu ra khác, do đó không cần lượng tương tác dữ liệu lớn và áp lực truyền thông cũng ít hơn.
Lấy mô hình hình ảnh tổng quát làm ví dụ, giả sử chúng ta sử dụng GAN để tạo hình ảnh, chúng ta chỉ cần nhập một vectơ nhiễu vào mô hình, sau đó mô hình sẽ tạo ra một hình ảnh tương ứng. Trong quá trình này, mỗi đầu vào sẽ chỉ tạo ra một đầu ra và không có sự phụ thuộc giữa các đầu ra nên không cần tương tác dữ liệu.
Lấy GPT-3 làm ví dụ, mỗi thế hệ của từ tiếp theo chỉ yêu cầu đầu vào văn bản hiện tại và trạng thái của mô hình, không cần tương tác với các đầu vào hoặc đầu ra khác, do đó yêu cầu về tương tác dữ liệu cũng yếu.
**Cho dù đó là mô hình ngôn ngữ lớn hay mô hình hình ảnh tổng quát, độ phức tạp tính toán và tương tác dữ liệu của các tác vụ lý luận tương đối thấp và phù hợp hơn với các mạng điện toán phân tán phi tập trung. Đây là những gì chúng ta thấy hiện nay. Hầu hết các dự án đều làm việc theo một hướng. **
Ngưỡng kỹ thuật và phạm vi kỹ thuật của mạng điện toán phân tán phi tập trung là rất cao và nó cũng yêu cầu sự hỗ trợ của tài nguyên phần cứng, vì vậy chúng tôi chưa thấy quá nhiều lần thử. Lấy Together và Gensyn.ai làm ví dụ:
Together là một công ty tập trung vào nguồn mở của các mô hình lớn và cam kết cung cấp các giải pháp sức mạnh điện toán AI phi tập trung. Công ty hy vọng rằng bất kỳ ai, ở bất kỳ đâu đều có thể truy cập và sử dụng AI. Together vừa hoàn thành vòng gọi vốn 20 triệu USD do Lux Capital dẫn đầu.
Together do Chris, Percy và Ce đồng sáng lập. Mục đích ban đầu là đào tạo mô hình quy mô lớn cần một số lượng lớn cụm GPU cao cấp và chi phí đắt đỏ, đồng thời các tài nguyên và khả năng đào tạo mô hình này cũng tập trung vào một số ít. các công ty lớn.
Theo quan điểm của tôi, một kế hoạch kinh doanh hợp lý hơn cho sức mạnh tính toán phân tán là:
Bước 1. Mô hình mã nguồn mở
Để triển khai lý luận mô hình trong mạng điện toán phân tán phi tập trung, điều kiện tiên quyết là các nút phải có khả năng lấy mô hình với chi phí thấp, nghĩa là mô hình sử dụng mạng điện toán phi tập trung cần phải là nguồn mở (nếu mô hình cần phải được cấp phép tương ứng. Nếu sử dụng bên dưới, nó sẽ làm tăng độ phức tạp và chi phí thực hiện). Ví dụ: chatgpt, với tư cách là một mô hình không phải nguồn mở, không phù hợp để thực thi trên mạng điện toán phi tập trung.
Do đó, có thể suy đoán rằng rào cản vô hình của một công ty cung cấp mạng điện toán phi tập trung cần phải có khả năng bảo trì và phát triển mô hình quy mô lớn mạnh mẽ. Mô hình cơ sở mạnh mẽ tự phát triển và mã nguồn mở có thể thoát khỏi sự phụ thuộc vào mô hình nguồn mở của bên thứ ba ở một mức độ nhất định và giải quyết các vấn đề cơ bản nhất của mạng điện toán phi tập trung. Đồng thời, việc chứng minh rằng mạng điện toán có thể thực hiện hiệu quả việc đào tạo và lý luận của các mô hình lớn sẽ thuận lợi hơn.
Và Together cũng làm như vậy. RedPajama dựa trên LLaMA được phát hành gần đây đã được các nhóm bao gồm Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM và Hazy Research cùng ra mắt. Mục tiêu là phát triển một loạt các mô hình ngôn ngữ lớn mã nguồn mở hoàn toàn.
Bước 2. Sức mạnh tính toán phân tán dựa trên lý luận mô hình
Như đã đề cập ở hai phần trên, so với đào tạo mô hình, suy luận mô hình có độ phức tạp tính toán và tương tác dữ liệu thấp hơn, đồng thời phù hợp hơn với môi trường phân tán phi tập trung.
Trên cơ sở mô hình mã nguồn mở, nhóm R&D của Together đã thực hiện một loạt cập nhật cho mô hình RedPajama-INCITE-3B, chẳng hạn như sử dụng LoRA để đạt được tinh chỉnh chi phí thấp, giúp mô hình chạy trên CPU (đặc biệt là MacBook). Pro với bộ xử lý M2 Pro) Chạy trên mô hình mượt mà hơn. Đồng thời, mặc dù quy mô của mô hình này nhỏ nhưng khả năng của nó vượt xa các mô hình khác có cùng quy mô và nó đã được áp dụng thực tế trong các tình huống pháp lý, xã hội và các tình huống khác.
Bước 3. Sức mạnh tính toán phân tán được đưa vào đào tạo mô hình
Trong trung và dài hạn, mặc dù phải đối mặt với những thách thức lớn và tắc nghẽn kỹ thuật, nhưng nó phải là điều hấp dẫn nhất để đáp ứng nhu cầu về sức mạnh tính toán cho đào tạo mô hình lớn AI. Cùng nhau bắt đầu tìm cách vượt qua nút cổ chai giao tiếp trong đào tạo phi tập trung khi bắt đầu thành lập. Họ cũng đã xuất bản một bài báo liên quan về NeurIPS 2022: Vượt qua các nút cổ chai giao tiếp để đào tạo phi tập trung. Chúng tôi chủ yếu có thể tóm tắt các hướng sau:
Khi đào tạo trong môi trường phi tập trung, điều quan trọng là phải giao các nhiệm vụ nặng về giao tiếp cho các thiết bị có kết nối nhanh hơn vì kết nối giữa các nút có độ trễ và băng thông khác nhau. Cùng nhau xây dựng một mô hình để mô tả chi phí của một chiến lược lập lịch cụ thể và tối ưu hóa tốt hơn chiến lược lập lịch để giảm thiểu chi phí liên lạc và tối đa hóa thông lượng đào tạo. Nhóm Together cũng nhận thấy rằng mặc dù mạng chậm hơn 100 lần nhưng tốc độ đào tạo từ đầu đến cuối chỉ chậm hơn từ 1,7 đến 2,3 lần. Do đó, rất thú vị để bắt kịp khoảng cách giữa các mạng phân tán và các cụm tập trung thông qua tối ưu hóa lập lịch trình. **
Cùng nhau đề xuất nén giao tiếp để kích hoạt chuyển tiếp và đảo ngược độ dốc, đồng thời giới thiệu thuật toán AQ-SGD, cung cấp các đảm bảo nghiêm ngặt cho sự hội tụ giảm dần độ dốc ngẫu nhiên. AQ-SGD có thể tinh chỉnh các mô hình cơ sở lớn trên các mạng chậm (ví dụ: 500 Mbps), chỉ chậm hơn 31% so với hiệu suất đào tạo đầu cuối trên các mạng máy tính tập trung (ví dụ: 10 Gbps) mà không cần nén. Ngoài ra, AQ-SGD có thể được kết hợp với các kỹ thuật nén độ dốc hiện đại như QuantizedAdam để đạt được tốc độ đầu cuối 10%.
Cấu hình nhóm cùng nhau rất toàn diện, các thành viên có nền tảng học thuật rất vững chắc, từ phát triển mô hình quy mô lớn, điện toán đám mây đến tối ưu hóa phần cứng đều được hỗ trợ bởi các chuyên gia trong ngành. Và Together đã thể hiện tư thế kiên nhẫn và lâu dài trong việc lập kế hoạch lộ trình, từ phát triển các mô hình lớn nguồn mở đến thử nghiệm sức mạnh tính toán nhàn rỗi (chẳng hạn như mac) trong mạng điện toán phân tán và lập luận với các mô hình, sau đó đến sức mạnh tính toán phân tán trên diện rộng Bố cục trên mô hình đào tạo. - Có kiểu tích tụ và cảm giác tóc mỏng :)
Nhưng cho đến nay, tôi vẫn chưa thấy quá nhiều kết quả nghiên cứu về Cùng nhau trong lớp khuyến khích, tôi nghĩ điều này cũng quan trọng như nghiên cứu và phát triển công nghệ, và là yếu tố then chốt để đảm bảo sự phát triển của mạng điện toán phi tập trung.
Từ lộ trình kỹ thuật của Together, chúng ta có thể hiểu sơ bộ quá trình triển khai mạng điện toán phi tập trung trong đào tạo và lý luận mô hình, cũng như các ưu tiên nghiên cứu và phát triển tương ứng.
Một điểm quan trọng nữa không thể không nhắc đến đó là thiết kế tầng khuyến khích/thuật toán đồng thuận của mạng điện toán, chẳng hạn một mạng xuất sắc cần có:
……
Xem cách Gensyn.ai thực hiện:
Trước hết, những người giải quyết trong mạng điện toán cạnh tranh để giành quyền xử lý các nhiệm vụ do người dùng gửi thông qua đấu thầu và tùy theo quy mô của nhiệm vụ và nguy cơ bị phát hiện gian lận, người giải quyết cần phải thế chấp một số tiền nhất định.
Bộ giải tạo nhiều điểm kiểm tra trong khi cập nhật tham số (để đảm bảo tính minh bạch và khả năng truy xuất nguồn gốc của công việc) đồng thời tạo định kỳ bằng chứng suy luận mã hóa (bằng chứng về tiến độ công việc) về các tác vụ;
Khi Bộ giải hoàn thành công việc và tạo ra một phần kết quả tính toán, giao thức sẽ chọn một người xác minh và người xác minh cũng sẽ cam kết một số tiền nhất định (để đảm bảo rằng người xác minh thực hiện xác minh một cách trung thực) và quyết định phần nào của phép tính kết quả cần phải được xác minh theo các bằng chứng được cung cấp ở trên.
Thông qua cấu trúc dữ liệu dựa trên cây Merkle, vị trí chính xác nơi các kết quả tính toán khác nhau được đặt. Toàn bộ hoạt động xác minh sẽ diễn ra trên chuỗi và những kẻ gian lận sẽ bị khấu trừ vào số tiền đã cam kết.
Tóm tắt dự án
Thiết kế của thuật toán khuyến khích và xác minh giúp Gensyn.ai không cần phát lại tất cả kết quả của toàn bộ tác vụ tính toán trong quá trình xác minh mà chỉ cần sao chép và xác minh một phần kết quả theo bằng chứng được cung cấp, giúp cải thiện đáng kể hiệu quả của việc xác minh. Đồng thời, các nút chỉ cần lưu trữ một phần kết quả tính toán, điều này cũng làm giảm mức tiêu thụ không gian lưu trữ và tài nguyên máy tính. Ngoài ra, các nút gian lận tiềm năng không thể dự đoán phần nào sẽ được chọn để xác minh, vì vậy điều này cũng làm giảm nguy cơ gian lận;
Phương pháp xác minh sự khác biệt và phát hiện những kẻ gian lận này cũng có thể nhanh chóng tìm ra lỗi trong quá trình tính toán mà không cần so sánh toàn bộ kết quả tính toán (bắt đầu từ nút gốc của cây Merkle và đi xuống từng bước). Rất hiệu quả cho các tác vụ tính toán quy mô lớn.
Tóm lại, mục tiêu thiết kế của lớp khuyến khích/xác minh của Gensyn.ai là: ngắn gọn và hiệu quả. Tuy nhiên, hiện tại nó chỉ giới hạn ở cấp độ lý thuyết và việc triển khai cụ thể có thể gặp phải những thách thức sau:
Trên mô hình kinh tế, cách thiết lập các tham số phù hợp để có thể ngăn chặn gian lận một cách hiệu quả mà không tạo ra ngưỡng quá cao cho người tham gia.
Về triển khai kỹ thuật, cách xây dựng bằng chứng lập luận mã hóa định kỳ hiệu quả cũng là một vấn đề phức tạp đòi hỏi kiến thức về mật mã nâng cao.
Về mặt phân bổ nhiệm vụ, chỉ riêng cách chọn và phân bổ nhiệm vụ cho các bộ giải khác nhau trong mạng điện toán cũng cần có sự hỗ trợ của thuật toán lập lịch trình hợp lý. chỉ theo cơ chế giá thầu, ví dụ: các nút có sức mạnh tính toán mạnh có thể xử lý các tác vụ quy mô lớn hơn, nhưng không được tham gia đấu thầu (điều này liên quan đến việc khuyến khích tính khả dụng của nút), các nút có sức mạnh tính toán thấp có thể đặt giá thầu cao nhất, nhưng không phù hợp để xử lý một số tác vụ quy mô lớn phức tạp.
Câu hỏi ai cần một mạng điện toán phi tập trung vẫn chưa được xác minh. Việc áp dụng sức mạnh tính toán nhàn rỗi để đào tạo mô hình quy mô lớn đòi hỏi tài nguyên sức mạnh tính toán khổng lồ rõ ràng là không gian có ý nghĩa nhất và giàu trí tưởng tượng nhất. Nhưng trên thực tế, những nút thắt như giao tiếp và quyền riêng tư khiến chúng ta phải suy nghĩ lại:
Có thực sự hy vọng cho việc đào tạo phi tập trung của các mô hình lớn không?
Nếu nhảy ra khỏi sự đồng thuận “kịch bản hạ cánh hợp lý nhất” này, liệu việc áp dụng sức mạnh tính toán phi tập trung vào việc đào tạo các mô hình AI nhỏ cũng là một kịch bản lớn. Từ quan điểm kỹ thuật, các yếu tố hạn chế hiện tại đã được giải quyết do quy mô và cấu trúc của mô hình, đồng thời, từ quan điểm thị trường, chúng tôi luôn cảm thấy rằng việc đào tạo các mô hình lớn sẽ rất lớn từ nay đến tương lai, nhưng thị trường mô hình AI cỡ nhỏ không còn hấp dẫn?
Tôi không nghĩ vậy. **So với các mô hình lớn, các mô hình AI nhỏ dễ triển khai và quản lý hơn, đồng thời hiệu quả hơn về tốc độ xử lý và mức sử dụng bộ nhớ. Trong một số lượng lớn các tình huống ứng dụng, người dùng hoặc công ty không cần nhiều khả năng suy luận chung hơn của các mô hình ngôn ngữ lớn, nhưng nó chỉ liên quan đến một mục tiêu dự đoán rất chi tiết. Do đó, trong hầu hết các tình huống, các mô hình AI nhỏ vẫn là lựa chọn khả thi hơn và không nên bỏ qua sớm trong làn sóng các mô hình lớn fomo. **