Alibaba-მ Qwen-AgentWorld გამოაქვეყნა — AI აგენტების გარემოს სიმულაციის ახალი მოდელი

Alibaba-ს Qwen-ის გუნდმა 25 ივნისს გამოაქვეყნა Qwen-AgentWorld — ენობრივი მოდელი, რომელიც AI აგენტებს ქმედებების სწავლის ნაცვლად სწავლობს, რას დააბრუნებს გარემო ნებისმიერი ქმედების შემდეგ. მკვლევარების თქმით, ამ მიდგომამ AI აგენტების ვარჯიში უფრო იაფი და კონტროლირებადი გახადა.

რა გამოაქვეყნეს

Qwen-AgentWorld ერთი ერთიანი არქიტექტურით მოიცავს შვიდ სფეროს: MCP, Search (ძებნა), Terminal (ტერმინალი), Software Engineering (პროგრამული ინჟინერია), Android, Web და OS. ქმედებების ოპტიმიზაციის ნაცვლად, მოდელი სწავლობს გარემოს სიმულაციას — ნებისმიერი ქმედების შემდეგ სისტემის შემდეგი სტატუსის პროგნოზირებას. ეს ნიშნავს, რომ AI აგენტებს შეიძლება ვარჯიში ჩაუტარდეთ სინთეტიკურ გარემოში, რეალური სისტემებზე წვდომის გარეშე.

გამოქვეყნდა ორი მასშტაბის მოდელი: 35 მილიარდ-პარამეტრიანი sparse მოდელი (35B-A3B) და 397 მილიარდ-პარამეტრიანი ვარიანტი (397B-A17B). 35B მოდელის წონები ხელმისაწვდომია Hugging Face-სა და ModelScope-ზე Apache 2.0 ლიცენზიით. 397B ვარიანტი საჯაროდ გამოქვეყნებული არ არის.

როგორ ისწავლა

გუნდმა გამოიყენა სამეტაპიანი ვარჯიშის პროცესი. პირველ ეტაპზე მუდმივი წინასწარი ვარჯიში ქტის 10 მილიონზე მეტ რეალური აგენტ-გარემოს ურთიერთქმედების ჩანაწერს ამუშავებს. მეორე ეტაპზე სუპერვიზული ვარჯიში thinking block-ების გამოყენებით ნაბიჯ-ნაბიჯ მსჯელობას ააქტიურებს. მესამე ეტაპზე განმამტკიცებელი სწავლება ოპტიმიზებს პროგნოზის ხარისხს.

ბენჩმარკის შედეგები

AgentWorldBench-ზე — გარემოს სიმულაციის ხარისხის ახალ ტესტზე, რომელიც მოდელთან ერთად გამოვიდა — 397B ვარიანტმა 58.71 ქულა დააგროვა, Alibaba-ს მიხედვით. ეს GPT-5.4-ის (58.25), Claude Opus 4.8-ისა და Gemini 3.1 Pro-ს შედეგებს სჯობს. 35B მოდელმა 56.39 ქულა მიიღო, Claude Sonnet 4.6-ს (56.04) გაასწრო.

რატომ არის მნიშვნელოვანი

AI აგენტების ვარჯიში დღეს ძირითადად მოითხოვს მათ გამოყენებას ცოცხალ გარემოში ან ძვირადღირებულ სიმულატორებში, რაც მასშტაბს ზღუდავს და განვითარების დროს რეალურ სისტემებთან კავშირის რისკს ქმნის. მსოფლიო მოდელი, რომელსაც შეუძლია გარემოს პასუხების საიმედო სიმულაცია, AI აგენტებს საშუალებას მისცემდა, ვარჯიში გაიარონ სინთეტიკურ სცენარებში და გამოყენებამდე კონტროლირებად პირობებში შემოწმდნენ. ერთ მოდელში შვიდი სფეროს გაერთიანება ასევე ამცირებს ცალკე სიმულაციური ინფრასტრუქტურის მხარდაჭერის ხარჯებს.