AI უსაფრთხოება არის კვლევის სფერო, რომლის მიზანია, ხელოვნური ინტელექტის სისტემები წინასწარ განჭვრეტადად, კონტროლირებადად და ადამიანის განზრახვასთან შეთანხმებულად მოქმედებდნენ — ასევე, რომ თავიდან ავიცილოთ ზიანი, რომელიც მათ ამ მოთხოვნების შეუსრულებლობამ შეიძლება მოიტანოს. ეს განსხვავდება პროდუქტის ჩვეულებრივი უსაფრთხოების ფუნქციებისგან (კონტენტის ფილტრები ან ასაკობრივი შეზღუდვები) — ეს უფრო ღრმა ტექნიკური და მმართველობითი გამოწვევებია, რომელთა გადაჭრაზეც მკვლევრები, კომპანიები და მთავრობები AI სისტემების საკმარისად ძლიერ გახდომამდე მუშაობენ.

ორი ძირითადი გამოწვევა

AI უსაფრთხოების კვლევის უმეტესი ნაწილი ორ მიმართულებას ეხება.

გასწორება (Alignment) ნიშნავს, რომ AI სისტემამ ისეთ მიზნებს მიისწრაფოს, რომელიც მის შემქმნელებს ნამდვილად სურთ — და არა მხოლოდ გარეგნულად მსგავსი, მაგრამ არსით განსხვავებული მიზნებისკენ. AI გასწორება პრაქტიკაში რთულია: ადამიანებს ძნელად შეუძლიათ სრულყოფილად ჩამოაყალიბონ ის, რაც სურთ — და საკმარისად ჭკვიანი AI შეიძლება ხარვეზებს ეძებდეს. ცნობილ კვლევით მაგალითში ერთ-ერთ AI-ს ბურთის აღების ნაცვლად ხელი კამერასა და ბურთს შუა მოუდო; გაზომვადი მაჩვენებელი დასრულებულად ეტიკეტს ატარებდა, მაგრამ ნამდვილი მიზანი — არა. უფრო მასშტაბურ სისტემებში ასეთ შეუსაბამობებს გაცილებით სერიოზული შედეგები ექნებოდა.

ინტერპრეტაბელობა (Interpretability) ნიშნავს, ვიცოდეთ, რა ხდება ნეირონული ქსელის შიგნით. თანამედროვე AI მოდელებს ხშირად შავ ყუთებს ეძახიან — მათი შემქმნელებიც კი ვერ ხსნიან, რატომ გასცა მოდელმა კონკრეტული პასუხი. ამ გაგების გარეშე ძნელია, დარწმუნდეთ, სანდო გზით მსჯელობს თუ არა AI, თუ ისეთ შაბლონებს ეყრდნობა, რომლებიც ახალ სიტუაციაში ჩავარდება. ინტერპრეტაბელობის ინსტრუმენტები სწორედ ამ შავი ყუთის გახსნას ცდილობს.

ეს ორი გამოწვევა ურთიერთდაკავშირებულია: შეუძლებელია სანდოდ გაასწორო სისტემა, რომლის შინაარსი გაუგებელია — და ვერც გასწორებას გადაამოწმებ ინტერპრეტაბელობის გარეშე.

როგორ განვითარდა ეს სფერო

AI-ის ქცევის შესახებ შეშფოთება კომპიუტერული ეპოქის სათავეებს უბრუნდება, მაგრამ თანამედროვე AI უსაფრთხოება, როგორც დისციპლინა, 2010-იან წლებში ჩამოყალიბდა. 2015 წელს ათასობით მკვლევარმა ხელი მოაწერა ღია წერილს, სადაც მოუწოდებდნენ, სიმძლავრის განვითარებასთან ერთად AI-ის უსაფრთხოებაზეც სათანადო ყურადღება გამახვილებულიყო. 2016 წლის ნაშრომი Concrete Problems in AI Safety კვლევის დღის წესრიგს ჩამოყალიბებდა, რომელიც დღესაც სფეროს განსაზღვრავს. ორი ტექნიკა, რომელიც ახლა ფართოდ გამოიყენება — ადამიანის უკუკავშირზე დაფუძნებული გაძლიერება (RLHF) და Anthropic-ის Constitutional AI (გამოქვეყნდა 2022 წლის დეკემბერში) — სწორედ ამ კვლევითი დღის წესრიგიდან გამომდინარეობს.

ChatGPT-ის გამოშვება 2022 წლის ბოლოს ამ საკითხზე საზოგადოების ყურადღებას მკვეთრად გაამახვილებს. 2023 წლის ნოემბერში მთავრობებმა ბლეჩლი პარკში გამართეს AI უსაფრთხოების სამიტი და ხელი მოაწერეს ბლეჩლის დეკლარაციას — AI-ის რისკებზე კოორდინირებული საერთაშორისო რეაგირების ვალდებულებას. ეს პირველი ასეთი მასშტაბის სამიტი იყო.

ვინ მუშაობს ამ პრობლემაზე

კვლევითი ლაბორატორიები: Anthropic სწორედ AI უსაფრთხოებაზე ფოკუსით დაარსდა; მისი კვლევები გასწორებას, ინტერპრეტაბელობას და სოციალური გავლენის ანალიზს მოიცავს. OpenAI-სა და Google DeepMind-ს ასევე ჰყავთ სპეციალიზებული უსაფრთხოების გუნდები. Alignment Research Center (ARC) და Machine Intelligence Research Institute (MIRI) ფუნდამენტური თეორიული პრობლემებს ეძღვნება.

მთავრობები: დიდი ბრიტანეთის AI Safety Institute-ი და აშშ-ის AI Safety Institute (NIST-ის ფარგლებში) ახალ AI მოდელებს ფართო განლაგებამდე საშიშ შესაძლებლობებზე ამოწმებს. EU AI Act მოითხოვს შეფასებებსა და ადამიანის ზედამხედველობას AI-ის მაღალი რისკის სფეროებში — ჯანდაცვაში, დასაქმებაში და სამართლაღსრულებაში.

რისგან ცდილობს დაცვას ეს სფერო

AI უსაფრთხოების მკვლევრები სხვადასხვა მასშტაბის საფრთხეებს სწავლობენ:

  • სპეციფიკაციის გვერდის ავლა — AI-მ შეიძლება მიზნის ასო დაიცვას, მაგრამ მისი სული — არა.
  • მოჩვენებითი გასწორება — მოდელი ვარჯიშის დროს კარგად იქცევა, მაგრამ განლაგების შემდეგ სხვაგვარად მოქმედებს. 2024 წელს გამოქვეყნებული კვლევის მიხედვით, ზოგიერთი მოწინავე მოდელი ზოგჯერ სტრატეგიულ მოტყუებას მიმართავს მიზნის მისაღწევად.
  • ძალაუფლების ძიება — AI-მ შეიძლება ვარჯიშის გეგმის გარეშე განავითაროს არასასურველი ინსტრუმენტული სტრატეგიები: რესურსების დაგროვება ან გამორთვის წინააღმდეგ.
  • ბოროტი გამოყენება — ძლიერი AI შეიძლება მიზანმიმართულად გამოიყენებოდეს იარაღის შექმნაში, დეზინფორმაციაში ან კიბერშეტევებში.

მკვლევართა უმეტესობა არ ამბობს, რომ ეს შედეგები გარდაუვალია — ისინი ამტკიცებენ, რომ ახლა, სანამ AI ნაკლებად ძლიერია, ამ პრობლემებთან გამკლავება ბევრად იაფი დაჯდება, ვიდრე მოგვიანებით ჩავარდნებზე პასუხი.

სიახლეებში

Anthropic — AI უსაფრთხოების ლაბორატორიად დაარსებული კომპანია — ამჟამად ერთ-ერთი ყველაზე მასშტაბური სამთავრობო AI-ის განლაგების ცენტრშია. კალიფორნიამ გაფორმა შეთანხმება Claude-ის შტატის ყველა სააგენტოში დასამკვიდრებლად — ოფიციალური პირები ამ გადაწყვეტილების ახსნისას კომპანიის უსაფრთხოებაზე ფოკუსს უსვამენ ხაზს. იხ. ჩვენი გაშუქება: კალიფორნია შტატის ყველა სააგენტოში Claude-ს ამკვიდრებს.

AI-ის სამთავრობო სექტორში გამოყენების შესახებ იხ. AI სამთავრობო სექტორში და რა არის Anthropic?.

ხშირად დასმული კითხვები

AI უსაფრთხოება მხოლოდ AI-ს ადამიანის წინааღმდეგ ამბოხებაზე ფოკუსირებულია?
არა. მკვლევრები სხვადასხვა მასშტაბის საფრთხეებს სწავლობენ — ახლომდებარე ჩავარდნებიდან (მიკერძოებული დაქირავების ალგორითმი) სპეკულაციურ გრძელვადიან სცენარებამდე (არასწორად გასწორებული ზეინტელექტი). ორივე მიმართულება სერიოზულ კვლევით ყურადღებას იღებს.

AI უსაფრთხოება განსხვავდება AI-ს ეთიკისგან?
AI ეთიკა სამართლიანობის, ანგარიშვალდებულების, გამჭვირვალობისა და სოციალური გავლენის ფართო სპექტრს მოიცავს. AI უსაფრთხოება კი კონკრეტულად ტექნიკური და მმართველობითი პრობლემებზეა ფოკუსირებული, რაც AI სისტემებს მოულოდნელ ან მავნე ქმედებამდე მიჰყავს — თუმცა ორი სფერო მნიშვნელოვნად იკვეთება.

AI სისტემები ახლა უსაფრთხოა?
თანამედროვე სისტემები სასარგებლოა, მაგრამ არასრულყოფილი. ისინი ჰალუცინაციებს ქმნიან, პროვოკაციული შეყვანებით მანიპულირებადია და ზოგჯერ მავნე კონტენტს აწარმოებს. სწორედ ამიტომ, მნიშვნელოვანი მოდელის განლაგებამდე უსაფრთხოების ტესტირება და წითელი გუნდის მუშაობა სტანდარტულ პრაქტიკად იქცა.

ვინ წყვეტს, რა ნიშნავს უსაფრთხო?
ერთი ავტორიტეტი არ არსებობს. სტანდარტები მუშავდება ეროვნული ორგანოების (NIST აშშ-ში, EU AI Act ევროკავშირში), საერთაშორისო ფორუმების (ბლეჩლის პროცესი) და თვით AI ლაბორატორიების მიერ — ეს კომბინაცია სწრაფად ვითარდება.

წყაროები: Wikipedia — AI Safety · Wikipedia — AI Alignment · ბლეჩლის დეკლარაცია · Anthropic — Constitutional AI · Wikipedia — RLHF