OpenAI-მ 30 ივნისს GeneBench-Pro გამოაქვეყნა — კვლევითი დონის ბენჩმარქი, რომელიც ამოწმებს, შეუძლია თუ არა ხელოვნური ინტელექტის სისტემებს გამოთვლით ბიოლოგიაში ისეთი განსჯის უნარი, რომელსაც რეალური სამეცნიერო სამუშაო მოითხოვს — ანუ ფაქტების გახსენება კი არ, არამედ ბუნდოვანი, „ხმაურიანი" მონაცემებიდან სწორი დასკვნების გამოტანა.

რას ამოწმებს ბენჩმარქი

GeneBench-Pro 129 სინთეტურ ამოცანას მოიცავს გენომიკის, რაოდენობრივი ბიოლოგიისა და ტრანსლაციური მედიცინის სფეროებში. თითოეული ამოცანა AI-ს გაურკვეველ მონაცემებთან აყენებს პირისპირ: სისტემამ უნდა გადაწყვიტოს, რომელ ანალიზს ამართლებს ეს მონაცემები, საჭიროების შემთხვევაში გეგმა გადახედოს და შეაფასოს, სანდოა თუ არა შედეგი შემდგომი გადაწყვეტილებისთვის. OpenAI ამ უნარს „კვლევით გემოვნებას" (research taste) უწოდებს.

ამოცანები სინთეტურად, ცნობილი მიზეზობრივი სტრუქტურებით არის გენერირებული — რაც განსაზღვრულ შეფასებას შესაძლებელს ხდის სიძნელის შენარჩუნებით. 82 ამოცანა გარე ექსპერტებმა რეალიზმსა და გადაჭრადობაზე შეამოწმეს. ადამიანი სპეციალისტების შეფასებით, ერთი ამოცანა 20–40 საათს მოითხოვს — ათასობით დოლარის ღირებულების სამუშაო — ხოლო AI-ს ანალოგიური ამოცანის ღირებულება რამდენიმე დოლარს შეადგენს.

შედეგები

OpenAI-ის ყველაზე განვითარებულმა მოდელმა, GPT-5.6 Sol-მა, 28.7%-იანი გამსვლელობა მიიღო მაქსიმალური მსჯელობის რეჟიმში, ხოლო Pro რეჟიმში — 31.5%. ეს მნიშვნელოვანი გაუმჯობესებაა: საწყის GeneBench-ზე GPT-5 5%-ს ვერ გადასცდა. OpenAI-მ ღიად აღიარა, რომ თუნდაც ყველაზე ძლიერი მოდელი ჯერ კიდევ შორს არის ექსპერტული სანდოობისგან კვლევით ამოცანებში — თუმცა ხაზი გაუსვა, რომ გრძელი ანალიტიკური პროცესების ნაწილობრივ ავტომატიზაციამაც შეიძლება მნიშვნელოვანი პრაქტიკული ღირებულება შექმნას.

დამოუკიდებელი შეფასების მხარდასაჭერად, OpenAI-მ Hugging Face-ზე 10 საჯარო ამოცანა განათავსა და Artificial Analysis-ს 50-კითხვიანი ქვეჯგუფი გადასცა მესამე მხარის ტესტირებისთვის.