Дослідники створили систему, яка знаходить помилки у відповідях ШІ — Finance.ua
Дослідники з Google DeepMind і Стенфордського університету представили нову систему автоматизованого оцінювання SAFE, яка аналізує відповіді, надані штучним інтелектом, і шукає помилкові.
У рамках дослідження фахівці використовували до тринадцяти мовних моделей, що охоплюють чотири сімейства моделей, включно з Gemini, GPT, Claude і PaLM-2. Процес перевірки передбачав складну багатоетапну систему міркування, у якій оцінювали кожен факт, наданий ШІ, у контексті результатів пошуку.
За допомогою цих великих мовних моделей (LLM) дослідники сформували набір даних з близько 16 тисяч окремих фактів. Потім кожен факт незалежно перевірявся на точність за допомогою Пошуку Google. Також перевірялася релевантність окремих фактів наданому запиту. У 72% випадків оцінки відповідей від SAFE збігалися з оцінками людей-анотаторів. У цілеспрямованому аналізі 100 суперечливих фактів визначення SAFE були правильними у 76% випадків.
За допомогою такої перевірки вдалося значно підвищити точність моделей. Зокрема, GPT-4-Turbo досяг рівня фактичної точності в 95%. Ця система також дає змогу підвищувати правдивість і надійність інформації, створеної LLM, зменшуючи витрати на цей процес. За словами дослідників, система у 20 разів дешевша за анотації, створені людьми.
Джерело: news.finance.ua