Gate News bot повідомлення, що дослідники з Apple у червні опублікували статтю під назвою "Ілюзія мислення", в якій зазначено, що провідні моделі штучного інтелекту (AGI) все ще мають труднощі з міркуваннями, тому змагання з розробки загального штучного інтелекту (AGI) залишається важким завданням.
У статті вказується, що останні оновлення основних (LLM) великих мовних моделей штучного інтелекту, таких як ChatGPT від OpenAI та Claude від Anthropic, включали великі моделі висновків (LRM), але їхні основні функції, Розширені можливості та обмеження «все ще не до кінця вивчені».
Нинішня оцінка в основному зосереджена на встановлених математичних та кодових критеріях, "підкреслюючи точність кінцевої відповіді". Однак дослідники зазначають, що ця оцінка не поглиблюється в розумові можливості штучних інтелектуальних моделей, що різко контрастує з очікуваннями, що загальний штучний інтелект може бути досягнутий всього за кілька років.
Дослідники розробили різні логічні ігри, щоб перевершити стандартні математичні норми для тестування "мислення" та "немислення" варіантів Клода Сонне (Claude Sonnet), o3-mini та o1 від OpenAI, а також DeepSeek-R1 і V3 чат-ботів.
Вони виявили, що "передові моделі логічного висновку (LRM) стикаються з повним крахом точності при перевищенні певної складності", не здатні ефективно узагальнювати висновки, і їхні переваги зникають з підвищенням складності, що суперечить очікуванням людей щодо можливостей загального штучного інтелекту (AGI).
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Дослідники Apple: основні AI моделі все ще не можуть досягти очікуваного рівня міркувань AGI
Gate News bot повідомлення, що дослідники з Apple у червні опублікували статтю під назвою "Ілюзія мислення", в якій зазначено, що провідні моделі штучного інтелекту (AGI) все ще мають труднощі з міркуваннями, тому змагання з розробки загального штучного інтелекту (AGI) залишається важким завданням.
У статті вказується, що останні оновлення основних (LLM) великих мовних моделей штучного інтелекту, таких як ChatGPT від OpenAI та Claude від Anthropic, включали великі моделі висновків (LRM), але їхні основні функції, Розширені можливості та обмеження «все ще не до кінця вивчені».
Нинішня оцінка в основному зосереджена на встановлених математичних та кодових критеріях, "підкреслюючи точність кінцевої відповіді". Однак дослідники зазначають, що ця оцінка не поглиблюється в розумові можливості штучних інтелектуальних моделей, що різко контрастує з очікуваннями, що загальний штучний інтелект може бути досягнутий всього за кілька років.
Дослідники розробили різні логічні ігри, щоб перевершити стандартні математичні норми для тестування "мислення" та "немислення" варіантів Клода Сонне (Claude Sonnet), o3-mini та o1 від OpenAI, а також DeepSeek-R1 і V3 чат-ботів.
Вони виявили, що "передові моделі логічного висновку (LRM) стикаються з повним крахом точності при перевищенні певної складності", не здатні ефективно узагальнювати висновки, і їхні переваги зникають з підвищенням складності, що суперечить очікуванням людей щодо можливостей загального штучного інтелекту (AGI).
Джерело новини: Cointelegraph