Професор Вартонської школи бізнесу Пенсильванського університету Ethan Mollick у дописі на платформі X від 25.04 зробив спостереження, яке сильно впливає на наукову спільноту: сучасні AI-agent уже можуть незалежно відтворювати складні результати академічних досліджень лише на основі публічно описаних методів і даних — без оригінальних статей і без вихідного коду. Далі Mollick зазначив, що коли AI-відтворені версії відрізняються від оригінальних статей, «помилки часто трапляються в самих людських текстах, а не в AI». Це є суттєвим поворотом у кризі відтворюваності досліджень у епоху генеративного AI: те, що раніше вимагало дорогих людських зусиль для перевірки колегами, тепер виконується AI у великих масштабах і з низькою вартістю.
Claude відтворює кілька статей, а потім GPT-5 Pro робить двічі перевірку
У своєму блозі OneUsefulThing та в цьому твіті Mollick описує конкретний експеримент із Claude: він дає Claude академічну статтю, щоб той відкрив архів, упорядкував файли, автоматично перетворив STATA-код для статистики на Python, а потім послідовно виконав усі висновки, наведені в статті. Після завершення роботи Claude він проводить другий раунд перевірки за допомогою GPT-5 Pro для того самого результату відтворення. Кілька статей тестувалися так само, і результати загалом були успішними — перешкоди виникали лише тоді, коли файли даних були надто великими або коли самі replication data мали проблеми.
Для наукової спільноти цей процес раніше зазвичай потребував того, щоб дослідницькі асистенти витрачали тижні або навіть місяці. Mollick описує часовий масштаб від одного дня до одного дня, а вартість виконання — лише токенові витрати комерційного LLM API.
Багато помилок — у людських першоджерелах, а не в AI
Більш суперечливим є те, як Mollick визначає, «хто винен». У своєму твіті він прямо заявив, що коли результати AI-відтворення не відповідають оригінальній статті, у більшості випадків це не помилка AI, а помилки в обробці даних у статті, неправильне використання моделі або вихід висновків за межі того, що підкріплюється даними. У психології, поведінковій економіці, менеджменті та інших соціальних науках за останнє десятиліття вже було кілька серйозних подій із кризами відтворюваності; найбільш відомий — велике відтворювальне дослідження Open Science Collaboration у 2015 році, в якому лише близько 36% результатів психологічних статей вдалося незалежно відтворити. AI-agent переносить межу перевірки з «потрібного підбору людських ресурсів» на «здатність виконуватися повсюдно».
Вчитися все ще забороняють AI в рецензування, а інституції відстають від техніки
У іншому твіті від 25.04 Mollick конкретно вказує на те, що найбільше в його галузі найбільше товариство — Академія менеджменту (Academy of Management) — досі чітко забороняє AI входити в процес рецензування рукописів. Він посилається на вже наявні дослідження, які показують, що AI-рецензування вже краще, ніж частина традиційних людських рецензентів, за точністю, узгодженістю та контролем упередженості, тому позиція «заборонити» може навпаки посилити збої в існуючих системах рецензування. Розрив між такими інституційними правилами та технологією — це політичне питання, з яким у найближчі 1–2 роки мають зіткнутися наукові видавництва, наукові товариства та фінансувальні організації.
Для читачів ця дискусія не обмежується академічною сферою. Коли AI-agent здатен у реальному часі перевіряти результати досліджень, у бізнес-середовищі посилання на дослідження, політичні звіти та академічні підстави в ухваленні фінансових рішень перейдуть у новий критерій перевірки — «чи витримують висновки незалежне AI-відтворення». Відповідаючи на доповнення в іншому твіті Mollick, він вважає, що уряд є єдиною одиницею, яка може поставити «якорь» для розробки правил перевірки, коли інтенсивність інструментів постійно зростає, — а складність політичного дизайну синхронно стане відносно непомітним головним напрямом у обговореннях AI-врядування.
Ця стаття: AI Agent уже може незалежно відтворювати складні академічні статті: Mollick називає, що більшість помилок — у людських першоджерелах, а не в AI. Вперше з’явилося в 鏈新聞 ABMedia.
Пов'язані статті
Worxphere перейменовує JobKorea, додаючи інструменти для найму на базі ШІ
ОАЕ оголошують перехід до моделі AI-держави протягом наступних двох років
Платформа для ШІ-торгівлі Fere AI залучила $1,3 млн фінансування під проводом Ethereal Ventures
Nvidia розгортає AI-агента OpenAI Codex для всієї команди працівників на інфраструктурі Blackwell
Стартап з розробки коду за допомогою ШІ Cognition веде переговори про фінансування за оцінкою $25B
Платформа AI Trading Agent Fere AI залучила $1,3 млн під керівництвом Ethereal Ventures