Учёные из Университета Суррея в Англии забили тревогу из-за того, какую угрозу уже представляют для научного сообщества большие языковые модели в роде ChatGPT и Gemini. Как пишет Nature, исследователи обнаружили, что за последние четыре с половиной года более 400 научных текстов, опубликованных в 112 научных журналах, являются копиями уже существующих работ, которые были переписаны при помощи языковых моделей.
При этом отмечается, что подобные тексты проходят существующие проверки на плагиат, но при этом не несут никакой научной ценности. Учёные опасаются, что в будущем научные журналы могут быть «захламлены» подобными статьями.
Обнаружить плагиат удалось при помощи специфического анализа: учёные обратили внимание на ассоциативные исследования, которые связывают некие данные с результатом для здоровья. Они взяли данные из открытой базы NHANES (Национального исследования здоровья и питания США), и провели по ним поиск.
Оказалось, что 411 исследований-клонов подозрительным образом отслеживали одни и те же переменные, те же результаты, и пришли к таким же выводам, что и первоначальные работы. В большинстве случаев речь шла о статьях, которые повторяли друг друга почти дословно, но особо популярным оказались три работы, у каждой из которых оказалось по шесть «клонов».
Затем учёные решили проверить, как легко создать такой клон: они взяли за основу наборы данных, которые были использованы в этих трёх самых популярных статьях, и попросили ChatGPT и Gemini переписать их, уточнив, что полученный текст должен пройти проверку на плагиат.
«Мы были в шоке, так как у нас получилось сразу же, — рассказал соавтор исследования Мэтт Спик. — Статьи были неидеальными, языковые модели допустили несколько ошибок. Пришлось потратить два часа, чтобы подчистить каждую рукопись. Мы произвели полностью вторичные статьи, которые не имели ничего нового, но они все прошли проверки на плагиат».
Научные журналы уже пытаются совладать с наплывом таких вторичных статей: они вводят дополнительные меры безопасности, а также более тщательно отбирают работы, которые опираются на данные из открытых источников. Сообщается, что благодаря этому с 2024-го года были отвергнуты уже более 5,5 тысяч научных работ, которые основывались на базы данных NHANES.
Ранее учёные впервые при помощи искусственного интеллекта создали вирус, который может побеждать штаммы кишечной палочки, неуязвимые для антибиотиков.