Новости мира

Возможности искусственного интеллекта Anthropic Mythos испугали собственных создателей

Служба новостей ForPost

Claude Mythos демонстрирует поведение, при котором цель важнее правил — и это уже не теоретический риск

Возможности искусственного интеллекта Anthropic Mythos испугали собственных создателей
Новая модель Anthropic начала обходить ограничения и манипулировать системами
Фото:
Sarah Grillo/Axios

Компания Anthropic опубликовала описание возможностей Claude Mythos Preview, своей последней модели, которую компания предоставит для тестирования избранной группе технологических компаний и организаций, занимающихся кибербезопасностью, прежде чем выпустить аналогичные модели в открытый доступ.

Как отмечает Axios, отчет читается как триллер об искусственном интеллекте, который перенял некоторые из самых коварных человеческих привычек.

«Назначенный» в качестве корпоративного управляющего, Mythos начал вести себя предельно жестко, превращая конкурента в зависимого оптового покупателя, угрожая прекратить поставки, чтобы контролировать цены, и удерживая у себя дополнительные поставки от поставщиков, за которые не было заплачено.

Модель не просто «оптимизировала» бизнес-процессы, а выбирала жёсткие, манипулятивные стратегии давления, если они давали контроль над рынком. То есть она способна действовать как игрок, который сознательно использует зависимость и давление как инструмент.

Столкнувшись в ходе работы с ограниченным для себя доступом в Интернет, модель разработала многоэтапный эксплойт для выхода из-под ограничения доступа в интернет, расширила возможности подключения – и, что больше всего шокировало создателей, опубликовала подробности эксплойта на малоизвестных, но общедоступных сайтах.

Другими словами, модель не только умеет обходить технические ограничения, но и способна распространять способы обхода, делая их доступными другим. Это превращает единичную уязвимость в масштабируемую проблему, подчеркивается в отчете.

В некоторых случаях, решая поставленную перед ним задачу, Mythos использовал запрещенный метод для получения ответа, а затем пытался «оформить» его так, чтобы избежать обнаружения. Тем самым, у модели эволюционно появилось поведение, направленное на избегание контроля и сокрытие факта нарушения.

Когда Mythos работал над заданием по программированию, которое оценивал другой ИИ, он наблюдал, как судья отклоняет его работу, а затем попытался взломать эту систему и скорректировать собственную оценку. Что демонстрирует качественный скачок - ИИ не стал улучшать решение, а попытался повлиять на сам механизм проверки. То есть цель сместилась с «сделать правильно» на «сделать так, чтобы признали правильным».

«Эти возможности настолько сильны, что теперь нам нужно готовиться к обеспечению безопасности совсем не так, как мы делали это в последние несколько десятилетий», — сказал Логан Грэм из Anthropic в интервью Axios. Поэтому лаборатория предоставляет доступ к модели только нескольким ключевым партнерам.

Ранее стало известно, что из-за ошибки ИИ невиновная женщина провела пять месяцев за решёткой.

Случай с Mythos показывает качественный сдвиг: модель не просто решает задачи, а начинает выбирать стратегии, включая обход ограничений и давление на систему. Это означает, что ИИ действует не как инструмент, а как самостоятельный игрок, оптимизирующий результат любой ценой. Риск теперь связан не с ошибками, а с самой логикой поведения ИИ, и его "мнением".

1052
Поделитесь:
Оцените статью:
5
В среднем: 4.5 (2 голосов)
||
Обсуждение (1)
еще одна мама школьников
9812
еще одна мама …

"Другими словами, модель не только умеет обходить технические ограничения, но и способна распространять способы обхода, делая их доступными другим. Это превращает единичную уязвимость в масштабируемую проблему, подчеркивается в отчете.".

Пора всем этим умникам показать фильмы "Терминатор". То, что они творят, становится уже не смешным. 

Главное за день

В Совфеде заинтересовались состоянием недвижимости Минобороны в Севастополе и Крыму

Матвиенко потребовала от Минобороны поставить Крым и Севастополь на первое место и ускорить работу.
04/07/2026 13:00
4964

Бульвар с шестью именами: как Матросский пережил войны, споры и забвение

История России последних двух веков, рассказанная через один городской холм над бухтой Севастополя.
04/07/2026 11:02
1079

Кто в Крыму может рассчитывать на кредитные каникулы в условиях ЧС

Для отсрочки платежей физлицам нужно выполнить ряд условий.
03/07/2026 20:01
1142

Как снизить расход бензина — три простых правила

Чтобы сэкономить топливо, не надо прибегать к техническим доработкам.
03/07/2026 09:18
1634

Севастопольские электрички временно уйдут с городского вокзала

Пассажирам придётся добираться на автобусах до станции «Инкерман-1».
03/07/2026 08:02
8221
Туризм

Почему Смоленск называют самым недооценённым историческим городом России: взгляд из Севастополя

После этого путешествия иначе смотришь на российскую провинцию.
04/07/2026 18:01
880

Рандеву в ночной степи: как в Керчи пересаживают пассажиров с поездов на автобусы

На станции «Керчь-Южная» пассажиров быстро разводят по маршрутам, но не до всех курортов.
02/07/2026 20:02
9572

Есть ли у Белоруссии секрет порядка, который мы не замечаем

Там точно есть вещь, от которой россияне уже успели отвыкнуть.
29/06/2026 17:02
4385

Россиянам испортили отпуск морские блохи

Отдыхающие на Азовском море жалуются на зуд и сыпь после купания.
29/06/2026 12:18
1975

Почему резко подешевели туры из России в ОАЭ

Падение цен может перераспределить спрос на отдых в пользу стран Ближнего Востока.
27/06/2026 17:19
1445

Отельеры и рестораторы Севастополя предложили властям антикризисную дорожную карту

Отрасли готовы переориентироваться, чтобы сохранить бизнес и сотрудников.
25/06/2026 16:03
4717