ПДн и ИИ: можно ли использовать клиентские данные для обучения моделей

13.01.2023
20/09/25
Б-152
ПДн и ИИ: можно ли использовать клиентские данные для обучения моделей
Искусственный интеллект (ИИ) перестал быть «будущим» и стал инструментом повседневного бизнеса. Его внедряют в колл-центры, банковские скоринг-системы, HR-сервисы, маркетинг, аналитика клиентского поведения. 
Однако, ключевая сложность для российских компаний — правильная работа с персональными данными (ПДн) в условиях, когда именно они являются топливом для обучения моделей. Ошибка на этом поле может стоить бизнесу миллионов рублей штрафов и репутационных потерь.
В статье разберем, можно ли использовать клиентские данные для обучения ИИ в России, какие ограничения накладывает 152-ФЗ, какие международные практики стоит учитывать и какие шаги помогут выстроить легальную и безопасную систему.

Персональные данные и ИИ

Искусственный интеллект обучается на большом массиве данных: чем больше данных, тем лучше работает ИИ.
П. 1 ч. 1 ст. 3 152-ФЗ закрепляет, что персональные данные — это любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных). 
Обучение нейросетей напрямую связано с обработкой ПДн: данные загружаются в систему, проходят структурирование, передаются в дата-центры, а затем используются для генерации моделей и их обучения.

Можно ли использовать данные для обучения ИИ?

Да, но только с согласия.
  • Формулировка должна включать, например, «использование данных для автоматизированной обработки, включая обучение алгоритмов и моделей ИИ».
  • В СОПД нужно указать, какие какие категории ПДн используются для обучения. Если есть риск того, что пользователь пришлет иную категорию (например, медицинские данные в модель, которая не предназначена для этого), нужно предусмотреть это в согласии. 
  • Согласно ч. 4 ст. 21 152-ФЗ, персональные данные должны обрабатываться в течение 30 дней после обработки запроса, направленного в ИИ.

Как обучаются ChatGPT, Gemini и Meta*

Яркие примеры использования персональных данных для обучения ИИ — модели ChatGPT (OpenAI) и Gemini (Google), а также социальные сети Instagram и Facebook (Meta).
ChatGPT использует данные пользователей для обучения ИИ, но пользователь может вручную отключить через privacy portal эту функцию.
Gemini использует текст из диалогов для обучения ИИ. В настройках можно удалить историю запросов, отключить использование данных для обучения. Google отмечает, что ИИ обучается на данных пользователей, старше определенного возраста, который зависит от страны, 13−18. У детей до этого возраста история отключена автоматически.
Подход Meta (Instagram, Facebook) менее избирателен и вызывает наибольшее число вопросов:
  • С конца мая 2025 г. Meta приступила к использованию пользовательских публикаций из Facebook и Instagram (текстов, фотографий, комментариев) для тренировки моделей Meta AI и LLaMA, опираясь на положение GDPR о «законном интересе». Согласие при этом не требуется, но предоставляется возможность отозвать свое участие через специальные уведомления и формы.
  • В Германии Высший земельный суд разрешил Meta использовать общедоступные данные взрослых пользователей из Facebook и Instagram для обучения ИИ в рамках экстренного разбирательства. Контент закрытых аккаунтов и личные сообщения не используются.
  • Meta признала, что с 2007 г. автоматически собирала все публичные посты и фотографии пользователей для обучения своих моделей, если публикации не были явно закрытыми. Это подтверждено руководством компании.
  • При этом пользователи в ЕС получили возможность отказаться от использования их данных, однако сами формы отказа и процесс остаются довольно сложными. Критики указывают на «темные паттерны» интерфейса: опции отказа часто сложно найти или они имеют форму, затрудняющую эффективную реализацию выбора пользователя.

*Meta признана экстремистской и запрещена в РФ.

Государственные инициативы РФ: «ГосОзеро» и государственные составы данных

В 2023—2025 гг. в России разворачивается проект «ГосОзеро» — государственный пул обезличенных данных для обучения ИИ. В идее лежит снижение рисков для бизнеса и ускорение развития алгоритмов.
Для компаний это означает два сценария:
  • Можно использовать государственные датасеты вместо «сырых» клиентских данных.
  • Можно использовать государственные датасеты вместо «сырых» клиентских данных.
Важно: участие не освобождает бизнес от обязанностей по соблюдению мер для защиты ПДн по 152-ФЗ, но снижает юридические риски для обезличивания.
  • Создание условий для внедрения ИИ.
  • Формирование обучающих наборов данных и обучение на них ИИ. В «озеро» будут поступать обезличенные данные, предоставляемые операторами. На их основе будут формироваться стандартизированные датасеты, пригодные для обучения моделей ИИ.
  • Минимизация рисков обработки ПДн. За счет использования обезличенных данных снижается объем обрабатываемых персональных данных и одновременно повышается уровень их защищенности. Это позволит обучать ИИ и использовать данные с большей защищенностью.
Ключевые задачи:

EU AI Ac

EU AI Act — это рамочный регламент ЕС, который вводит единые правила проектирования, поставки и использования систем ИИ на рынке ЕС по принципу «безопасность продукта». Практически он задает положения для структуризации разных классов рисков ИИ и устанавливает сроки вступления требований в силу.
Классификация по рискам и базовая логика требований
Регламент делит ИИ на четыре корзины:
Неприемлемый риск — полностью запрещенные системы (например, манипулятивные техники, массовый скоринг лиц с камер/интернета для баз распознавания и др.). Такие системы нельзя поставлять и использовать.
Высокий риск — центральный объект регулирования: сюда попадают либо системы, являющиеся компонентом продукции, уже регулируемой техническими регламентами ЕС (Annex I), либо перечисленные сценарии из Annex III (кадровые решения, образование, вопросы миграции и пр.).
Для них действует набор обязательных требований: 
  • система управления рисками, 
  • управление данными (качество/репрезентативность обучающих и тестовых наборов, 
  • отсутствие ошибок и соответствие цели, 
  • техническая документация, регистрация событий, 
  • инструкции для пользователей, 
  • надзор человека, 
  • метрики точности / надежности / кибербезопасности,
  • система менеджмента качества.
Ограниченный риск — облегченная группа, где основная идея в прозрачности: пользователь должен быть осведомлен, что взаимодействует с ИИ (чат-боты, дипфейки и т. п.).
Выделяется также категория минимального риска, под которую подпадает подавляющее большинство распространенных приложений (например, игровые или антиспам-модули). Актом они не регулируются. 

Обязанности по ролям

В акте нет понятий «контролер» и «процессор», как в GDPR. Есть провайдер — это разработчик (developer) или иное лицо, которое выводит на рынок AI, и развертывающий (deployer) — это профессиональные пользователи AI, т. е. компании, которые используют AI в работе.
Большинство обязанностей ложится на разработчика, включая оценку соответствия, подготовку / поддержание технической документации, мониторинг и взаимодействие с надзорными органами.
Деплойеры высокорисковых систем также получают набор обязанностей, но более ограниченный (например, корректное применение инструкций, настройка человеческого надзора, учет контекста использования и информирование при серьезных инцидентах). 
Важная деталь: экстерриториальность — если выход системы используется в ЕС, требования затрагивают и провайдеров/пользователей из третьих стран.
Если развертывающий переписывает AI, он может перейти в роль провайдера.

General Purpose AI (GPAI)

Акт отдельно регулирует поставщиков моделей общего назначения (GPAI).
Базовый минимум: техническая документация, предоставление информации downstream-интеграторам, соблюдение Директивы об авторском праве, публикация достаточно подробного «суммарного описания» контента, использованного для обучения. 
Для моделей, признаваемых создающими «систематический риск», в том числе при достижении порога вычислительных ресурсов на обучение, а также при наличии высокоимпактных способностей, добавляются требования к оценкам / адверсиальному тестированию, управлению рисками, инцидент-репортингу и кибербезопасности.
Пока гармонизированные стандарты разрабатываются, демонстрация соответствия может идти через добровольный Code of Practice.
На уровне ЕС создается AI Office в составе Европейской комиссии — координатор, который, среди прочего, курирует провайдеров GPAI, может инициировать оценки моделей, принимать и развивать кодексы практик, а также взаимодействует с национальными органами рыночного надзора и научной панелью. 
С национальной стороны государства-члены назначают «notifying authorities» и «market surveillance authorities», которые проводят оценку соответствия, надзор и принимают меры.

Санкции и размеры штрафов

За запрещенные практики, указанные в ст. 5, — до € 35 млн или 7% от его общего мирового годового оборота за предыдущий финансовый год, в зависимости от того, какая сумма больше.
За другие ключевые нарушения, закрепленные в п. 4 ст. 99, — до € 15 млн или 3% общего мирового годового оборота.
За некорректные, вводящие в заблуждение сведения регулятору — до € 7,5 млн или 1% общего мирового годового оборота.
Для субъектов из категории SMEs (малые и средние предприятия) предусмотрены более низкие верхние пределы: каждый штраф не должен превышать проценты или суммы, указанные в пунктах выше, и применяться будет минимальная сумма.
Несоблюдение запрета на практику искусственного интеллекта (ст. 5) — до € 1,5 млн.
Для провайдеров GPAI предусмотрены отдельные штрафы — до 3% общего мирового годового оборота или € 15 млн.

Что означает EU AI Act для компаний

1. Если вы выводите ИИ-продукт на рынок ЕС, либо его результат используется в ЕС, на вас распространяются обязанности соответствующей роли — разработчик или развертывающий.
Это потребует:

— определить риск-класс по Art. 6 и Annex I/III;
— для высокого риска: внедрить QMS, процесс управления рисками по жизненному циклу, политику управления данными (качество/репрезентативность/ошибки), готовность к аудитам и пострыночному мониторингу;
— для ограниченного риска: обеспечить раскрытие факта взаимодействия с ИИ;
— для GPAI-интеграций: запросить у поставщика техдокументацию, инструкции и свод обучения; проверить соблюдение авторского права; 
— для систематического GPA: убедиться, что провайдер выполняет тестирование / управление рисками / сообщение об инцидентах.
2. Если вы заказчик европейского решения, готовьтесь к «двустороннему» комплаенсу: поставщик попросит подтвердить корректное применение инструкций, наличие человеческого надзора и вести логи существенных инцидентов
Вы, в свою очередь, вправе требовать от поставщика комплект техдокументации, декларацию соответствия и информацию о данных/ограничениях. Это станет стандартным пунктом договора и SLA.
3. Тайминг. Планируя релизы/тендеры на рынок ЕС, сопоставляйте вехи акта с вашими дорожными картами (запреты уже действуют; GPAI / управление / штрафы — с 02.08.2025; high-risk — основной массив с 02.08.2026; критерии Art. 6 (1) — с 02.08.2027).
Для программ длительного жизненного цикла предусмотрены переходные окна, но они ограничены и требуют документального подтверждения.
Резюмируя, EU AI Act — новый документ, который регулирует использование данных для регулирования ИИ. В основном акт ориентирован на компании высокого риска или те, которые обрабатывают большой объем данных. Однако, для SMEs (малых и средних предприятий) наличие акта облегчает работу на старте.

Выводы и рекомендации

Обучение ИИ в России возможно и перспективно, но требует внимательности при соблюдении законодательства.
Главные выводы:
  • Работать только с согласиями в качестве основания обработки ПДн для обучения ИИ.
  • При необходимости включать согласие на специальные категории.
  • Хранить и уничтожать данные после достижения цели.
  • Рассмотреть возможность участия в госпрограммах по обезличенным составам данных.
  • Следить за международной практикой (EU AI Act) как за моделью для будущих изменений в России.
Ввод оборотных штрафов за утечки откладывается минимум до 1 июля 2023 года
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!
реклама
бизнес
юридические вопросы
маркетинг
Материалы по теме