Ученые Университета Техаса и Университета Корнелла говорят, что технологии машинного обучения легко отгадывают за размытыми пикселями реальные данные, пишет Wired.
Исследователи показали, что размытие чувствительных данных на фото не позволяет увидеть информацию только людям — они угадывают пикселизированное лицо с вероятностью 0,19%. В то же время программный алгоритм для стандартного в индустрии набора данных имеет точность 71% для единой попытки и повышает свои показатели до 83%, если дать программе угадывать пять раз. При этом алгоритм не убирает размытие на фото — он угадывает то, что за ним скрывается.
Ученые также попытались использовать свою технологию в реальной атаке — распознать людей, лица которых размыты в роликах YouTube. Сначала они взяли базу фотографий людей и размыли на них лицо инструментами YouTube. Это позволило натренировать систему машинного обучения на основе глубокой нейронной сети. После этого алгоритм узнавал людей с размытыми лицами с точностью 57% при однократной обработке и с 85% точностью, если машина делала пять попыток.
«Это довольно простой механизм, — говорит один из исследователей Ричард МакФерсон. — Единственное действительное ограничение — это иметь набор данных, на которых можно тренировать машинное обучение. Но это можно решить».