Голосовые сообщения — больше, чем зло

Конечно, тема голосовых всеми давно избита, изъезжена и разобрана до основания. Да, они могут быть чуть более удобными для отправителя и крайне неудобными для получателей. Но есть куда более серьёзный момент: они могут быть опасны и для самого отправителя.

🖼️ Голосовые сообщения — больше, чем зло

Да, опять Midjourney рисует мне обложки к постам

Реальный кейс

Со слов жены: недавно ей в телегу пришло голосовое сообщение от подруги. Она просила одолжить денег на короткий срок. Голос подруги отличить от подделки очень сложно.

Я не могу знать наверняка, как действовали злоумышленники, но всё же рискну предположить: мошенники получили доступ к её аккаунту, перебрали все чаты, выкачали все отправленные голосовые сообщения, а затем использовали их для дообучения голосовой модели. Затем с её помощью сгенерировали пачку персонализированных голосовых сообщений, которые были отправлены соответствующим получателям.

Как итог, хозяйку аккаунта теперь некоторые знакомые обвиняют в том, что она взяла денег в долг и не возвращает. Сомневаюсь, что хоть какой-то суд сможет принудить её компенсировать расходы жертвам, но всё равно ситуация неприятная.

❗

Кстати, про безопасность телеграма. До сих пор остаётся баг, позволяющий входить в аккаунт, не вводя вообще никаких учётных данных. Эксплуатируется очень легко: отправляем себе в «Избранное» ссылку вида «web.telegram.org» (без https://) и тыкаем в неё. При нажатии в мобильном клиенте откроется браузер, а в ссылке волшебным образом появится токен для авторизации веб-версии.

Конечно, голосовые сообщения — не основная причина, по которой злоумышленники смогли выманить деньги: ведь куда важнее тот факт, что они в принципе смогли получить доступ к аккаунту. Однако, база голосовых сообщений помогла сильно упростить мошенничество. И да, это далеко не единичный случай [1].

[1] далеко не единичный случай

Теоретические риски

Предположим, мы свято верим в безопасность своих аккаунтов или же пренебрегаем рисками мошенничества в адрес знакомых. Теперь можно пользоваться голосовыми?

На мой взгляд — лучше не надо. Особенно в публичных чатах. Мы не знаем, насколько в дальнейшем разовьются голосовые предобученные модели, но можно предположить, что для качественной имитации голоса потребуется дообучить всего на паре минут образца голоса. Такой объем легко можно собрать из голосовых сообщений некоторых людей в публичных чатах.

К примеру заглянул в чат на 20к человек: в нём жители города пишут, где и в какое время видели посты ДПС. Каждый день 10-15 голосовых. Большая часть от одних и тех же людей. При особом желании мошенникам не составит большого труда сгенерировать сообщений, записанных голосами этих людей. Что с ними могут сделать? Вот несколько примеров:

Позвонить родственникам посреди ночи

Очень старая схема мошенничества: глубокой ночью жертве звонят с незнакомого номера, представляются сыном/дочерью и умоляют срочно скинуть денег, чтобы замять какое-то происшествие. Жертва спросонья не проверяет информацию и соглашается помочь. С применением фейковых голосов она выходит на новый уровень. Особенно, если голосовая модель позволяет подменять голос в реальном времени.

Да, здесь мы упираемся в сложность: надо знать номер телефона жертвы. Однако, сопоставление никнейма или id пользователя в телеграме с номером телефона — задача несложная, слитых и обогащённых баз нынче достаточно [2]. А зная телефон пользователя, не будет слишком сложной задачей через те же слитые базы вытащить и телефоны родных.

[2] достаточно

Прикинуться пользователем и обмануть его друзей

Вообще-то, вовсе не обязательно получать доступ к аккаунту. Да, список друзей составить чуть-чуть сложнее, чем список родственников. Но вполне реально, учитывая, что некоторые соцсети по умолчанию выставляют друзей на всеобщее обозрение. Дальше остаётся только сделать копию аккаунта с таким же именем и юзерпиком.

Шантажировать самого пользователя

Спасибо коллегам-разработчикам, которые не освоили банальное хэширование паролей: благодаря сливам баз разных компаний мне часто приходят письма вида: «Привет, я знаю, твой пароль, вот он: <пример слитого пароля>. Я уже залез в твой почтовый ящик, вытащил из него все письма и отправлю их всем твоим друзьям, если ты не переведёшь мне денег». Конечно, у злоумышленника нет ни писем, ни даже доступа к ящику. Но кто-то поведётся, если его пароль совпадает со слитым.

Однако, аналогичный трюк можно провернуть и с пользователем: сделать запись, где он произносит что-то социально неприемлемое или противоречащее политике компании, в которой работает жертва. И потребовать денег: либо плати, либо мы это опубликуем.

Обойти биометрическую аутентификацию

Это, на мой взгляд, самый серьёзный риск.

Системы аутентификации пользователей по голосу у современных банков и иных операторов услуг — это чёрный ящик для пользователя. Нет никаких оснований полагать, что ни одна голосовая модель, способная имитировать чужой голос, не сможет её пройти. Зато есть доказательства [3], что в принципе подобную систему обмануть реально.

В самом плохом случае сценарий выглядит так: злоумышленник с сообщником на стороне оператора сотовой связи перевыпускает сим-карту пользователя. У нормального российского банка после такого должна остановиться возможность получать коды по смс. Злоумышленник звонит в банк, представляется. Биометрическая проверка подтверждает сходство голоса и возобновляет отправку смс. Злоумышленник получает код для входа в личный кабинет жертвы и выводит деньги со счёта.

При таком сценарии восстановить справедливость будет крайне сложно: с точки зрения банка все операции произведены пользователем. Хотя на самом деле пользователю не надо совершать вообще никаких действий, чтобы стать жертвой мошенника.

[3] доказательства

Что делать?

Разные векторы атак потребуют от нас разных способов защиты.

Для начала я считаю, что следует максимально сократить количество отправляемых голосовых сообщений. Даже если сообщения в личных переписках не несут непосредственной опасности, они могут создать повышенные риски при других действиях. Если без голосовых сложно — можно пользоваться голосовым вводом. Я пользовался им и на айфоне, и на андроиде — работает приемлемо.

Совсем параноикам можно отказаться от голосовых разговоров по-максимуму. Возможно, в ближайшем будущем для качественной и убедительной подделки голоса будет достаточно нескольких секунд аудио. Злоумышленник сможет позвонить жертве адресной атаки, попросить кого-то к телефону, и, записав ответ жертвы вида «Нет, вы ошиблись номером» сгенерировать поддельную запись.

Определённо есть смысл обсудить с ближайшими родственниками (особенно, старшими), что мошенники умеют подделывать голоса. Нельзя доверять просто знакомому голосу, надо точно удостовериться, что вы общаетесь с настоящим человеком. Можно придумать кодовую фразу для проверки подлинности или задавать вопросы, на которые злоумышленник не сможет ответить.

А от биометрической аутентификации в дистанционных сервисах, я считаю, лучше отказываться. Никакие биометрические данные нельзя изменить так же легко, как пароль: ни голос, ни отпечаток пальца, ни радужку глаза. Учитывая, как некоторые компании относятся к биометрии [4], риски вполне реальны.

Ну и особую осторожность следует проявить, если вы — публичная личность, ведёте подкаст или выступаете на телевидении, и образцы вашего голоса очень легко найти.

[4] относятся к биометрии

P.S.

Пока писал пост, вспомнил о старой байке: когда-то давно по сети гуляли рекомендации ни в коем случае не отвечать на входящие звонки словом «Да», поскольку злоумышленник может записать одно лишь «Да», повесить трубку, а затем применить запись при подтверждении какой-либо банковской операции по телефону. Когда-то такое казалось нам смешным и наивным...

А обсудить пост, как обычно, можно в канале.