G.O.S.S.I.P 阅读推荐 2023-08-24 Going through the motions

今天为大家推荐的论文是来自UC Riverside的Nael Abu-Ghazaleh研究组投稿的最新研究Going through the motions: AR/VR keylogging from user head motions，目前该工作已发表于USENIX Security 2023。

研究背景

增强现实和虚拟现实 (AR/VR) 设备这些年在商业上获得巨大突破并且不断增长，目前已经有 2600 万台设备在市面上流通。而AR/VR 的相关应用涵盖了娱乐领域，教育、培训、社交媒体和远程等领域工作。AR/VR应用程序的交互通常包括用户在浮现出的虚拟键盘上的键入，例如输入密码或者聊天。同时，AR/VR平台现在提供了同时运行多个应用程序的能力。比如，多个虚拟 Web 浏览器窗口同时可见，或者聊天应用程序可覆盖在虚拟游戏的顶部。在这项工作中，作者展示了前台输入的文本存在严重的安全风险，而后台应用程序无需任何特殊权限，即可还原出用户输入的文本。这其中的关键在于，当用户在虚拟键盘上打字时，他的头部会以微妙的方式移动，这些运动信号足以帮助推断用户键入的文本。为此，作者开发了一个系统，TyPose，提取这些信号并自动推断单词或受害者正在输入的字符。

研究方法

头部运动追踪：

AR/VR 耳机会结合使用摄像头和惯性测量单元 (IMU) 传感器读数来跟踪其在现实世界中的位置和方向。这使得 AR/VR 平台能够渲染可信且身临其境的场景，并随着用户的移动而更新显示。如果没有耳机跟踪，即使用户移动头部，场景也会显得“冻结在原地”。因此，耳机跟踪是 AR/VR 的基础，标准做法是允许所有应用程序访问头部跟踪数据，以确保它们可以继续渲染。AR/VR 耳机中的惯性测量单元 (IMU) 包含加速计和陀螺仪。IMU 跟踪 6 个自由度 (DoF)，如图 1 所示：3 个 DoF 对应于沿 x、y、z 轴的线性加速度（由加速度计测量，单位为 m/s2），3 个 DoF 对应于沿 x、y、z 轴的角速度。x、y、z 轴，由陀螺仪测量，单位为 rad/s。

图1：AR/VR传感器

攻击模型：

作者的攻击模型假设用户安装了带有恶意代码的 VR 应用程序。攻击过程如下图2所示。作者假设有一恶意程序正在后台运行，并记录所有耳机跟踪数据。用户（受害者）在前台应用程序（如聊天软件或者工作电子邮件）使用虚拟键盘和VR控制器输入敏感文本。具体来说，恶意应用程序每帧都会记录 6 DoF 加速计和陀螺仪数据，攻击者的目标是以合理的准确度重建用户（受害者）键入的敏感文本。

图2：攻击场景

实验配置和攻击流程：

作者在Meta Quest 2上演示了攻击。模拟的恶意程序基于Unity开发。有25名来自UC Riverside校园的志愿者参与数据采集。攻击流程如图3所示，有两大部分组成。TyPose 将 6 DoF VR 耳机陀螺仪和加速计传感器读数作为输入，第一步通过句子分段器（Sentence Segmenter），将时间序列分解为单词（字符），第二步通过单词分类器（Word Classifier）对单词（字符对）继续进行分类。

图3：攻击流程

图4展示了句子分段器（Sentence Segmenter）的构造。作者训练了一个CNN模型，根据陀螺仪和加速度计读数将句子分割成单词或字符。

图4：句子分段器（Sentence Segmenter）

单词分类器：分段器的输出是单词边界，它被转换为代表可能单词的时间序列段。分类器分析这些片段以推断键入的单词。作者还尝试对字符对进行分类，给定字符边界。

实验评估

句子分段器（Sentence Segmenter）的准确率如表1所示。图5展示了句子分段器对字符边界的一段预测实例。

表1：句子分段器（Sentence Segmenter）的准确率

图5：句子分段器预测的字符边界 vs Ground Truth.

单词分类器的性能如表2所示。

表2：单词分类器的准确率

可能的防御措施

防止系统受到攻击的最简单方法是禁止后台应用程序对 VR 耳机加速计的访问。然而，这可能并不理想，因为它也阻止了后台应用程序更新渲染图像从而响应用户的动作，这会导致糟糕的用户体验。因此，作者尝试了两种方法：(a) 降低传感器流提供给后台应用程序的频率，以及 (b) 降低提供给后台应用程序的浮点值的精度。然而如图6和7所示，降频和降精度的措施效果均不好。

图6：降低传感器流的频率

图7：降低传感器流的精度

结论

在这项工作中，坐在展示了攻击者可以自由地从 AR/VR 设备获取流头跟踪数据，对其进行分段和分类，以获得其他用户输入的敏感文本信息。并在实验评估中证明了这种攻击的可行性，无论是在使用多个用户的数据进行训练的情况下（82% 的Top-5单词分类准确率），还是在针对特定受害者进行攻击时（92 %的Top-5单词分类准确率）。作者还表明，降低头部跟踪数据的采样率或精度的防御措施是无效的，这表明需要更复杂的缓解措施。

论文下载：https://www.usenix.org/system/files/usenixsecurity23-slocum.pdf

投稿作者介绍：张亦成加利福尼亚大学河滨分校博士研究生，主要研究方向为计算机架构安全，AR/VR安全，侧信道攻击，研究成果发表于USENIX Security、IEEE TIFS，IEEE DSN，ACM FPGA等国际会议及期刊。个人主页: https://yichez.site/

为您推荐

G.O.S.S.I.P 阅读推荐 2024-10-30 SmartAxe

CSB专题安全研究 | 化工工艺设备的远程隔离

G.O.S.S.I.P 阅读推荐 2024-11-01 交叉火线—对苹果设备跨异构计算单元内存的模糊测试

G.O.S.S.I.P 阅读推荐 2024-11-08 ORL-AUDITOR

G.O.S.S.I.P 阅读推荐 2024-11-07 区域化的艺术

压水堆燃料安全研究团队:以“拓荒者”的姿态,澎湃向前