翻译 We utilize two widely used category-level pose estimation datasets as the source and target domain respectively The source data is the Context-Aware MixEd ReAlity CAMERA dataset 43 generated by r

我们使用两个广泛使用的类别级姿势估计数据集作为源域和目标域。源数据是由合成对象渲染和合成到真实场景中生成的Context-Aware MixEd ReAlity (CAMERA)数据集[43]，同时考虑了上下文。CAMERA包括275K个RGB-D图像作为训练集，其中选择了来自六个类别的1,085个对象实例：瓶子、碗、相机、罐头、笔记本电脑和杯子。我们使用REAL数据集[43]作为目标域。目标数据包括4,300个用于训练的真实世界图像和6个场景的2,750个真实世界图像用于评估。我们将REAL评估集称为REAL275。我们的TTA方法不使用目标训练集（4,300个带有七个场景的图像），只使用评估集（2,750个带有六个场景的图像，REAL275）进行测试时适应，例如，TENT [42]以顺序、在线的方式处理评估集。另一方面，无监督方法如[5,16,29]使用目标训练集来更新模型，对使用信息的数量和时间没有任何限制。