2023 WWW Best Paper阅读笔记

2023 WWW Best Paper: Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twiter Bot Detection

一、简介

问题

本文仔细研究了广泛使用的Twitter机器人检测数据集，并探讨了它们的局限性。平台会部署基础设施来标记或移除自动化账户，但它们的工具和数据并不公开可用，因此，公众必须依赖第三方的机器人检测工具。这些机器人检测工具采用机器学习技术，在现有数据集上通常拥有接近完美的分类性能。然而，有迹象表明机器人检测工具远未达到完美，它们可能1)彼此不一致，2)随着时间的推移可能变得不可靠，3)依赖可疑的标签。

评估第三方机器人检测数据集和工具在本质上是具有挑战性的：公众无法获得或无法了解“真实情况”，我们对Twitter上的机器人的洞察仅限于数据集本身。然而，这并不意味着评估是不可能的。通过仔细分析数据集及其之间的关系，我们仍然可以更好地了解这些数据集所告诉我们的信息。

背景

随着在线社交媒体成为与他人交流和分享信息的重要手段，机器人（或自动化账户）的影响力已成为一个重要的社会关注话题。一些机器人是良性的，它们提供娱乐内容或直接提升了网站的可访问性（例如，在平台上为原本没有字幕的视频提供字幕），但还有很多其他机器人涉及影响操作、虚假信息传播和骚扰行为：虚假关注者增加了某些用户的知名度；垃圾邮件账户充斥着为某个政治候选人或产品做广告；恶意自动化账户破坏选举的可信度或煽动极端化。对这些账户的准确标记能够对选举、公共卫生以及公众对机构的信任产生实际影响。研究人员、记者和广大公众依赖于研究人员开发的工具来区分机器人和真实的人类用户，并了解机器人对社会现象的影响。

研究人员经常将机器人检测作为预处理步骤来研究社会现象，将人类用户与机器人分离，并研究与人类和机器人相关的现象。这些研究结果的鲁棒性和有效性取决于准确可靠的机器人检测。

从表面上看，机器人检测研究对于机器学习来说似乎取得不少成功：研究人员已经收集了多种数据集用于一个明确定义的分类任务，并且像随机森林和神经网络这样具有表达能力的机器学习模型在这些数据上获得了近乎完美的性能。此外，这些方法在学术文献和公共使用中被广泛采用。机器人检测工具经常在多个数据集的基础上进行训练，并且研究人员认为现有的方法可以通过添加更多的数据集或使用更复杂的技术，如生成对抗网络，轻松适应现有分类器的缺陷或更接近人类的机器人的进化。

二、技术方案

本文使用简单的决策规则，使得数据的标注过程变得透明化。本文选择使用浅层决策树，它们的透明性使我们能够轻松地查看每个数据点被分配标签的具体原因。本文使用scikit-learn的二叉决策树实现，通过在数值数据上进行递归训练来选择最佳的特征阈值对（由节点表示），以便将数据按类别划分为两组，并分别在每组上学习决策树。经过固定的递归深度（对应于树的深度），分类器输出与该组中大多数示例相对应的标签（树的叶节点）。本文只考虑深度不超过四层的决策树，以确保可以轻松检查这些树，并避免过拟合。

三、实验设置

数据集选取

本文评估了以下数据集：twibot-2020，feedback-2019，pan-2019，rtbust-2019，midterm-2018，stock-2018，cresci-2017，gilani-2017，cresci-2015，yang-2013，caverlee-2011。

所有的数据集都包括个人资料特征，通常包括屏幕名称、推文数量、关注者数量、关注数量、收藏数量、语言、位置、时区、用户所在的Twitter列表数量等等。此外，一些数据集还包括数据集中每个用户的推文语料库。有时也会记录网络关系和相关的关注/粉丝行为。本文假设数据中的标签是基准真实。

评测指标

在文献中最常报告的性能指标是准确率和F1分数。

准确率定义为正确标记的示例比例。当数据集在类别之间不平衡时，准确率可能会误导，因为通过始终预测多数类别，简单的模型可以获得高准确率。
在二分类中，F1分数是模型精确率和召回率的调和平均值。低F1分数表示分类器要么无法检测到高比例的机器人，要么错误地标记了大部分人类。F1分数不包括真负例的数量，即正确标记为人类的人数，这在机器人超过人类的情况下可能会引起误导。

尽管这两个指标相互补充，但都依赖于数据中人类和机器人的比例。因此，很难比较具有不同比例的机器人和人类的模型和数据集的准确率和F1分数结果。为了提供额外的清晰度和可比性，我们报告了我们分类器的平衡准确率（bal. acc.），即真正例率和真负例率的算术平均值。

四、结论

机器人检测的高性能是由于数据集收集和标注的限制，而不是工具的复杂性。具体而言，我们表明简单的决策规则（在少数特征上训练的浅层决策树）在大多数可用数据集上实现了接近最先进的性能，而即使将机器人检测的数据集组合在一起，也无法很好地推广到样本外的数据集上。预测结果在很大程度上取决于每个数据集的收集和标注程序，而不是机器人和人类之间的根本差异。这些结果对于采样和标注程序的透明性以及使用现有机器人检测工具进行预处理的研究中潜在的偏见具有重要的影响。

五、本文贡献

本文证明简单的决策规则在基准数据集上的表现几乎与最先进的模型相当。每个数据集只提供了有限复杂性的预测信号。由于简单的决策规则使我们能够透明地检查我们分类器高性能的原因，我们发现数据集中的预测信号很可能反映了特定的收集和标记过程，即从Twitter收集账户并为每个账户分配人类或机器人标签的过程。
本文研究了数据集的组合。本文展示了在一个数据集上训练的表达性机器学习模型在其他数据集上的测试表现不佳，并且在除一个之外的所有数据集上训练的模型在保留的数据集上的评估结果也较差。一个数据集提供的信息不具有泛化到其他数据集的能力，这表明数据集按照不同的分布进行分布，这意味着不同的抽样（即收集和标记）过程。
本文考虑了是否对数据施加结构假设，即每个数据集包含来自少量类型（例如垃圾信息机器人或虚假关注者）的机器人，是否能够提供更好的泛化性能。现有数据集不太可能提供代表性或全面的机器人样本，而且在这些数据上训练的分类器在部署时性能可能不佳。
除了机器人检测之外，我们的方法论（在数据集上检验简单的决策规则，并测量跨数据集的性能）可能对检测各种机器学习应用中的简化数据采样和标注过程很有用。
这些发现对未来在Twitter和其他平台上的机器人检测研究有直接的影响：机器人检测数据集的创建者应该透明地报告和证明采样和标注程序；研究开发机器人检测技术的研究人员应该在使用更具表达性的模型之外，训练和分析简单且可解释的模型；而将机器人检测作为预处理步骤的研究人员应该考虑它可能如何影响结果的偏差。