合并两个数据集并评估基准分类器性能

数据集:

  • 正面例子:'https://github.com/pfrcks/clickbait-detection/blob/master/clickbait'
  • 负面例子:'https://github.com/pfrcks/clickbait-detection/blob/master/not-clickbait'

问题 1 – 读取数据 (5 分)

  • 使用 Python 读取两个 clickbait 数据集(参见“数据”部分),并将它们合并成一个单一的、随机排列的数据集。 (可以使用 numpy.random.shuffle 函数来打乱数据)。
  • 然后,将你的数据集分成训练集、测试集和验证集。 使用 72% 训练集、8% 验证集和 20% 测试集的划分比例。(相当于 20% 的测试集,剩余部分按 90%/10% 的比例分配给训练集和验证集)。

问题 2 – 基准性能 (10 分 - 在 Blackboard 中回答)

  • 假设你有一个简单的基准分类器,它将每个文本都标记为 clickbait。 在你的测试集上,这样的分类器的精确度、召回率和 F1 得分分别是多少?你认为还有其他的基准分类器能给你更高的 F1 得分吗?
  • 如果你愿意,你可以将每个分割保存为索引(行号列表),而不是创建 3 个单独的数据集。
  • 这三个数据集中的每个的“目标率”是什么?也就是说,测试数据集中被标记为 clickbait 的百分比是多少?在你的笔记本中展示你的结果。

问题 2 详细描述:

基准性能:

为了评估 clickbait 检测模型的性能,我们首先需要建立一个基准。在这个问题中,我们将使用一个简单的基准分类器,它将所有文本都标记为 clickbait。通过分析这个分类器的性能,我们可以了解一个完全随机的模型在 clickbait 检测任务上的表现。

精确度、召回率和 F1 分数:

  • 精确度:分类器正确预测为 clickbait 的文本数量占所有预测为 clickbait 的文本数量的比例。
  • 召回率:分类器正确预测为 clickbait 的文本数量占所有实际为 clickbait 的文本数量的比例。
  • F1 分数:精确度和召回率的调和平均数,它反映了分类器在精确度和召回率之间取得的平衡。

目标率:

目标率指的是测试数据集中被标记为 clickbait 的文本的比例。它反映了 clickbait 在测试数据中的分布情况。

通过分析基准分类器的性能和目标率,我们可以更好地理解 clickbait 检测任务的挑战,以及改进模型性能所需的努力。

其他潜在的基准分类器:

除了简单地将所有文本标记为 clickbait 的基准分类器之外,我们还可以考虑其他潜在的基准分类器,例如:

  • 随机分类器: 随机地将文本标记为 clickbait 或非 clickbait。
  • 基于词频的分类器: 统计文本中出现特定词语的频率,并根据这些频率来预测文本是否为 clickbait。

通过比较不同基准分类器的性能,我们可以选择一个更具代表性的基准模型,从而更好地评估我们开发的 clickbait 检测模型的性能。

合并两个数据集并评估基准分类器性能

原文地址: http://www.cveoy.top/t/topic/X2W 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录