合并两个数据集并评估基准分类器性能

数据集：

问题 1 – 读取数据 (5 分)

使用 Python 读取两个 clickbait 数据集（参见“数据”部分），并将它们合并成一个单一的、随机排列的数据集。 (可以使用 numpy.random.shuffle 函数来打乱数据)。
然后，将你的数据集分成训练集、测试集和验证集。使用 72% 训练集、8% 验证集和 20% 测试集的划分比例。（相当于 20% 的测试集，剩余部分按 90%/10% 的比例分配给训练集和验证集）。

问题 2 – 基准性能 (10 分 - 在 Blackboard 中回答)

假设你有一个简单的基准分类器，它将每个文本都标记为 clickbait。在你的测试集上，这样的分类器的精确度、召回率和 F1 得分分别是多少？你认为还有其他的基准分类器能给你更高的 F1 得分吗？
如果你愿意，你可以将每个分割保存为索引（行号列表），而不是创建 3 个单独的数据集。
这三个数据集中的每个的“目标率”是什么？也就是说，测试数据集中被标记为 clickbait 的百分比是多少？在你的笔记本中展示你的结果。

问题 2 详细描述：

基准性能：

为了评估 clickbait 检测模型的性能，我们首先需要建立一个基准。在这个问题中，我们将使用一个简单的基准分类器，它将所有文本都标记为 clickbait。通过分析这个分类器的性能，我们可以了解一个完全随机的模型在 clickbait 检测任务上的表现。

精确度、召回率和 F1 分数：

目标率：

目标率指的是测试数据集中被标记为 clickbait 的文本的比例。它反映了 clickbait 在测试数据中的分布情况。

通过分析基准分类器的性能和目标率，我们可以更好地理解 clickbait 检测任务的挑战，以及改进模型性能所需的努力。

其他潜在的基准分类器：

除了简单地将所有文本标记为 clickbait 的基准分类器之外，我们还可以考虑其他潜在的基准分类器，例如：

通过比较不同基准分类器的性能，我们可以选择一个更具代表性的基准模型，从而更好地评估我们开发的 clickbait 检测模型的性能。