合并两个数据集并进行划分：点击诱饵检测

以下是将两个数据集合并并进行划分的Python代码：

import numpy as np

# 读取数据集
clickbait_data = open('clickbait', 'r').readlines()
not_clickbait_data = open('not-clickbait', 'r').readlines()

# 合并数据集
combined_data = clickbait_data + not_clickbait_data
np.random.shuffle(combined_data)

# 划分数据集
total_samples = len(combined_data)
train_size = int(total_samples * 0.72)
val_size = int(total_samples * 0.08)

train_data = combined_data[:train_size]
val_data = combined_data[train_size:train_size+val_size]
test_data = combined_data[train_size+val_size:]

# 保存划分后的数据集
np.save('train_data.npy', train_data)
np.save('val_data.npy', val_data)
np.save('test_data.npy', test_data)

对于问题2，假设有一个简单的基准分类器，将所有文本都标记为clickbait。在测试集上，这个分类器的精确度（precision）、召回率（recall）和F1分数（F1-score）分别是多少，还有没有其他的基准分类器可以给出更高的F1分数？请在Blackboard上回答这个问题。

对于目标率问题，可以通过计算测试集中标记为clickbait的样本所占的百分比来得到。

正面例子: 'https://github.com/pfrcks/clickbait-detection/blob/master/clickbait'

负面例子: 'https://github.com/pfrcks/clickbait-detection/blob/master/not-clickbait'