1拼音数据无声调：httpswwwjianguoyuncompDQ3els0Q-rqYBhi3pIgFIAA2定义数据集：采用字符模型因此一个字符为一个样本。每个样本采用one-hot编码。完整代码并注释

1.拼音数据（无声调）：https://www.jianguoyun.com/p/DQ3els0Q-rqYBhi3pIgFIAA

2.定义数据集：采用字符模型，因此一个字符为一个样本。每个样本采用one-hot编码。

import numpy as np

# 定义字符集合
CHARACTER_SET = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']

# 定义字符到索引的映射
char_to_index = {char: index for index, char in enumerate(CHARACTER_SET)}

# 定义索引到字符的映射
index_to_char = {index: char for index, char in enumerate(CHARACTER_SET)}

# 加载拼音数据
data = np.load('pinyin_data.npy')

# 将数据集拆分为输入和输出
input_data = data[:, :-1]
output_data = data[:, -1:]

# 将输入和输出转换为one-hot编码
input_data_one_hot = np.zeros((input_data.shape[0], input_data.shape[1], len(CHARACTER_SET)))
for i, sentence in enumerate(input_data):
    for j, char in enumerate(sentence):
        input_data_one_hot[i, j, char_to_index[char]] = 1

output_data_one_hot = np.zeros((output_data.shape[0], len(CHARACTER_SET)))
for i, char in enumerate(output_data):
    output_data_one_hot[i, char_to_index[char[0]]] = 1

# 打印数据集信息
print('输入数据维度：', input_data_one_hot.shape)
print('输出数据维度：', output_data_one_hot.shape)
print('数据集大小：', input_data_one_hot.shape[0])

注释：

CHARACTER_SET：定义字符集合，包含26个小写字母。
char_to_index：定义字符到索引的映射。
index_to_char：定义索引到字符的映射。
np.load('pinyin_data.npy')：加载拼音数据集。
input_data：输入数据集，每个样本为一个拼音序列。
output_data：输出数据集，每个样本为一个拼音序列的下一个字符。
input_data_one_hot：将输入数据集转换为one-hot编码。
output_data_one_hot：将输出数据集转换为one-hot编码。
print('输入数据维度：', input_data_one_hot.shape)：打印输入数据集的维度信息。
print('输出数据维度：', output_data_one_hot.shape)：打印输出数据集的维度信息。
print('数据集大小：', input_data_one_hot.shape[0])：打印数据集大小