Transformer原理解析及中文项目实践（微课视频版）-CFANZ编程社区

词汇表是一个将单词或标记映射到唯一整数索引的集合。在自然语言处理任务中，文本数据需要被转换为机器学习模型能够理解的格式。词汇表就是这样一个工具，它帮助实现文本到数字的转换。

具体来讲，词汇表通常包含以下元素：（1）单词或标记：可以是单词、字符、子词或任何其他文本单位。（2）索引：一个唯一的整数，用于表示词汇表中的每个单词或标记。

下面构建词汇表，将文本数据中的单词映射为唯一的整数索引，代码如下：

#第1章/1.1 rnn.ipynb

class Vocabulary:

def __init__(self, freq_threshold):

self.itos = {0: "<PAD>", 1: "<SOS>", 2: "<EOS>", 3: "<UNK>"}

self.stoi = {v: k for k, v in self.itos.items()}

self.freq_threshold = freq_threshold

def build_vocabulary(self, sentence_list):

frequencies = Counter()

idx = 4

for sentence in sentence_list:

for word in sentence:

frequencies[word] += 1

if frequencies[word] == self.freq_threshold:

self.stoi[word] = idx

self.itos[idx] = word

idx += 1

def numericalize(self, text):

return [self.stoi[token] if token in self.stoi else self.stoi["<UNK>"] for token in text]

（1）初始化方法中定义了3个参数，itos是一个字典，用于将整数索引映射到字符串（词汇）。stoi也是一个字典，用于将字符串（词汇）映射到整数索引。freq_threshold是一个阈值，用于决订单词是否包含在词汇表中。只有当单词在所有句子中出现的频率达到或超过此阈值时，它才会被添加到词汇表中。

（2）build_vocabulary方法中，接受一个句子列表作为输入，使用Counter来计算每个单词在所有句子中的出现频率。对于每个单词，如果其频率等于freq_threshold，则将其添加到itos和stoi字典中，并递增索引idx。

（3）numericalize方法中接受文本（句子）作为输入，将文本中的每个单词转换为相应的整数索引。如果单词不在词汇表中，则使用<UNK>（表示未知）的索引。

创建好词汇表后需要对数据集进行处理，定义一个NewsDataset类，用于创建一个可以被DataLoader使用的自定义数据集，代码如下：

#第1章/1.1 rnn.ipynb

class NewsDataset(Dataset):

def __init__(self, texts, labels, vocab, max_length):

self.texts = texts

self.labels = labels

self.vocab = vocab

self.max_length = max_length

def __len__(self):

return len(self.texts)

def __getitem__(self, index):

text = self.texts.iloc[index]

label = self.labels.iloc[index]

numericalized_text = [self.vocab.stoi["<SOS>"]] + self.vocab.numericalize(text)[:self.max_length-2] + [self.vocab.stoi["<EOS>"]]

padded_text = numericalized_text + [self.vocab.stoi["<PAD>"]] * (self.max_length - len(numericalized_text))

return torch.tensor(padded_text, dtype=torch.long), torch.tensor(label, dtype=torch.long)

（1）初始化方法定义了4个参数，texts是新闻文本数据。labels是指与文本相对应的类别标签。vocab是词汇表对象，用于将文本数据转换为数值数据。max_length表示每个文本将被填充或截断到这个长度。

（2）方法__len__用于返回数据集中的文本数量。

（3）方法__getitem__接受一个索引index，使用vocab将文本数据转换为数值数据，并添加开始（<SOS>）和结束（<EOS>）标记。如果数值化文本的长度小于max_length，则使用<PAD>（填充）标记进行填充。最后返回一个元组，包含数值化文本和相应的标签，两者都转换为PyTorch张量。

通过上面构建数据集的这种方式，文本数据被转换成模型可以理解的格式，并准备好进行训练。

创建好方法函数后，需要对该方法进行实例化，代码如下：

vocab = Vocabulary(freq_threshold=5)

vocab.build_vocabulary(data['text'].apply(list))

首先实例化Vocabulary类，创建一个Vocabulary类的实例，并将其命名为vocab，用于构建词汇表。参数freq_threshold设置为5，这个参数用于确定一个单词是否应该被包含在词汇表中。只有当单词在所有句子中出现的次数大于或等于这个阈值时，该单词才会被添加到词汇表中。

设置预置的目的是通过过滤稀有词汇来减少词汇表大小，进而降低模型的复杂度和过拟合风险，同时处理数据稀疏性，提高模型泛化能力，并减少噪声，提升数据质量。这一策略有助于平衡模型性能与资源消耗，尤其对于情感分析或主题分类等特定任务，关注频繁出现的单词能更有效地捕捉文本内容信息。

然后构建词汇表，对数据data中的text列进行操作。apply(list)是一个Pandas操作，它将text列中的每个字符串转换为字符列表。假设每个条目是一个由空格分隔的单词字符串，这个操作将每个字符串分割成单词列表。

可通过vocab.itos或者vocab.stoi来查看数值和字词的映射关系。