分词算法 - 华诚网

分词算法

【tokenization分词算法及源码】 Byte Pair Encoding（BPE）算法将单词分割为每个字母，统计相邻字母的频率，将出现频率最高的组合替换为新的token，以此进行分词。实现过程中先预处理所有单词，从最长到最短的token进行迭代，尝试替换单词中的子字符串为token，并保存每个单词的tok...

tokenization分词算法及源码

xiaohua 2025-01-19分词算法 token tok

Byte Pair Encoding（BPE）算法将单词分割为每个字母，统计相邻字母的频率，将出现频率最高的组合替换为新的token，以此进行分词。实现过程中先预处理所有单词，从最长到最短的token进行迭代，尝试替换单词中的子字符串为token，并保存每个单词的tokenize结果。对于文本中未见的单词，使用“unk”标记。

Byte-level BPE方法将每个词视为unicode的字节，初始词典大小为256，然后进行合并。它适用于GPT2模型。

WordPiece算法与BPE类似，但采用最高频率的单词对替换为概率最高的单词对，以增加最大概率增量。它被用于BERT模型。

ULM（Unigram Language Model）SentencePiece算法结合了BPE和ULM子词算法，支持字节级和字符级，对unicode进行规范化处理。

核心代码中包含子词采样策略，即在分词时随机选择最佳的分词方案，以增加泛化性和扩展性。使用了subword regularization，适用于llama、albert、xlnet、t5等模型。

详细资料可参考《大语言模型之十 SentencePiece》一文，原文发布在towardsdatascience.com。

继续阅读：tokenization分词算法及源码