Tokens 是自然语言处理(NLP)领域中的一个重要概念,指的是将文本拆分成的小单元,这些单元可以是单个的字词、字符,或者是具有特定意义的子词。Tokens的本质是为了让计算机能够更好地处理和理解自然语言。
Tokens的定义和作用
Tokens是语言中的最小处理单元,可以是一个单词、一个子单词、一个字符或一个标点符号。具体的分割方式取决于所使用的分词器(Tokenizer) 。在AI模型中,输入的文本需要被转化为tokens,模型处理这些tokens而不是原始文本,这样可以更高效地进行计算。
Tokens在大型语言模型(LLM)中的应用
在大型语言模型中,Tokens用于分解文本。例如,GPT-4的token限制为8k或32k,具体取决于版本。大型语言模型根据token的数量来确定处理成本和响应的复杂度,一些API或服务按使用的token数量计费(输入+输出的总token数量)。
Tokens的换算比例
中文字符:通常情况下,1个中文字符大致相当于1个Token,因为中文字本身具有独立的语义。
英文字符:平均下来,大约3-4个英文字符相当于1个Token,因为一个单独的英文字母并不直接等同于一个Token,通常以单词或子词为单位进行划分。
标点符号:标点符号的Token化规则因模型而异,有些模型可能将标点符号视为独立的Token。