在信息时代,学习与思考的客观阻碍已经不复存在。这是一个最好的时代。
Quick Review of Building a LLM
准备
![[Pasted image 20250222165920.png]]
嵌入 Embeddings
嵌入是将离散数据转换为连续向量空间中的数值表示。这些向量能够捕捉语义信息,使语义相近的词在向量空间中也更接近。
![[Pasted image 20250222165628.png]]
在高维空间中,嵌入向量之间的几何关系(如距离、角度)反映了语义关系。
Tokenizer
在 tokenize 过后,通过 embedding layers 将 tokens 转换为 token IDs
![[Pasted image 20250222170644.png]]
BytePair encoding
GPT-2 使用 BytePair encoding (BPE) 作为 tokenizer。BPE是一种子词分词算法,可以将不存在于predefined vocabulary的单词(如罕见词汇,拼写错误)分解成小的subword units。