Involution Hell
AI 知识库Llm basics

Embedding模型

Embedding(嵌入/向量化) 是一种将离散对象(如词语、句子、图片、用户行为等)映射到连续向量空间的技术。
通过这种表示方式,语义上相近的对象在向量空间中往往距离也更近,从而便于计算和建模。

核心思想

  • 离散 → 连续:将符号化的输入转化为数值向量,便于神经网络处理。
  • 语义保留:向量空间结构能够保留对象之间的语义关系。
  • 可计算性:向量可以进行加法、点积、余弦相似度等运算,实现检索、聚类、分类等功能。

大模型中的应用

  • 词/句子向量:NLP 模型中最常见的表示方式(如 Word2Vec、BERT、GPT)。
  • 多模态表示:将图像、音频、视频等信息映射到相同的向量空间,实现跨模态检索。
  • 检索与推荐:基于向量相似度的语义检索(向量数据库、RAG)、个性化推荐系统。
  • 微调与融合:通过 LoRA、SLERP 等方法优化特定任务的向量表示。

典型方法

  • 早期方法:Word2Vec、GloVe
  • 上下文相关表示:ELMo、BERT
  • 生成式大模型的嵌入:GPT 系列、Qwen Embedding、OpenAI Embedding API

总结

Embedding 是现代机器学习和大模型应用的基础模块。
它不仅连接了离散世界与连续世界,也是语义理解、检索增强生成(RAG)、多模态融合的核心工具。


贡献者