Embedding


Embedding」是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。embedding 向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。

从字面本身计算语义相关性是不够的。

  • 不同字,同义:「快乐」vs.「高兴」
  • 同字,不同义:「上马」vs.「马上」

所以我们需要一种方法,能够有效计算词与词之间的关系,词向量(Word Embedding)应运而生。

word2vec

word2vec2

用一个词上下文窗口表示它自身

word2vec2

词向量的不足

  • 同一个词在不同上下文中语义不同:我从「马上」下来 vs. 我「马上」下来
扩展知识

关于词向量,更多内容参考:

基于整个句子,表示句中每个词,那么同时我们也就表示了整个句子

mlm

所以,句子、篇章都可以向量化

SemanticSearch

Sentence Transformer

sbert

收起

收起

警告:以下代码慎重在服务器上运行,可能会死机!运行大模型需要很高的配置。

收起

扩展知识

关于向量相似度计算,更多内容参考: