028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

【信息检索与数据挖掘期末复习】(五)LanguageModel-创新互联

什么是语言模型?

一个传统的语言生成模型可以用于识别或生成字符串

创新互联公司专注于波密网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供波密营销型网站建设,波密网站制作、波密网页设计、波密网站官网定制、成都微信小程序服务,打造波密网络公司原创品牌,更为您提供波密网站排名全网营销落地服务。

我们可以将有穷自动机看作是一种确定性的语言模型
在这里插入图片描述

基本模型:每一个文档都是通过一个像这样的自动机生成的,只不过这种自动机是有概率的

一种最简单的语言模型等价于一个概率有穷自动机,该自动机仅仅由一个节点组成,它也只有一个生成不同词项的概率分布

eg:
在这里插入图片描述

不同的语言模型(我们将文档看作一个生成查询的语言模型

在这里插入图片描述

可以看到,对于该查询, P ( q u e r y ∣ M d 1 ) < P ( q u e r y ∣ M d 2 ) P(query|M_{d1})< P(query|Md2) P(query∣Md1​)

IR中的语言模型

IR中最早使用也是最基本的语言模型是查询似然模型

查询似然模型

每个文档都被看作一个语言模型(d -> M d M_d Md​)。检索的目标是按照其与查询相关的概率 p ( d ∣ q ) p(d|q) p(d∣q) 进行排序。

在这里插入图片描述

我们按照 p ( d ∣ q ) p(d|q) p(d∣q) 排序,实际上就是按照查询似然 p ( q ∣ d ) p(q|d) p(q∣d) 进行排序

如何计算 p ( q ∣ d ) p(q|d) p(q∣d) 呢?

计算 p ( q ∣ d ) p(q|d) p(q∣d)

等价于多项式朴素贝叶斯模型(基于条件独立假设)

在这里插入图片描述

我们可以将上式转化为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FHdugd5E-1670240021845)(C:\Users\nishiyu\AppData\Roaming\Typora\typora-user-images\image-20211228201737438.png)]

如何得到 p ( t ∣ M d ) p(t|M_d) p(t∣Md​)?

查询生成概率的估计

在大似然估计及一元语言模型假设的情况下

在这里插入图片描述

问题:

解决上述两个问题的方法是平滑

平滑

不仅仅是为了避免零概率,实际上实现了词项权重计算的主要部分

想法:对非零的概率结果进行折扣,对未出现的词的概率赋予一定的值

在一般的参照概率分布中,文档中未出现的查询项都可能在查询中出现,它的概率在某种程度上接近但不可能超过整个文档集中偶然出现的概率。

也就是说,若 t f t , d = 0 tf_{t,d} = 0 tft,d​=0,那么 $\hat{P}\left(t \mid M_{d}\right) \le \frac{\mathrm{cf}_{t}}{T} \$

Jelinek-Mercer 平滑

将基于文档的多项式分布和基于全部文档集估计出的多项式分布相混合,这类模型称为线性插值语言模型

在这里插入图片描述

在这里插入图片描述

上面是对一个词的平滑,对整个查询的平滑就是乘积

在这里插入图片描述

Dirichlet 平滑

在这里插入图片描述

两种平滑的对比向量空间 VS BM25 VS LM

理论基础的对比使用指标的对比长度归一化的对比

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧


新闻名称:【信息检索与数据挖掘期末复习】(五)LanguageModel-创新互联
本文来源:http://www.tsicrk.com/article/dchsij.html

其他资讯

让你的专属顾问为你服务

0.7871s