文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院
文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院
提纲 1.排序式检索 2.词项频率词项频率 3.tf-idf权重计算 4.向量空间模型
提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型
为什么要排序 Ba6百度新网页贴吧组道查乐凰片地圆文库要多 信息检索 百度一下 信息检索,百度百科 信息检索( Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索 就是信息检索过程的后半音分, 起源定义类型主要环节热点捡索原因 baikebaidu.com/2013-10-09 影影 12345678910下-页>(百度为您到相果0
为什么要排序
排序式检索( Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对web搜索 更是如此 对于刚才的例子,40M的文档,相信大家都不会想去看
5 排序式检索(Ranked retrieval) ▪迄今为止,我们主要关注的是布尔查询 ▪文档要么匹配要么不匹配 ▪对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 ▪对应用开发来说也非常简单,很容易就可以返回1000多条结果 ▪然而对大多数用户来说不方便 ▪大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 ▪大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索 更是如此 ▪对于刚才的例子,40M的文档,相信大家都不会想去看。 5
布尔搜索的不足:结果过少或者过多 布尔查询常常会倒是过少(=0或者过多(>1000的结果 查询1(布尔或操作):[ standard user d|ink650] →200000个结果-太多 查询2(布尔与操作): Istandard user dlink650 no card found] →0个结果-太少 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询
6 布尔搜索的不足: 结果过少或者过多 ▪布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 ▪查询 1 (布尔或操作): [standard user dlink 650] ▪→ 200,000 个结果 – 太多 ▪查询2 (布尔与操作): [standard user dlink 650 no card found] ▪→ 0 个结果 – 太少 ▪在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询 6