`
mmdev
  • 浏览: 12954707 次
  • 性别: Icon_minigender_1
  • 来自: 大连
文章分类
社区版块
存档分类
最新评论

《信息检索导论》第一章总结

 
阅读更多


一、信息检索概念


信息检索是从大量非结构化的文档集中找到用户需要的信息;

当然信息检索远不止这些,比如从包中拿出信用卡并查看卡号,在计算机中查找文件等;

非结构化:数据没有清晰的语义结构,计算机不容易处理;

严格的非结构化数据是不存在的,比如文本虽然属于非结构化,但是文本也有固定的格式,如标题等;

半结构化数据:处在结构化和非结构化之中的信息;

分类:给定类别,将文档进行指派给特定的类别;一般都是有训练集和测试集;

聚类:将给定的文档集进行自动聚团并分开,即预先不指定类别;

grep是Unix中查询的命令;

语料库(corpus)=Collection;

ad-hoc检索:文档集相对静止,用户需求不断变化且是一次性的,输入请求,返回相关文档;

一般的信息检索系统都属于ad-hoc检索;

信息需求:用户原始查询,比如I want a apple and a banana;

查询:通过tokenization等预处理后输入系统的语句,比如want apple banana;

比如原本信息需求是I have a Apple,Banana;查询为 Apple AND Banana;

评价信息检索系统指标

正确率:f11/(f10+f11);

召回率:f11(f01+f11);


二、布尔检索模型


布尔检索模型简单的说就是把文档看成是词的集合,而考虑词在特定文档中是否出现,而不考虑出现次数;

最平常的信息检索方式是扫描文档集;

但是因为要应对很多问题,比如临近查询等,就需要预先构造索引;

词项-文档矩阵:纵坐标表示词项,横坐标表示文档,能够进行boolean查询;

但是有一个缺点就是空间消耗太大,因为此矩阵是稀疏的;


三、倒排索引


由dictionary和posting组成,一般dictionary放在内存中,而posting放在磁盘中;

在词典中可以加入额外信息比如文档频率即posting的长度以方便后续操作(比如AND);

可以对词典进行压缩,使得尽可能多的词典放入内存;

posting的数据结构:

1.单链表:适用于更新频繁的posting,需要更多的空间;

2.变长数组:适用于更新不频繁的posting,因为连续存储,因此能够加快遍历;


四、布尔查询与运算


类似于A AND B的布尔查询,可以通过复杂度为O(x+y)的合并算法;

对于A AND B AND C这类多个连续布尔查询,则可以通过查询优化进行合并;

查询优化方法:每次都取长度最小的两个posting合并;

比如A 的长度为10,B的长度为20,C的长度为15,则可以先取A和C合并后的中间结果再和B合并;

注意:在多个连续布尔查询时一般中间结果放在内存中,而其余的放在磁盘中;

这种方法不一定是最好的,但是大部分情况下是最好的;

对于(A OR B)AND (C OR D) AND (E OR F),启发式的查询优化方法如下:

因为OR可以理解为加法操作,因此A OR B的估计长度为len(A+B);因此我们可以先从(A OR B)、(C OR D)、(E OR F)中抽出长度最短的两个进行AND操作;

处理A AND NOT B查询:

(1)初始办法:先算NOT B生成一个新的posting(O(N)),再和A合并(O(A+len));

(2)高效办法:类似于A AND B的做法,移动指针来判断,只需要O(A+B),需要考虑当B指针移到最后而A还没有移到最后的情况;

如果B是一个高频词,则先算NOT B,因为NOT B可以使posting变小;

如果B是一个低频词,则用(2)的方法算更快;

对于A OR B查询,复杂度O(x+y);

对于A OR NOT B查询,复杂度为O(N);

布尔查询的缺点:

1.对于AND操作,召回率太低;

2.对于OR操作,正确率太低;


补充


1.WestLaw查询

1.空格表示“或”而不是“与”,&表示与;

2./s表示在一句句子,/p表示一个段落,/k表示k个词内;

3.!表示通配符查询;

2.memex介绍

来自Bush于1945年的论文,一种能够存储个人档案、笔记、书等资料的设备,用户能够方便查阅资料;

分享到:
评论

相关推荐

    信息检索导论王斌译第一章课后习题答案

    信息检索导论王斌译第一章课后习题答案

    信息检索导论_王斌译_课后习题答案

    现代信息检索导论_王斌译_课后习题答案

    《信息检索导论》课后习题答案1

    第一章布尔检索习题 1-2考虑如下几篇文档:文档 1breakthrough drug for schizophrenia文档 2new schizophren

    云计算导论-第2章.pptx

    2.1.1云计算架构的产生的背景 IT是信息技术技术行业的统称,其内涵包括三个层次: 第一层是硬件,主要指数据存储、处理和传输的主机和网络通信设备。 第二层是指软件,包括可用来搜集、存储、检索、分析、应用、...

    中科院现代信息检索课程布置作业及答案(1-15章)

    中国科学院大学 王斌老师 信息检索课程的作业 第一至第十五章的内容 不包含全部课后习题 请结合信息检索导论书本

    信息检索系统期末整理_wl1

    第一章导论1信息检索1数据、信息、情报检索1简史1信息检索理论2信息处理与组织2信息检索技术与方法2信息可视化2信息检索系统分类3信息检索的未来趋势3第二章信息

    布尔检索.ppt

    NLP自然语言处理基础知识补充,《信息检索导论》第一章内容读书笔记。不知道为什么要五个C币才能下载,这个文件的价值没有这么高,需要的可以联系我免费发送。

    MATLAB有限元与谱元法导论 英文原版第2版

    第8章讨论了三维问题中谱元法的应用,这章是对第3,5章中谱元法的拓展和推广,全面阐述了谱元法的一般原理和方法,尤其值得一提的是,附录将书中使用到的基础数学知识进行了汇总和概括,方便读者检索查阅。

    数据库系统导论(第七版)

    第一部分 基础知识 第1章 数据库管理概述 1 1.1 引言 1 1.2 什么是数据库系统 3 1.3 什么是数据库 6 1.4 为什么用数据库 10 1.5 数据独立性 12 1.6 关系系统及其他 15 1.7 小结 17 练习 17 参考文献和简介 19 部分...

    基于纹理特征的图像检索系统

    [1]章毓晋,基于内容的视觉信息检索.北京科学出版社 [2]吴健康.数字图像分析.人民邮电出版社 [3]赵荣椿.数字图象处理导论.西北工业大学出版社 [4]吕维雪,医学图象处理.上海高等教育出版社 [5]程兵,王莹,...

    第七章 一个完整搜索系统中的评分计算

    Introduction to Information__ Retrieval.pdf信息检索导论_引擎学习-课件信息检索 7.1 快速评分及排序 7.2 信息检索系统的组成 7.3 向量空间评分方法及各种查询操作符的关联

    数据库系统导论(第7版) part 1

    第一部分 基础知识 第1章 数据库管理概述 1 1.1 引言 1 1.2 什么是数据库系统 3 1.3 什么是数据库 6 1.4 为什么用数据库 10 1.5 数据独立性 12 1.6 关系系统及其他 15 1.7 小结 17 练习 17 参考文献和简介 19 部分...

    数据库系统导论(第7版) part 2

    第一部分 基础知识 第1章 数据库管理概述 1 1.1 引言 1 1.2 什么是数据库系统 3 1.3 什么是数据库 6 1.4 为什么用数据库 10 1.5 数据独立性 12 1.6 关系系统及其他 15 1.7 小结 17 练习 17 参考文献和简介 19 部分...

    Stanford NLP note - Christopher Manning教授-完整吧

    授课老师是大名鼎鼎的Christopher Manning教授,他是两本书的第一作者:一本是《统计自然语言处理基础》(Foundations of Statistical Natural Language Processing),另一本是《信息检索导论》(Introduction to ...

    离散数学及其应用(第6版-本科教学版)

    出版者的话改编者序译者序前言第1章 基础:逻辑和证明1.1 命题逻辑1.1.1 引言1.1.2 命题1.1.3 条件语句1.1.4 复合命题的真值表1.1.5 逻辑运算符的优先级1.1.6 翻译语句1.1.7 系统规范说明1.1.8 布尔检索1.1.9 逻辑...

Global site tag (gtag.js) - Google Analytics