当前位置:首页 >> 其它课程 >>

1.3


因特网信息资源 检索

3.1搜索引擎的作用
搜索引擎是一种用于帮助因特网用户查 询信息的搜索工具,它以一定的策略在 因特网中搜集、发现信息,对信息进行 理解、提取、组织和处理,并为用户提 供检索服务,从而起到信息导航目的。

?http://cn.yahoo.com/ ?http://www.google.com/ ?http://www.sohu.com/ ?http://www.baidu.com/ ?http://www.163.com/ ?http://www.sina.com.cn/

搜索引擎的历史
? 最早的搜索引擎出现于94年,超级

目录索引雅虎。

搜索引擎的分类
?

用于因特网信息查找的网络工具

全文搜索引擎
目录索引类搜索引擎 元搜索引擎 特色信息检索工具 其他信息检索工具

目录索引类与全文搜索引擎
类型
目 录 索 引 类 搜 索 搜狐、新浪、网易、雅虎

举例

www.sohu.com
全 文 搜 索

www.baidu.com

www.google.com

元搜索引擎
元搜索引擎,就是通过一个统一的用户界面帮助用 户在多个搜索引擎中选择和利用合适的(甚至是同时 利用若干个)搜索引擎来实现检索操作。

元搜索引擎在搜索的时候,用户只需提 交一次搜索请求,而且可以同时搜索多个数 据库,并根据多个搜索引擎的检索结果进行 二次加工,如对检索结果进行重排和标明检 索结果来源等,输出给用户,但速度较慢

360综合搜索

特色信息检索工具
?

这类检索工具专门收集某一类的信息资源。 (有时是综合信息检索工具中的一个功能)

特色信息检索工具
?

地图检索

其他信息检索工具
?

以FTP、Telnet、Usenet等资源为检索对象。

Archie
Archie是第一个自动索引因特网上匿名FTP 网站文件的程序,当时因特网还未出现, 但网络中文件的传输频繁,由于大量文件 散布在各个分散的FTP主机中,查询起来非 常不便。
1990年McGill University的学生Alan Emtage 等想到了开发一个可以用文件名查找文件 的系统,于是便有了Archie。

因特网信息检索发展趋势
?

1,多媒体信息检索 在多媒体数据库中,除了传统的文字 和数字外,还包括图形、图像、视频、音 频、动画以及以上各种媒体的组合。但多 媒体信息具有丰富的内涵,如:图象的颜 色、纹理、形状,动画中的运动、声音和 音调等。例如歌曲的旋律、音调、音质等 难以用文字描述。这正是基于内容的音频 检索需要研究和解决的问题,以期达到更 深的检索层次和更好的检索效果。

因特网信息检索发展趋势
,2,专业垂直搜索引擎 专业垂直搜索引擎是只面向某一特定领 域,专注于自己的特长和核心技术,能够保 证对该领域信息的完全收录与及时更新。

信息检索工具的工作原理
?

全文搜索引擎的工作原理
购物 查找信息 描述商品特征 信息的关键词 取货 数据库中检索 交给顾客 结果呈现

搜索引擎是如何搜索信息的呢? 你听说过“网络机器人”、“爬虫”、“蜘蛛”吗? 他们只是搜索引擎的一个部分,叫“搜索器”

全文搜索引擎组成
组成部分 搜索器 负责工作 负责定期地自动到各个网站上,把网页抓下来,并顺着上面 的链接,持续不断地抓取网页 把搜索器抓来的网页进行分析,按照关键词句进行索引,并 存入服务器的数据库中 面向用户,接收用户提交的查询字串,在索引数据库中查询, 并将结果反馈给用户

索引器

检索器

搜索引擎的工作过程
? ?

?

一,搜索器在因特网中发现,搜集网页信息。 二,索引器对搜集到的信息进行提取和组织,并建 立索引库。 三,检索器根据用户输入的查询关键词,在索引库 中检索出相关信息,并将检索结果返回给用户。

信息检索工具的工作原理
?

搜索引擎的工作过程
用户查询 查询结果
输入查询表达式 检索器 筛选 索引 索引 数据库 索引器 采集结果 信息采集 搜索器 排序 查询结果显示 查询信息排序

信息检索工具的工作原理
?

目录索引类搜索引擎的工作原理 一般采用人工方式采集和存储网络信息, 依靠手工为每个网站确定一个标题,并给出 大概的描述,建立关键字索引,将其放入相 应的类目体系中。
目录索引类搜索引擎一般为一条链状组成 树型结构:

总目录

专题目录

链接

网站

目录索引类搜索引擎最大的特点:
就是在查询信息时,事先可以没有特定 的信息检索目标(关键词),通过浏览主题 了解某一主题的相关资源。

目录索引类搜索引擎最大的缺点:
分类具有主观性,花费时间多,更新速度 慢。

全文搜索引擎
信息量大,就是返回的信息往往太多,太 滥,可能有很多无关信息,我们必须从结 果中筛选。 目录索引类搜索引擎

比较适合希望了解某一主题范围内信息的 用户。缺点是搜索范围比全文搜索引擎的 范围要小的多。

利用因特网进行资源检索的一般策略
?

?

?

?

如果想大致了解某一个领域的信息资源: 目录索引类搜索引擎 如果对需要检索的信息资源目标比较明确: 根据信息资源的类型选择搜索工具 如果检索的内容专业性较强: 专业搜索引擎 如果想全面了解网上信息资源: 元搜索引擎

选择题
?

? ?

1.目录索引类搜索引擎一般采用什么方式采集和存 储信息( A )。 A.人工方式 B.蜘蛛程序 C.关键字检索 D.检索工具

? ?

2.最早的FTP搜索引擎是基于文本显示的( C )。 A.Google B.Baidu C.Archie D.天网搜索

3.下列不属于搜索引擎中“搜索器”工作程序的是 ( D )。 ? A.网络机器人 B.蜘蛛 ? C.爬虫 D.CuteFTP
? ? ? ? ?

4.下列不属于元搜索引擎特点的是( A )。 A.搜索时,用户必须多次提交搜索请求 B.可同时搜索多个数据库 C.一般支持AND、OR、NOT等操作 D.一般只使用简单、直接的搜索策略

判断题
? ? ?

?

1.常用的两种搜索引擎是目录类搜索引擎和元搜索 引擎。( × ) 2.为了适应不同搜索群体的需要,许多搜索引擎一 般都提供多语种检索功能。( √ ) 3 .通过专业搜索引擎获得的信息资源一般来说比较 权威。( √ ) 4.元搜索引擎的搜索范围可以是多个搜索引擎的数 据库,而不局限于某一搜索引擎的数据库内。 ( √ )

判断题
?

?

?

5.元搜索引擎通常只使用高级、间接的搜索策略, 检索速度快。( × ) 6.垂直搜索引擎只面向某一特定的领域,专注于自 己的特长和核心技术,能够保证对该领域信息的完 全收录和及时更新。( √ ) 7.网页快照是搜索引擎把索引的网页缓存在服务器 中,这样即使链接死了,用户也可以从搜索服务器 中取出这个被存储的“快照网页”。( √ )

结语
? 真正的高手不是拥有很多的检索工具知

识,也不是知道最多的检索技巧,而是 那些能够根据不同查询要求,综合并灵 活使用各种检索工具,同时对所要检索 的内容有一定了解的人。


相关文章:
14.1.1-14.1.3 练习题
14.1.1-14.1.3 练习题_初二数学_数学_初中教育_教育专区。14.1.1 一、选择题 1.计算 6 x 3 ? x 2 的结果是( A. 6 x B. 6 x 5 ) 同底数...
1,3,3,-1,15,( ) A.175 B.215 C.255 D.295 _答案_百度高考
1,3,3,-1,15,( ) A.175 B.215 C.255 D.295 正确答案及相关解析 正确答案 C 解析 [解析] 从第三项起,(第项-第二项)2-1=第三项,以此类推,...
1,1,3,15,323,( ) A.114241B.114243C.114246D.2_答案_百度高考
规律是:相邻两项之和的平方,再减去1,等于第三项。即:(1+1)2-1=3,(1+3)2-1=15,(3+15)2-1=323,因此,( )=(15+323)2-1=114243,最后项采用尾数...
1,3,5-三硝基苯
1、物质的理化常数 CA 国标编号: 11054 S: 中文名称: 1,3,5-硝基苯 1,3,5-trinitrobenzene(dry or wetted with less 英文名称: than 30% water,by ...
1~3章习题解答
1~3章习题解答_经济学_高等教育_教育专区。第 1~3 章作业习题解答 1-1/0-1 液压千斤顶如图所示。 千斤顶的 小活塞直径为 15mm,行程 10mm,大活 塞直径为 ...
有理数测试(1.1--1.3)
? 3 ,0,+(-7) ,,-a(a 是有理数),其中一定是负数的有( A.1 个 B.2 个 C.3 个 D.4 个 2. 在有理数中,有( )A.绝对值最大的数 B.绝对...
2017 1—3时事政治
2017 年 1 月—3 月时事政治国内部分: 1、新年前夕,国家主席习近平通过中国国际广播电台、中央人民广播电台、中央电视台、 中国国际电视台和互联网,发表二〇...
英语1-3
英语1-3_高等教育_教育专区。《英语 1》第 3 次作业 说明:本次作业的知识点为:5--6,总分为 60 分,您的得分为 60 分 A 型题: 请从备选答案中选取...
1.3二项式定理 教案
1.3二项式定理 教案。二项式定理 教学目标 行简 单应用; 教学重点、难点:二项式定理的内容及归纳过程;发现各项及各项系数的规律。 理解二项式定理及推导方法,二项展...
c++1-3答案
练习1 计算机与程序设计基础知识【内容简介】 1.了解计算机的硬件组成及工作原理。 2.了解计算机的软件组成及与硬件的关系。 3.了解程序设计的基本概念 1.1 选择...
更多相关标签: