×
中国贵州贵阳数博会 马云来贵阳了

帮助文档

搜索引擎收录定义是什么??

搜索引擎是一种能够通过Internet 接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。它是一些在Web 中主动搜索信息(网页上的单词和特定的描
述内容)并将其自动索引的Web 网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网
页的前二百至五百个单词。当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet 上具有检索功能的网页。
搜索引擎也是目前Internet 对信息资源进行组织的主要方式 。搜索引擎由网上机器人(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索
引 。由于不需要人们的介入 ,速度得以大大的提高。其覆盖面和及时性也得以大大的提高 。Spider 或Robot 是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。它的运行方式为 :从一个或一组RUL 开始,访问该RUL 所指HTML 文件中所有的RUL 锚链,然后再以这些新的RUL 为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL 为止。在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML 格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分 (如关键字和一些指定词等 )存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML 格式文件了 。搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等 。能为用户提供全文索引、约束性检索、基于布尔关系的查询方式 ,并对查询结果根据某种算法和规则评分和排序。引擎系统虽然能在WWW 信息资源范围内自动发现新的信息 ,对其所覆盖的资料进行自动更新 ,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理 ,自动建立索引,并通过检索接口为用户提供信息查询服务 ,根据用户的请求返回相应的结果 ,但是由于系统需将HTML 文件传送至本地然后分析 ,大量占用昂贵的网络带宽和CPU 资源,资源消耗过大,增加被搜索结点的负担 ;又由于链路效率太低,对一些连接代价很大的获得索引 ,难免有不能及时加入的新WWW 地址。此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引 ,有的仅标引网页的标题、RUL、关
键段落的前几个单词或文本的前 100 个词 ,生成关键词的技术也不一样 ,有的支持MetaTags,接受网页制作者自定义关键词和摘要 ,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要 。此外,搜索引擎大多采用自然语言标引和检索 ,没有受控词表,同义词和近义词得不到控制 ,词间的关系得不到揭示 。因此 ,搜索引擎的信息组织与标引缺乏控制 ,信息查询的命中率、准确率、查全率差强人意 ,往往是输入一个检索式 ,得到一大堆网页地址 ,但其中大部分是冗余信息。

                   
酷虎贵州· 版权所有 ©2007-2015 All Rights Reserved 网站模板及程序未经酷虎官方允许禁止复制传播获利   
备案许可编号:沪ICP备14003863号 经营许可编号:310112001090490 组织机钩编号:5712379-7 税务登记编号:310112579123797

  贵阳国家工商局认证 国家备案部认证 安全网 网络公安 酷虎收款方式 信用网站 信用网站