搜索引擎是用什么技术进行搜索的

作者&投稿:山静 (若有异议请与网页底部的电邮联系)
搜索引擎是一种利用网络什么技术~

随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。下面以网络搜索机器人为例来说明搜索引擎技术。
搜索引擎优化,通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻理解是:通过SEO这样一套基于搜索引擎的营销思路,为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。同时打响品牌,让更多人明白其产品。
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、URL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
机器人从起始URL列表中取出URL并从网上读取其指向的内容;
从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
从文档中提取指向其他文档的URL,并加入到URL列表中;
重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Internet。
量贩式搜索引擎优化是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。

摘自落伍,原文链接: http://www.im286.com/viewthread.php?tid=974156 在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。 一、搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。 全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。 分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、百度、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”( http://www.hao123.com/) 。 全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类柯家揽咳斯な占 驼硗荆 芄惶峁└ 既返牟檠 峁 占 哪谌萑捶浅S邢蕖N 巳〕げ苟蹋 衷诘暮芏嗨阉饕 妫纪 碧峁┱饬嚼嗖檠 话愣匀 乃阉饕 娴牟檠 莆 阉鳌八 型 尽被颉叭 客 尽保 热鏕oogle的全文搜索( http://www.google.com/intl/zh-CN/) ;把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如百度搜索( http://dir.sina.com.cn/) 和雅虎中国搜索( http://cn.search.yahoo.com/dirsrch/) 。 在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类: ⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”( http://www.hsfz.net/fish/) ,它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。 ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”( http://free.okey.net/%7Efree/search1.htm) 。二、搜索引擎的工作原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。 和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目 查看原帖>>

10月28日 19:56 搜索引擎起源于传统的信息全文检索理论。它包括3个主要过程:

1)搜集Web信息:发现、搜集Web上的网页信息。需要有高性能的搜集器自动的在Web中搜索
信息。Web信息搜集器是下载Web上网页的程序。它顺着网页之间的链接移动,自动地下载
所经过的网页。给定起始URL集合S,Web搜集器不停的从S中移除URL,下载相应的网页,解
析出网页中的超链接URL,将未访问过的URL加入集合S。Web搜集器也称作Web机器人或Web
蜘蛛。搜集器把所获得的信息保存下来以备建立索引库,供用户检索。

2)索引库的建立:对搜集到的Web信息提取和组织,建立索引库。这关系到用户能否迅速地
找到准确、广泛的信息。对搜集器抓来的网页信息快速地建立索引,通常采用倒排表技术
。如果在建立索引库的过程中对用户在检索端搜索的查询串进行跟踪,并对查询频率高的
查询串建立Cache,可以在检索端请求时,加快索引库的响应速度。

3)检索端的查询:根据用户输入的查询字串,在索引库中快速检索出文档。采用基于网页
内容分析和基于超链分析相结合的方法进行相关度评价,客观地对检索出的网页进行排序
,从而尽量保证搜索出的结果与用户的查询串相一致。然后将输出的结果返回给用户。为
了加快检索端的响应速度,可以根据最近用户查询信息建立检索端Cache。

针对你的问题:看来你是没有建索引文件,关键词来了现到数据库匹配,当然慢。
索引文件是不需要数据库保存的,利用倒排表建好每个词的索引网页,查询的时候几乎是
一下命中,当然在秒级下完成了。

你真的会使用搜索引擎吗?普通的搜索大家肯定会,但是你如果想更精准的找到你想要的一些内容,那么这些特殊的搜索引擎高级搜索指令你需要掌握




什么是搜索引擎?
搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。

关于搜索引擎的说法不正确的是
搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。二、定义 搜索引擎是指根据一定的策略、运用特...

搜索引擎的本质是什么?它的下一个形态是怎样的?
搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。为了便于用户在数万亿级别...

搜索引擎的作用是什么?
1.爬行:搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。2.抓取存储:搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的...

搜索引擎工作原理
第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链 接,所以称为爬行。第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。第四步:排名,用户...

开发搜索引擎需要具备哪些知识?
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互 联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输 入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜 索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信...

seo手段(seo_seo技术)
SEO又名搜索引擎优化,是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。主要工作原则是,通过了解各类搜索引擎抓取互联网页面、进行索引以及确定其对特定关键词搜索结果排名等技术,来对网页进行相关的优化。seo方法论:1、内容营销离不开内容,做SEO也是一样,要想网站在流量上有大的突破,必...

什么是搜索引擎?作用是什么?
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。比如百度就是一款...

什么是搜索引擎,其工作原理是什么
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。其实,搜索引擎涉及多领域的理论和技术:数字图书馆、数据库、信息检索、信息提取、人工智能、机器学习、自然语言处理、计算机语言学、统计数据分析、数据挖掘、计算机...

什么是磁力搜索引擎?
在众多搜索引擎中,谷歌(Google)被广泛认为是最好用的磁力搜索引擎。谷歌作为全球使用最广泛的搜索引擎,其强大的算法和搜索技术使其成为磁力搜索的首选工具。磁力搜索主要依赖于种子的元数据(如文件名、文件大小、哈希值等)进行搜索,谷歌对于这些元数据的索引和搜索能力都非常出色。首先,谷歌的索引...

金乡县17315051527: 搜索引擎技术的索引技术 -
剑怖萌尔: 索引技术是搜索引擎的核心技术之一.搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术.分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备.索62616964757...

金乡县17315051527: 搜索需要什么技术像百度,GOOGLE这样的搜索网站,它们用的是什
剑怖萌尔: 用的是一种叫网络蜘蛛的技术 更多的资料你可以去搜索一下"网络蜘蛛" 网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在...

金乡县17315051527: 搜索引擎原理是什么?如百度,迅雷,是怎样找到资源的. -
剑怖萌尔: 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库.真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎.当...

金乡县17315051527: 请介绍一下网络搜索引擎技术什么是网络搜索引擎技术?怎么定义?
剑怖萌尔: 你好:关于网络搜索引擎技术,怎么定义: 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务...

金乡县17315051527: WEB搜索引擎一般使用了哪些技术?
剑怖萌尔: 1:搜引功能网站是为了给用户提供搜索功能的门户网站 例如 baidu. yahoo. 163的有道. 搜狗的搜索. 微软的bing 还有我们熟悉的google引擎 这都是门户大型提供搜素功能的网站web网站! 2:但就你而谈到的技术问题是一时我发作出详细的解答...

金乡县17315051527: 网络搜索引擎需要那些技术和做些什么业务? -
剑怖萌尔: 作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度.这其中,搜索引擎已经成了一个重要的且是**的宣传途径.一方面,搜索引擎会主动出击,寻找网络上的各种网页数据...

金乡县17315051527: 百度、Google、网易搜索引擎分别的工作原理? -
剑怖萌尔: 一、什么叫搜索引擎? 在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅.当然你可以为你的存在做广告,...

金乡县17315051527: 如何使用搜索引擎 -
剑怖萌尔: 随着因特网信息按几何式增长,这些搜索引擎利用其内部的一个叫SPIDE(蜘蛛)的程序,自动搜索网站每一页的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询. 现在互联网上大大小小的搜索引擎大约有几百个...

金乡县17315051527: 搜索引擎的步骤是什么?
剑怖萌尔: 搜索引擎的整个工作过程包括三个部分:1、抓取搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自...

金乡县17315051527: 搜索引擎工作原理是什么? -
剑怖萌尔: 搜寻引擎的工作原理包括如下三个过程:一、搜寻引擎的工作过程 爬行和抓取:搜寻引擎蜘蛛通过跟踪连结访问网页,获得页面HTML代码存入资料库.预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网