急急急~网络信息检索方法与应用 论文

作者&投稿:阴晓 (若有异议请与网页底部的电邮联系)
急急~~~ 论文信息检索策略研究~

该文包括引言、第1-4章共五个部分.引言部分阐述了网络医学信息检索策略的研究背景和理由,提出从用户角度研究网络医学信息检索策略的必要性 和重要性.第1章围绕网络医学信息检索策略这一核心问题,从医学搜索引擎检索语言、医学搜索引擎分类、医学搜索引擎检索规则、医学搜索引擎性能比 较与评价、网络医学信息检索策略构建等五个方面对目前网络医学信息检索所取得的理论与实践研究成果进行综述,从静态角度对网络医学信息检索策略 问题进行探讨.第2章依托网络医学信息检索理论,从影响网络医学信息检索效率的人文因素研究这一薄弱环节入手,以医学用户为调查对象,以检索策略的 制定与检索结果的反馈调节为研究内容,自行设计"网络医学信息资源检索策略用户调查表",在四个单位10个场所共分发调查表183份,回收调查表180份 ,其中有效问卷145份.采用定性和定量相结合的方法,对145名临床医务工作者、医学生、医学科研人员关于网络医学信息资源检索策略问题16个方面的征 询结果进行统计与分析,对医学用户网络信息检索特征及规律、校园网用户和非校园用户检索行为差异有了一系列的研究发现.第3部分在问卷调查的基础 上针对临床医生检索策略构建能力进一步展开实证分析.研究分两个阶段进行:鉴于网络医学用户年轻化特征突出,第一阶段以临床住院医生为实验对象 ,设计具体的检索测试问题和实证访问卷,收集与检索策略构建能力有关的5个方面的资料,通过考察、分析实验对象构建检索策略的思维活动,了解他们对 信息检索方法的实际掌握程度,并对其全面获取证据的能力进行初步评估.第二阶段开展对比研究,比较实验对象之间、实验对象与医学信息检索专家之间 在制定检索方案时的思维活动差异,对造成检索结果差异的原因进行了剖析.研究表明不同的信息认知能力将导致不同的信息检索行为,从而产生不同的信 息利用结果.作者就如何全面获取证据提出了参考建议,同时结合检索经验,初步摸索出一套针对性的医学专业搜索引擎选择策略及其查询模式.第4章对第 2章与第3章的研究结果进行回顾,发现实证分析进一步验证与澄清了第2章中的相关调查结果.作者认为用户信息认知行为的研究应该受到关注,技术因素 与人文因素相结合,既是全面解决医学信息资源管理与利用问题的指导思想,也是未来的研究趋势.针对调查方法、分析手段的不足和局限,作者指出网络 医学信息检索策略研究的结果只是初步、探索性的,鉴于网络医学信息检索策略目前尚缺乏系统的理论指导框架,提出引进循证医学的相关思想与方法,进 一步完善、优化网络医学信息检索策略构建指南. 4.期刊论文 潘萍.PAN Ping 基于网络环境的信息检索策略 -现代电子技术2007,30(4) 网络信息资源的检索和利用已经成为人们获取信息的主要方式,但要迅速、准确地获取所需要的信息,必须掌握一定的网络检索技术和检索策略.主要 阐述了网络环境下影响信息检索的两个主要因素和采取相应的检索方法和策略以更快、更准确地检索需要的信息. 5.期刊论文 KANG Yan-xing 引文检索策略的探讨 -情报科学2005,23(8) 引文检索是一种比较复杂的信息检索,在具体的引文检索中,如何制定优良的检索策略是一个关系到能否获得满意检索结果的核心问题.本文就引文检 索的实际工作中所触及到的一些常见的典型问题提出了若干探讨性的意见. 6.期刊论文 刘肖静 网络信息资源的收集与利用--检索策略和技巧 -现代情报2004,24(11) 文中针对当前网上信息检索的困难,通过介绍网络检索工具的性能,提出合理的检索策略,并列举了一些设置关键词的技巧. 7.期刊论文 张冬梅 浅议网络环境下的信息检索 -网络财富2009,""(22) 本文论述了信息检索的含义、特点和策略.阐明了如何利用网络快速而准确地获得有效信息资源. 8.期刊论文 燕慧泉 手工检索与计算机信息检索在检索策略之拟定和优化方面的分析比较 -现代情报2003,23(12) 本文通过手工检索和计算机检索在检索策略的制定及执行方面进行比较,指出了两者在策略的拟定和优化方面的区别. 9.期刊论文 王征清.成全.Wang Zhengqing.Cheng Quan 信息检索策略研究 -情报探索2007,""(4) 分析影响信息检索效率的要素,并从各个要素层面提出了相应的信息检索策略,以期指导用户的信息检索行为. 10.学位论文 吴清锋 基于内容的中草药植物图像检索关键技术研究 2007 论文工作针对基于内容的中草药植物图像检索问题,在系统分析已有关键技术及发展趋势基础上,对中草药植物叶子图像的领域特征提取、层次化 检索策略、基于显著轮廓曲线的图像检索、基于视觉注意的花卉图像检索等问题进行了系统、深入和较为全面的研究。这些研究内容不但是基于内容的 中草药植物图像检索亟待解决的关键问题,也是图像处理和信息检索领域的研究重点,具有重要的理论意义和实际应用价值。论文的主要工作和贡献如 下: (1)对基于内容图像检索领域的一些关键技术作了深入的研究分析,包括:颜色、形状、纹理等常用的图像底层视觉特征和高层语义特征的描述,图 像相似性度量准则,图像数据库特征索引,检索系统性能评价,相关反馈等;并对基于内容图像检索领域的主要研究方向进行了阐述;最后还给出了部 分原型系统的比较分析结果。 (2)叶子作为植物的重要器官,它的识别与分类在整株植物的识别与分类过程中占有重要的地位。使用颜色、纹理、形状等通用的视觉特征并不能取 得很好的检索效果,因此论文从植物形态学角度,分析并提取了中草药植物叶片的叶形、叶脉、叶齿等领域视觉特征,并且将所提取的特征归类为全局 特征和局部特征,在此基础上,构建了一个层次化检索策略,并进行了实验分析。实验表明:应用领域特征的检索较传统的检索更有效,并且,层次化 检索策略在提高系统检索速度的同时,又保证具有较高的检索精度。 (3)非标准环境下采集到的中草药植物叶子图像,一般具有复杂的背景,遮挡现象普遍存在,这都极大地影响着检索的效果。受到神经心理学中形状 感知研究的启发,我们将非经典感受野抑制机制引入到图像边缘检测中,保留图像中叶子的轮廓,同时抑制复杂背景中的短小边缘,并且使用获取的轮 廓曲线的特征来代表图像的形状特征。然后采用“综合多对多”的匹配策略来度量图像间的相似性,取得了良好的匹配效果。 (4)一般情况下,非标准环境下采集到的中草药植物花卉图像,花卉区域具有比背景更加突出的特征属性。利用人类视觉选择性注意机制研究的成果 ,首先对图像进行分析,综合视觉注意模型和传统的区域生长法,来定义和获取用户感兴趣的区域,然后采用一种新的“一对一”的匹配策略来度量图 像间的相似性,解决了图像的注意性匹配问题。实验证明:上述方法简单有效,降低了信息处理的计算量,提高了系统的效率。 总之,我们在基于内容的中草药植物图像检索方面,首次运用比较先进的图像匹配与检索方法与技术,对中草药图谱检索问题做了有开拓性意义的 研究工作,特别是提出的“植物叶子图像的领域特征提取与层次化检索"、“图像显著轮廓提取与综合轮廓匹配”、“基于视觉注意的感兴趣区域提取与 花卉图像检索”等具体方法,对于推动中草药植物图像自动检索研究领域的技术发展,有着重要的学术价值和具体的应用意义。 引证文献(2条) 1.田质兵.谈春梅 科技电子资源检索的探讨[期刊论文]-大学图书情报学刊 2003(2) 2.董建成 网上医学信息检索策略初探[期刊论文]-中华医学图书情报杂志

还是把自己的心的体会写一些就好 从网上下不太好吧

我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。

好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
!2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁’时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[’“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔’3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词

……………………………………
太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

我给你找了一篇,摘要如下:
随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括六个部分,
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。
第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。
第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...
第四部分分析讨论了检索技术的另一分支—基于内容的检索技术
第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。

好不容易给转成 .txt文本,贴在下面:
1.1网络信息资源
网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。
随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作
为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉
及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文
本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学
和工程技术等各个领域。
1.2信息检索技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信
息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的
过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索
仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所
需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如
烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原
文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供
目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法
来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索
到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息
的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比
较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文
档库中精确定位所需信息的最有效手段l3]。
.3.2web信息检索
其检索方式有:浏览器方式和搜索引擎方式。
(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏
览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提
供的检索方式访问数据库。
(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检
索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信
息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提
供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在
数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从
而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务
器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满
足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。
网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。
1.4网络信息检索效果评价
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查
准率、收录范围、输出格式,其中以查全率和查准率最为重要。
现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法
及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”
模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;
“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,
如查询数据库。
2.2.1信息推送技术
“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信
息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术
之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具
有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用
网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器
之间透明地进行通信,极大地方便了用户。
所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质
上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生
兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技
术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息
服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的
某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,
然后按照每个用户的特定要求,主动推送给用户141。
(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。
网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,
它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣
的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,
如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送
信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专
门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。
智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息
推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动
信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由
ll硕士学位论文
MASTER,5THESIS⑧
数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生
变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器
启动信息推送过程。
(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效
性·灵活性和综合性I5]。
主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将
数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。
这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。
针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求
进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索
界面。
智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定
期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自
动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主
题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要
的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网
络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务
(SDI)不能比的。
高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push
技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据
量的多媒体信息。
灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连
接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。
综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且
还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。
但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不
能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研
究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继
承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之
,2硕士学位论文
MASTER,5THESIS管
后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所
有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资
料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当
等等[刀。
2.2.2信息拉取技术
常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,
从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求
有目的地去查询、搜索所需的信息。
Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网
络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因
此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合
起来,常用的结合方式为:
(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针
对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而
动态地选取需要深入了解的信息。
(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针
对性地推送相关的其它信息。
(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感
兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。
(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键
词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用
户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。
因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信
息系统为用户提供主动信息服务的一个发展方向。
2.3Web挖掘技术
随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet
给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文
MASTER,5THESIS⑧
类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解
决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量
与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在
这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是
由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技
术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘
作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。
2.3,1姗eb挖掘的内容
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其
中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文
件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识
发现的手段,它主要从下面3个方面进行仁时。
(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web
资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web
数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、
声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML
标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信
息挖掘主要从下面两个角度进行〔”]。
一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这
些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,
用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,
然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、
概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,
可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同
处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文
档内部超链结构,使得表示半结构化数据的方法更加丰富。
二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接
14⑧蕊誉蕊
文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,
应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web
站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数
据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使
其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装
程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研
究web上的查询语言来实现建立并维护web站点的途径[“]。
(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从
文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,
W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个
个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以
用于寻找相似的网站。
W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述
网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结
构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映
了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b
页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web
页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出
与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展
示的信息完整程度。
③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日
志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的
数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、
检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、
分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,
它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务
器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的
页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息
l5硕士学位论文
MASTER,5THESIS⑥
挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映
射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为
了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、
模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和
页面内容信息等方面。
2.3.2web挖掘技术在网络信息检索中的应用
(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述
中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,
因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分
进行进一步的完善,具体而言表现在以下几个方面。
①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简
洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信
息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。
②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题
类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息
检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很
多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几
乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,
通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。
③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是
将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能
大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类
技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的
信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,
文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果
进行分类,并将相似的结果集中在一起。
(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一
种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但
是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信
16硕士学位论文
MASTER,S竹正515⑧
息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘
中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的
检索能力,改善检索效果〔3]。
(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘
总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究
内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而
且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜
索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
2.3.3web挖掘技术的局限及方向
(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,
都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、
实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标
引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进
行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。
通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查
全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数
据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。
(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰
富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理
的需要,需要设计新的数据结构来表示网站结构。
由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对
用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用
的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要
研究方向之一。
(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、
代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和
客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如
何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期
间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代
l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个
图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容
时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。
另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来
的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。
2.4信息过滤技术
hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同
时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第
一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背
景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审
定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目
前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种
网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供
给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有
包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能
力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现
象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让
搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到
用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,
帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
2.4.1信息过滤模型
信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模
型,不同的检索模型有不同的过滤方法。51。
(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索
中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据
进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括
关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

网络信息检索方法与应用
这个原创。
联系看我资料


急急急~网络信息检索方法与应用 论文
第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺...

求淘师湾信息作业高一全部的答案 急急急
网络信息检索4-3 1-5、BBBAD 文本信息加工9-2 1-5、CDABC 文本信息加工9-3 1-3、DCD 文本信息加工9-4 1-3、BAD 信息的编码8-1 1-5、CACDD 信息的编码8-2 1-4、BCAD 信息的编码8-3 1-4、BBCC 信息的编程加工6-1 1-5、DADDC 信息的编程加工6-2 1...

如何利用网络进行科技文献的检索?
1、简述常用的信息检索方法。 常用的信息检索方法有:常规检索法、回溯检索法、循环检索法。常规检索法是指根据信息需求从时间上对所找内容给以限定检索的方法。常规检索法又彩为常用检索法、工具检索法,它是以主题、分类、作者等为检索点,利用检索工具获得信息贸源的方法。可以分为顺查法、倒查法和抽...

信息检索的一些概念急求
1、文献信息检索,又叫做信息检索,有广义和狭义之分,广义的信息检索是将信息按照一定的方式组织并存储在数据库中,用户根据需要,利用检索工具按照一定的方式从数据库中查找所需的信息的过程。狭义的信息检索指信息查找的部分。2、检索点:(access point)用以排列与存取文献信息或记录的数据单元。包括题...

联机检索与网络检索的不同之处: A检索实质 B逻辑组织 C逻辑组配手段 D...
网络信息检索与联机信息检索最根本的不同在于网络信息检索是基于客户机\/服务器的网络支撑环境的,客户机和服务器是同等关系,而联机检索系统的主机和用户终端是主从关系。在客户机\/服务器模式下,一个服务器可以被多个客户访问,一个客户也可以访问多个服务器。因特网就是该系统的典型,网上的主机既可以...

急求信息检索的知识
1、信息是客观事物状态和运动特征的一种普遍形式,经过一定的加工之后就成了知识。情报是有用的信息。他们之间的关系,在我个人看来信息包括知识和情报,知识和情报属于同级关系,他们之间存在相同区域。2、按照检索手段来分:信息检索可以分为手工检索和计算机检索,按照检索内容来分,可以分为事实检索、...

怎样通过电脑网络的检索来了解有关研究的历
1 目前网络信息检索中存在的问题 网络信息资源具有数量大,增长快,形式多样,分布广泛等特点,在给网络信息检索带来强大功能的同时,也由于网络信息没有统一的组织管理,没有统一的目录,使得人们虽然面对丰富的资源,却难以找到自己所需的、恰当的信息。1.1 网络信息泛滥且网站质量良莠不齐 由于任何组织...

造成互联网上信息检索困难的相关因素有哪些?
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。 主要技术:一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息...

现代信息检索服务系统有哪些类型?各自的特点是什么?举例说明
网络信息检索系统是由计算机服务器,用户终端、通讯网络、网络数据库等组成,其特点是检索方法简单、检索灵活方便、及时性好,检索费用和速度低于联机检索系统。通过网络接口软件,用户可以在任何一个终端查询各地网络上的信息资源。网络检索实际上是更加广泛的联机信息检索系统。1.DIALOG系统概述 美国Dialog系统是目前世界上规模...

信息检索
17.计算机检索发展经过哪几个阶段:(1)脱机信息检索的阶段 (2)联机信息检索的阶段 (3)国际联机信息检索的阶段 (4)光盘信息检索的阶段 (5)网络信息检索的新阶段 17. 计算机信息检索的类型 (1) 脱机检索系统 (2) 联机检索系统 (3) 光盘检索系统 (4) 网络化信息检索 18.计算机信息...

淳安县17041973540: 急急急~网络信息检索方法与应用 论文 -
邰话他利: 我给你找了一篇,摘要如下: 随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出.因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题.本文通过对网络信...

淳安县17041973540: 网络信息检索的方法有哪些?分析这些方法的差异性及其各自的优势? -
邰话他利: 网络信息检索方法主要有以下四种:1、漫游法2、直接查找法3、搜索引擎法4、网络资源指南法1.漫游法(1)偶然发现.这是在因特网上发现、检索信息的原始方法.即在日常的网络阅读、漫游过程中,意外发现一些有用信息.这种方式的目...

淳安县17041973540: 网络信息检索的策略与技巧 -
邰话他利: 网络信息检索策略设计应遵循快、准、全及低成本的原则,以实现检索策略最优化.1、明确检索目标,确定检索项分析主题、使用布尔逻辑算符等构造检索式2、选择合适的检索系统根据检索主题和检索系统的特点选择检索系统3、正确对待检...

淳安县17041973540: 网络信息资源检索的方法信息检索第二版刘英华 -
邰话他利: 信息检索的效率跟信息检索方法有很大的关系,使用高效的信息检索方法能够使用户以最少的时间获得最满意的检索效果.检索方法主要有以下几种.(1)直接查找法:指检索者不依靠任何检索工具或检索系统,从本专业最新核心的期刊或其他...

淳安县17041973540: 网络信息检索方式 -
邰话他利: 布尔逻辑检索符有:与“AND”、或“ OR”、非“ NOT”.例如查找“浅析变电站电压无功控制策略”的检索式为:变电站 AND 电压 AND 无功控制 高级检索:限定在某个范围内检索,比如利用用网页标题、网站、文件类型等设置检索条件.例如:filetype:pdf 变电站电压无功控制,检索结果是PDF格式的文件 专家检索:利用一定的语法编写检索表达式,例如:SU='电压'*'无功控制' and FT='变电站' 可以检索到主题包括“电压”及“无功控制”并且全文中包括“变电站”的信息

淳安县17041973540: 信息检索与利用论文 -
邰话他利: 现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具.同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战.信息检索已成为现代社会信息化和...

淳安县17041973540: 信息检索与网络应用 -
邰话他利: 1:信息源:是指从中获得信息的来源.根据信息的有用性,不同领域所需的信息不同,各有不同的来源. (一)内部信息源和外部信息源 1、内部信息源.这是指在企业内部产生的信息源.企业的内部原始...

淳安县17041973540: 信息检索的应用? -
邰话他利: 通过光盘和联机等现代检索方式进行信息检索的方法.与手工检索一样,计算机信息检索应作为未来科技人员的... 这种对应关系,仅限于我们对网络文献信息类型的认识,不能应用于具体的文献.

淳安县17041973540: 检索方式有哪些 -
邰话他利: 信息检索:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程. 信息检索的类型:文献检索、数据检索、事实检索、手工信息检索、脱机信息检索、联机信息检索、光盘信息检索、网络信息检索 检索方式分: 外部特征:题名、著者姓名/单位名称、出版事项、代码/序号等. 内部特征:分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言等.

淳安县17041973540: 什么是网络信息检索? -
邰话他利: 网络信息检索(NIR:Network Information Retrieval)一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源.这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据分布式存储,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网