火车头采集时 采网址--重复网址的临时解决方法

作者&投稿:亓叔 (若有异议请与网页底部的电邮联系)
~

所以下面给出临时的解决方法: 我这里是用的 火车头采集器2010sp2个人版。

商业版用户的采集后的网址都存储在 PageUrl 目录里面的,一个任务对应一个db3.大家可以从最上面的任务往下数第一个,对应的就是Site_*.db3.这样大家可以先备份一下,然后清空也不怕了,到时候直接还原用户名既可以,如果怕出错,全部保存,一会恢复即可。

  如图:

  

  如果想更进一步的查看,这个db3其实就是sqlite数据库格式的文件,可以用db3数据库编辑器 查看修改。根据jobid查看,有朋友问不知道jobid怎么办,呵呵,大家可以到 Data 目录查看 3-新浪国内新闻 后面的新浪国内新闻就是你自定义的网站栏目名称。这个跟jobid对应上即可。

  如图:

  

  最后大家备份好数据库以后就可以(需要备份在 PageUrl 与 Data目录的你的任务名对应的文件夹,最好是全部以防万一,采集完就可以覆盖下。)

后来从网站也看到了如下文件,跟我的这篇大同小异。大家可以参考下。

火车头是一个不错的采集软件,“盗亦有道”,看你如何利用了。

Linker以前也偶尔研究下火车头采集软件,只是一直没有购买商业版本,想想,现在的版本远没有以前的1.x和2.x版本来得爽快。

一位兄弟,昨晚说他的火车头采集软件(企业版本的哦,有钱人!),总是提示任务地址库重复,研究了下,比较简单,告诉了他处理的方法,另外,经过搜索发现,火车头的3.0 sp1版本有过这个bug,清除不掉任务地址库,但管理员已经在sp2版本中解决掉这个问题了。

后来这位朋友又问火车头采集软件的任务地址库是哪个文件?怎么样保存任务地址库?怎么样手动清理任务地址库文件?据Linker所知,编辑任务地址库,需要是商业版本了,如果想手动来处理,可以发现,手动地址库文件是在火车头根目录下的pageurl目录中,每一个任务对应一个地址库文件,mdb格式的,打开可以发现,具体地址是被加密了。火车头也有些太商业了,嘿嘿!

既然知道任务地址库的位置和文件了,手动清理任务地址库,自然就简单了。删除让火车头重复(删除后,编辑该任务,再保存),或者直接删除该库里面的记录,都可以。想另存为其他任务所用,重命令为其它任务的id就行了。

简单测试通过。 原创文章。




连城县13382052437: 请问大家,火车头采集器怎么采集重复页面,因为我在采集时,多采一次就会出现重复了? -
缪滕复方: 您好,在同一站点分类下的规则使用同一个网址库 您的意思是要每次运行这条采集规则都会重新采集不检测重复网址对吗?编辑规则 > 第一步: 采集网址规则 在网站编码右边有一个 检测重复网址 复选框 取消勾选就不会检测重复网址了

连城县13382052437: 火车头 同时采集多页面 采集出来都是重复的内容 -
缪滕复方: 这个问题可能是采集器的bug,用乐思采集系统可以很容易解决,可以说基本不是问题,具体的信息你可以去搜一下采集软件还是要用那些比较正规的、专业的公司开发的,特别是你想商用的话

连城县13382052437: 火车采集器分页怎么过滤网址重复 -
缪滕复方: 采集的网址重复,可以尝试用八爪鱼采集器去采集一下,八爪鱼会自动筛重.有两个原因会导致这个情况:1.采集的网页使用了Ajax技术,所以会重复采集到相同的网址;2.采集的翻页设置出错,导致的重复采集;解决方法:1.在采集规则中设置好八爪鱼Ajax加载的时间,在去采集使用了AJax技术的网页;2.可以使用八爪鱼中的XPATH工具来定位页面中翻页的按钮.

连城县13382052437: 火车头采集器如何获得采集页的地址呀 -
缪滕复方: “我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊...如果没有数字的网址怎么采集呢!如某个网址是list_50.html ...上图 才... ” ---------------------------- 有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化...

连城县13382052437: 火车头采集规则,如果在列表页里面有多个参数,应该如何设置开始采集的地址, -
缪滕复方: 试了下,火车头确实不行,因为它起始网址的参数就一个*,没法对两个动态的数据描述.那不妨换个角度来思考,为什么不把这些网址变成1级网址让火车头以采集的方式把它采集出来呢.比如//i.html?_pgn=2&_skc=50&rt=nc把这个设置为起始...

连城县13382052437: 请问火车头采集器怎么采集淘宝商品啊 -
缪滕复方: 火车头采集器采集内容之前是先采集网址的,所以你说的这个网址其实早就知道了,而采集内容的时候是不会采集到得,因为一般情况下一个网页的源代码里不会有这个网页的网址. 比如A是一个网页的网址,用火车头采集器的时候首先读取的就是这个网页地址A,然后再根据这个地址来请求数据,根据你的采集规则来采集内容,而这个网页的内容里没有这个网址A,那么你肯定是采集不到的.那么这个网址A在哪里呢?在生成的文件里. 比如你保存到本地之后生成一个CSV的文件,打开之后再最后一列(URL)就是采集的内容对应的这个网址.

连城县13382052437: 火车头采集器能采集多个页面吗 -
缪滕复方: 添加标签——多页(由当前网址跳转到别的网址),这样就可以在一个采集内容界面用不同的标签对应采集不同网站的内容.

连城县13382052437: 火车头采集下来怎么发布到网站上? -
缪滕复方: 1、运行火车头软件,点击发布到发布窗口界面;2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录&http请求,然后获取列表看看是否成功,成功后请保持配置. (注意:如果无法获取列...

连城县13382052437: 火车头能否采集整个网站的链接地址? -
缪滕复方: 网站的链接地址你可以去用八爪鱼采集器,操作很简单,你试试

连城县13382052437: 火车头采集器8.0采集的网页数不对怎么调 -
缪滕复方: :一般常见的两种情况 对方服务器缓慢 当火车采集的时候 网页么有读取到有效的数据 频率过高 部分屏蔽时你依然在采集 显示的数据不同 最好是降低采集速度 增加间隔时间段再测试

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网