找回密码
 FreeOZ用户注册
查看: 2536|回复: 5
打印 上一主题 下一主题

[新技术交流] 三大网站采集软件比较(火车头,海纳,ET,三人行)

[复制链接]
跳转到指定楼层
1#
发表于 28-5-2010 04:55:03 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
提示: 作者被禁止或删除, 无法发言

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?FreeOZ用户注册

x
目前站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个:火车头,海纳,ET,三人行。下面我们对这几款采集工具作一个简单的评比。
  1.火车头 使用人数上应该是最多的,主要集中在新站
特色:功能多,速度快
优点:功能比较齐全,采集速度比较快,主要针对cms,短时间可以采集很多,过滤,替换都不错,比较详细,很多人写接口,发布,接口比较齐全,适合不太懂程序的站长
技术:技术主要是论坛支持,帮助文件多,上手容易。有收费,免费版本
缺点:功能增多,越来越大,费内存,速度快,采集的质量有些降低,不稳定

  2.三人行 主要针对论坛,可以称的上是第一
特色:针对各大论坛,搬家,移动,速度快,准确度高
优点:还是针对论坛,适合开论坛的
技术:收费技术,免费有广告
缺点:对cms支持比较差

  3.ET工具
特色:无人值守,稳定,几乎不占内存
优点:无人值守,自动更新,适合长期做站,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,关键是软件免费,听说已经增加采集中英文翻译功能。
技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易
缺点:似乎帮助文件少才是这个软件的缺点

  4.海纳
特色:海量,关键词抓取,可以预览采集内容,不用写规则
优点:海量,可以抓取网站很多一个关键词文章,似乎适合做网站的专题
技术:无论坛 收费,免费有功能限制
缺点:分类不方便,也就说采集文章归类不方便,要手动(自动容易混淆),特定接口

  总结:追求功能齐全的,似乎应该选择火车头,火车头被称之为“无所不能”,初期作站,可以迅速采集很多的资源,充实网站内容。如果做论坛,那选 择三人行,没错了,可以实现采集论坛,回复,搬家等多项论坛功能。长期做站,当然选择ET了,花点时间,弄懂,是个长期受益的事情。写好规则,设置好过滤 替换,然后可以像开QQ一样,长期运行,不费内存,自动采集更新,分类明确,采集内容完整,可是说,一个站,一个站长+ET足够了。至于海纳,似乎不写规 则,上手容易,但是对文章的发布上,不能如ET一劳永逸,反而觉得增加很多工作,但是可以做专题,这是网站专题一个不错的选择。

来自: http://hi.baidu.com/crf1985/blog ... 54ebcbd56225fe.html

评分

参与人数 2威望 +60 收起 理由
coredump + 30 你太有才了!
ubuntuhk + 30 谢谢分享!

查看全部评分

回复  

使用道具 举报

2#
 楼主| 发表于 28-5-2010 04:56:11 | 只看该作者
提示: 作者被禁止或删除, 无法发言
回复  

使用道具 举报

3#
 楼主| 发表于 28-5-2010 05:19:26 | 只看该作者

讨论防止网站内容被采集的方法

提示: 作者被禁止或删除, 无法发言
比如这个网站盗用我们的帖子
http://www.augarden.com/bbs/22/show42825_22_1.htm

Pinging www.augarden.com [96.0.231.187]

我们是否可以从主机的Web服务器的LOG文件中搜索一下看看是否有这个域名或者IP的访问记录。如果可以确定是否一个域名或者IP来盗贴,可否从web服务器上屏蔽掉这个域名或者IP呢?

请技术员看看这个有没有道理。
回复  

使用道具 举报

4#
发表于 28-5-2010 11:12:16 | 只看该作者

回复 #3 xblues 的帖子

采集的IP和网站的IP可以不一样的,不过可以先屏蔽下看看

评分

参与人数 1威望 +49 收起 理由
xblues + 49 谢谢分享!

查看全部评分

回复  

使用道具 举报

5#
 楼主| 发表于 28-5-2010 11:40:44 | 只看该作者

这个红色的说法有问题,对方不但采集帖子还采集用户和照片,简直是整体搬移啊

提示: 作者被禁止或删除, 无法发言
关于鱼羊防采集v4.x版本
在制作v3.0版本的时候就感觉到要做到真正的防采集,单单用一个方法是绝对不行的。需要根据不同网站,不同环境进行设置。
v3.0版本是个防采集程序。而v4.x版本设计目标就是一个框架,能根据自己的需求制作模块。使防采集方法多元化,不局限于某一种方式。


更新日志:
1.使用全新数据结构
2.对日志、缓存写入使用队列方式,避免造成异常错误
3.恢复v4.2.x测试版中暂时使用的服务器变量缓存功能
4.修复一处可能导致异常错误的漏洞
5.增加异常错误捕获功能
6.模块默认蜘蛛为:百度、Google、雅虎、MSN、搜狗、搜搜、有道

防采集原理:
采集器有一个特点:只请求关键文件(网页文件:html,asp,php...),而不请求无关文件(css,js,jpg...)并且也不执行网页中的JS。根据这一特点进行筛选便可实现对采集器的封锁。

可能出现的误判情况:
有些网站因需要设置比较特殊,可能导致网站只有网页请求。
另外后台全站生成网页时也可能出现连续请求页面的情况。

所以请根据演示模块做相应的调整,提高程序执行效率,将误杀减少到最小。
为方便大家测试避免不会设置而导致误封搜索引擎蜘蛛,该版本特将百度、Google、雅虎能查到的所有IP加入到不限制IP中。

关于防群发:
群发器也类似与采集器,连续提交页面、或者采集群发相关信息(如可发布的地方、验证码)。可根据人工进行判断出群发的信息,找出其IP地址,根据其IP在IIS日志中分析行为再制作出防群发的模块。
回复  

使用道具 举报

6#
发表于 28-5-2010 12:20:53 | 只看该作者
支持ET的飘过
回复  

使用道具 举报

您需要登录后才可以回帖 登录 | FreeOZ用户注册

本版积分规则

小黑屋|手机版|Archiver|FreeOZ论坛

GMT+11, 3-12-2024 05:46 , Processed in 0.018364 second(s), 22 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表