FreeOZ论坛

标题: 讨论帖：建立一个Linux集群（开始配置集群软件，2楼提供更新的目录） [打印本页]

作者: ubuntuhk 时间: 25-6-2009 13:15
标题: 讨论帖：建立一个Linux集群（开始配置集群软件，2楼提供更新的目录）
昨天发了一个帖子，询问如何建立大于2TB的Linux分区，其实这只是我的目的之一，更重要的是希望建立一个小型Linux集群，用多个Linux服务器来建立一个SSI(Single System Image，单一系统镜像？单一系统映像？单一映像系统？译名好像还没统一)，实现多个服务器共享同样的用户验证、文件系统。

结果抛砖引玉，引来大家的专业意见，现在准备建立一个SSI，并开贴记录，供自己以及有类似需求的同学参考。

大家有什么建议、批评或问题，欢迎插楼打断

作者: ubuntuhk 时间: 25-6-2009 13:15
标题: 目录
1楼简介

2楼目录

3楼系统配置

4楼存在的问题和解决方案

107楼 ftp测试网络和文件系统性能

111楼 RAMDISK虚拟磁盘设置和性能测试

113楼通过ftp测试D-link千兆铜线交换机的全双工性能

114楼双网卡绑定单IP设置

117楼教授关于开源集群的点评

124楼文件存储系统介绍和比较

125楼 ZFS文件系统介绍

131楼 ext4文件系统介绍

135楼 ChinaUnix上集群文件系统介绍和比较

137楼 NAS vs DAS vs SAN介绍和比较

139楼 CentOS 5.3上配置和加载EXT4文件系统

147楼 Tux推荐的EXT4 vs 其它文件系统性能比较（一）

151楼 Tux推荐的EXT4 vs 其它文件系统性能比较（二）（更全面客观一些）

159楼有关集群软件的几个link

165楼 NFS文件系统配置

166楼 NFS vs GFS vs PVFS比较

167楼用户验证方案：NIS vs LDAP

169楼 YP/NIS 用户认证配置

174、176楼 fargo推荐的LDAP 相关的link

作者: ubuntuhk 时间: 25-6-2009 13:16
标题: 系统配置
拟建立的Linux集群配置如下：

DELL 2950四台，每台配置如下：
--Dual XEON 5420 2.5GHz（8 cores)
--16GB RAM
--1TB WD HD × 6
--DELL PCR6I 阵列卡
--1Gbps网口 × 2
--OS：RedHat AS/CentOS 5.2

D-Link 1Gbps路由器一台

作者: ubuntuhk 时间: 25-6-2009 13:16
标题: 安装配置问题记录区
这里记录安装过程中出现的问题和解决办法。

存在的问题（针对这些问题提供建议的奖励30点威望：）
20090625A  使用什么模式建立RAID，RAID0？RAID6？RAID6？
20090625B  千兆网卡为什么只有百兆速度？是网线还是网卡驱动的问题？（已经解决，需要超五类网线，谢谢mayabin和coredump）
20090625C  使用何种文件系统？ext3？JFS？XFS？RedHAT GFS？Oracle OCFS？
20090625D  使用何种集群软件？mosix？
20090626E  基于云计算的应用程序开发，如果使用Hadoop/CERN ROOT，搭建系统时，需要注意什么事项？
20090627A  如何建立RAMDISK？（已经解决，参见coredump在105楼提供的link，以及我在111楼的测试结果)
20090627B  Linux下双（甚至多个）千兆网卡是否可以bounding成同一个IP以获取更佳的网络传输速率？

已经解决的问题

20090625B  千兆网卡为什么只有百兆速度？是网线还是网卡驱动的问题？
答案：是网线的问题，需要千兆超五类网线才能支持1000M传输速率。
20090627A  如何建立RAMDISK？
答案：如果是redhat系统，只需要修改/etc/grup.conf的启动参数，参见coredump在105楼提供的link，以及我在111楼的测试结果。

作者: ubuntuhk 时间: 25-6-2009 13:18
以下自由评论打断。。。

作者: ubuntuhk 时间: 25-6-2009 13:42
存储方案调研

要求：
--能支持2TB以上的分区
--可联网、扩展，4台服务器的文件系统可以自由组件成一个大型的存储系统，供4台服务器共用

coredump提议尝试XFS、JFS、RedHat GFS、Oracle OCFS

不过我可怜的一点Linux分区经验主要就是ext2、ext3，看来得挨个研究一下。。。

大家还有什么别的建议？

作者: ubuntuhk 时间: 25-6-2009 14:23
yuba建议用RAID5((4+1)+1)的方式做系统热备，不过我还没搞懂这个和RAID6有什么区别，也没搞懂这个热备怎么做。

谁搞懂了告诉我一下，必加分

作者: valpa 时间: 25-6-2009 14:47
占坑！！！！！

先给一个链接集群和虚拟机 chinaunix版面：http://linux.chinaunix.net/bbs/forum-9-1.html

[ 本帖最后由 valpa 于 26-6-2009 14:54 编辑 ]

作者: ubuntuhk 时间: 25-6-2009 15:16
标题: 回复 #9 肥肠油饼的帖子
我也是菜鸟，大家一起探讨一下，看看能不能吸引几个高人一起指点一下

作者: coredump 时间: 25-6-2009 15:18
如果确定上Cluster的话，单机甚至可以不考虑RAID, 或者每个单机做RAID 0以提高性能，可靠性上面采用集群文件系统来保证, 除了Redhat的那个GFS外，Sun开发的Lustre也被很多大公司采用。

Download the Lustre File System Networking White Paper (pdf)

作者: coredump 时间: 25-6-2009 15:21
给你找个Lustre的介绍(from huihoo):

Lustre是开放源代码的集群文件系统, 采取 GPL 许可协议集群计算机里，计算机与磁盘间数据交换速度的提升无法跟上微处理器和内存增长的速度，从而也拖累了应用程序的性能。
一种新兴的集群文件系统软件提高了I/O速度，可能降低企业购买存储设备的成本并改变企业购买存储的方式。
集群文件系统已经在大学、实验室和超级计算研究中心里使用，而且即将进入通用商业计算市场。
集群文件系统所拥有的快速I/O速度，可能将会改变企业处理存储的方式。
新的集群文件系统采用了开源的Lustre技术，由美国能源部（Department OfEnergy）开发，惠普公司（HP）提供商业支持。它显著提高了输入输出（I/O）速度，目前已经在高校、国家实验室和超级计算研究中心产生了一定的影响，未来几年中，它还有可能进入普通商业计算领域。
惠普公司发布了可扩展文件系统（Scalable File Share）的第2版，这个产品是去年年底推出的，包含一台服务器和一个软件包，使用Lustre技术来分布集群内的存储服务，这种做法与过去几年一些IT厂商为提高服务器性能所采取的分布式计算方式非常相似。SFS系统允许集群里的Linux节点能以高达每秒35GB的速度读取数据，而且允许高达512TB的总存储容量，这是以前旧有系统容量的两倍。
Sun称Lustre是“目前全球具有最佳可扩展性的并行文件系统”，现在全球十大超级计算机中的六个以及40%的TOP100超级计算机都采用了这个系统。
Sun Lustre部门总监PeterBojanic表示：“Lustre文件系统能扩展至在一个命名空间内支持PB级的数据量，为超过25000名用户提供超过100GB/s的累积性能，用户中包括劳伦斯利弗莫尔国家实验室、橡树岭国家实验室以及圣地亚国家实验室的高性能应用，这些用户对大型文件I/O和持续高带宽有很高的要求。”
另外这款系统在石油和天然气、富媒体以及内容分布网络等领域的应用也在不断扩大，这些领域都要求有针对大型或者小型文件的混合型工作负载。Lustre与其他系统的一个不同之处就是，它可以被作为一款基于Linux的开源软件。这就是为什么你会发现，它能够与来自其他高性能计算厂商的产品进行集成，例如SGI、戴尔、惠普、Cray以及Terascala。
Lustre是一款基于目标的集群文件系统，但是它并不支持T10OSD，而且底层存储分配管理也是基于块的。它的配置包括Lustre MetaData Server和Lustre Object StorageServers。文件操作绕过MetaData Server，利用集群中的并行数据路径访问ObjectServer。服务器是以备援目的而配合成对的。Lustre可以在不同类型的网络下运行，其中包括IP网络和InfiniBand网络。
[编辑]
Links

[编辑]
文章

集群文件系统改变企业存储方式 - 感受开源集群文件系统Lustre的威力

[编辑]
精彩图集[url=http://wiki.huihoo.com/index.php?title=Image

ustre_logo.gif]

[/url]
取自"http://wiki.huihoo.com/index.php?title=Lustre"

作者: ubuntuhk 时间: 25-6-2009 15:25
如果用GFS、Lustre等文件系统，我想网络速度会是一个关键点，现在我的实际网络速度只有百兆，还得找找看什么原因导致千兆交换机+千兆网卡只有百兆速度，可能的原因有两点：
1.网卡驱动没装好
2.网线不合格

有没有什么简易的办法来测试这两个可能的问题？

作者: ubuntuhk 时间: 25-6-2009 15:27

原帖由 coredump 于 25-6-2009 14:18 发表

 登录/注册后可看大图

如果确定上Cluster的话，单机甚至可以不考虑RAID, 或者每个单机做RAID 0以提高性能，可靠性上面采用集群文件系统来保证, 除了Redhat的那个GFS外，Sun开发的Lustre也被很多大公司采用。

Download the Lustre Fil ...

这个确实不错，实际上我还可以再增加一台机器，一共五台机器到这个集群里面，不过就是担心如果有节点挂掉怎么处理，单个节点挂掉估计问题不大，2个以上节点挂掉，是不是系统就瘫痪了？

作者: coredump 时间: 25-6-2009 15:33
标题: 回复 #14 ubuntuhk 的帖子
我没实施过Lustre，不过从架构上看Lustre很类似于Google内部用的那个File System, Google是采用每份数据块在3个不同的机器上备份。Lustre采用什么方式我还不清楚，但是肯定会有相关考虑。不过Lustre是建立在现有本机文件系统之上的，本机还是可选ext之类的文件系统。

作者: coredump 时间: 25-6-2009 15:35
标题: 回复 #13 ubuntuhk 的帖子
我觉得有可能有网线的原因，还有可能是网卡和交换机自动协商速度失败，看看调整下参数或者强制启动下千兆试试。

BTW，服务器和交换机之间为什么不用光纤。

作者: coredump 时间: 25-6-2009 15:47

原帖由 ubuntuhk 于 25-6-2009 14:27 发表

 登录/注册后可看大图

这个确实不错，实际上我还可以再增加一台机器，一共五台机器到这个集群里面，不过就是担心如果有节点挂掉怎么处理，单个节点挂掉估计问题不大，2个以上节点挂掉，是不是系统就瘫痪了？

在Lustre文档中看到的：

Availability
In a cluster file system, the failure of one part of the file system should not bring everything
to a halt. Common file system failures include both disk drive failures and server crashes.
The cluster file system should be resilient against such failures; it must ensure that no data
is lost and that all computations continue unimpeded

from：http://www.sun.com/software/products/lustre/features.xml

               Production-Quality Reliability

                              Meeting uptime requirements                         Lustre is currently deployed in both large and small clusters aroundthe world, meeting the uptime requirements of business-critical andnational-security applications. In fact, more than 100 teraflopsworldwide are deployed in production environments where Lustre is usedto manage data.
                              No point of failure                         The system delivers production-quality stability and failover, with nosingle point of failure. Lustre organizes all servers in active-activefailover pairs. Together with protocol interoperability betweenversions, live cluster upgrades are now routine.
                              High-availability configuration                         Lustre's just-mount configuration feature simplifies configuration byroutinely formatting and mounting server devices and then aggregatingthem into a global high-availability cluster file system.

也就是一个RAID5 over OSTs(lustre nodes).在Lustre 2.0被实现的

作者: wellhome 时间: 25-6-2009 17:11
raid6可以容忍2个盘同时挂．
raid5+1 可以容忍2个盘不同时挂．
另外大分区是不是可以尝试zfs?现在好像zfs有linux的port了？

作者: coredump 时间: 25-6-2009 17:17
标题: 回复 #18 wellhome 的帖子
ZFS的Linux port是建立在FUSE上的，不能在生产环境使用的，性能太差了。ZFS不改Licsense的话，不可能port到Linux。

不过FreeBSD倒是已经完整支持ZFS了，我也建议使用ZFS, OS用FreeBSD或者Solaris。

作者: ubuntuhk 时间: 25-6-2009 17:26

原帖由 wellhome 于 25-6-2009 16:11 发表

 登录/注册后可看大图

raid6可以容忍2个盘同时挂．
raid5+1 可以容忍2个盘不同时挂．
另外大分区是不是可以尝试zfs?现在好像zfs有linux的port了？

看来raid6比raid5+1安全一些。

作者: ubuntuhk 时间: 25-6-2009 17:29

原帖由 coredump 于 25-6-2009 14:35 发表

 登录/注册后可看大图

我觉得有可能有网线的原因，还有可能是网卡和交换机自动协商速度失败，看看调整下参数或者强制启动下千兆试试。

BTW，服务器和交换机之间为什么不用光纤。

光纤的价格如何？交换机和网卡。

和网线对比，优势在哪里？

（请原谅我这么傻的问题

）

作者: ubuntuhk 时间: 25-6-2009 17:33

原帖由 coredump 于 25-6-2009 16:17 发表

 登录/注册后可看大图

ZFS的Linux port是建立在FUSE上的，不能在生产环境使用的，性能太差了。ZFS不改Licsense的话，不可能port到Linux。

不过FreeBSD倒是已经完整支持ZFS了，我也建议使用ZFS, OS用FreeBSD或者Solaris。

FreeBSD和Solaris我都不熟悉啊，段时间内，我怕部署不下来，而且管理上也会比较麻烦。

我现在主要考察基于RHEL/CentOS 5.2平台的解决方案（存储和集群），因为RHEL是DELL 2950官方支持的OS，别的OS担心驱动问题。

作者: coredump 时间: 25-6-2009 17:35
标题: 回复 #21 ubuntuhk 的帖子
钱多点的话就买CISCO，钱少点就买华为吧。入门级的价格应该在万元以下，光纤网卡应该在千元以下。网络方面坛子里有不少CCNP/CCIE的应该更熟悉些。我只接触过Cisco Catalyst 2950/4500系列交换机。好一点点服务器应该自带光纤网卡的。

不过现在的双绞线网络也不一定是瓶颈，只要让千兆网速跑起来就行，实在性能上需要再升级不迟。

作者: ubuntuhk 时间: 25-6-2009 18:32
标题: 回复 #23 coredump 的帖子
DELL这个2950应该不带光驱网卡。

是啊，我是想SATA硬盘本身也有瓶颈，单磁盘的读写速度大概在90-110MB左右，如果是RAID0，可能能到200MB，那时候就需要考虑更高速的路由器了。

光纤速度能到多少？3Gbp？

作者: MillerYang 时间: 25-6-2009 18:40
进来学习学习。。。
随便问UB一个非技术问题。。。“无任欢迎”是虾米意思？。。。么看懂

作者: akai 时间: 25-6-2009 18:41
重新读了一下u大的需求
好像u大需求的是一个分布是存储
而不是一个集中式存储．
也就是说每台机器都是一个存储点．没有一个中央存储点．
这个ZFS好像不太擅长吧
u大是不是确认　不会有一个中央存储点比如NAS或者SAN?

作者: ubuntuhk 时间: 25-6-2009 18:47
标题: 回复 #26 akai 的帖子
对的，目前没有SAN或NAS，4-5台2950的服务器，每台各带6*1T硬盘，希望能建立一个可扩展的存储系统和集群，充分利用集群里各个CPU的性能，并且将来可以增加集群节点和NAS/SAN。

是不是这种分布式存储也会影响每个节点的计算能力？SATA的硬盘读写操作也需要一些CPU运算能力吧？

作者: coredump 时间: 25-6-2009 19:34
标题: 回复 #27 ubuntuhk 的帖子
对，对你这种现有条件和需求来说，弄个cluster 文件系统是起码，如果还想均衡充分利用各个节点的CPU能力，就得上集群操作系统了，如果还想要所有集群共享同一个IP，可以考虑LVS。

作者: ubuntuhk 时间: 25-6-2009 19:36
标题: 回复 #28 coredump 的帖子
不需要共享一个IP，各个服务器可以有自己的IP。

作者: mayabin 时间: 25-6-2009 19:50
回答你的一个问题，千兆网卡只有百兆速度，如果你用双绞线的话，就是百兆的。你查一下资料，做SAN或者NAS的都用的光纤传输。所以说网线是瓶颈。

作者: mayabin 时间: 25-6-2009 19:53
再一个，如果你想达到这样的目的，关注的技术不应该局限在文件系统，Raid以及集群软件上。建议你搜索云计算的技术（cloud computing），比如亚马逊的，Google的，有些现成的技术应该能帮到你。

作者: yuba 时间: 25-6-2009 20:00
系统还好说，总能搭起来

上面的应用就写起来可不容易

作者: ubuntuhk 时间: 25-6-2009 20:05

原帖由 mayabin 于 25-6-2009 18:50 发表

 登录/注册后可看大图

回答你的一个问题，千兆网卡只有百兆速度，如果你用双绞线的话，就是百兆的。你查一下资料，做SAN或者NAS的都用的光纤传输。所以说网线是瓶颈。

哦，那这是比较郁闷的事情，看来光纤是必不可少的。

作者: coredump 时间: 25-6-2009 20:07

原帖由 mayabin 于 25-6-2009 18:50 发表

 登录/注册后可看大图

回答你的一个问题，千兆网卡只有百兆速度，如果你用双绞线的话，就是百兆的。你查一下资料，做SAN或者NAS的都用的光纤传输。所以说网线是瓶颈。

5类/超5类双绞线采用1000Base-T的话完全可以上到千兆速度，不过这种线是4对信号线全部都用的(twisted-pair cabling)。同时千兆以太网，采用光纤的优势体现在传输距离上。

see also：http://en.wikipedia.org/wiki/Gigabit_Ethernet

作者: mayabin 时间: 25-6-2009 20:13

原帖由 coredump 于 25-6-2009 19:07 发表

 登录/注册后可看大图

5类/超5类双绞线采用1000Base-T的话完全可以上到千兆速度，不过这种线是4对信号线全部都用的。

我在国内，没用过这种千兆的超5类线。速度要达到千兆的话，都用光纤了。

作者: ubuntuhk 时间: 25-6-2009 20:14
标题: 回复 #34 coredump 的帖子
是的，我我刚才google了一下，也找到一些资料：
http://net.chinaunix.net/7/2009/01/19/1358273.shtml

千兆网线制作方法
网友：lenlydia 发布于： 2009.01.19 11:23　(共有条评论) 查看评论 | 我要评论

作为资料保存
千兆5类或超5类双绞线的形式与百兆网线的形式相同，也分为直通和交*两种。直通网线与我们平时所使用的没有什么差别，都是一一对应的。但是传统的百兆网络只用到4 根线缆来传输，而千兆网络要用到8 根来传输，所以千兆交*网线的制作与百兆不同，制作方法如下：1对3，2对6，3对1，4对7，5对8，6对2，7对4，8对5
例如：
一端为：半橙、橙，半绿、兰，半兰、绿，半棕、棕；
另一端：半绿、绿，半橙、半棕、棕，橙，兰，半兰
千兆网线的做法
千兆5类或超5类双绞线的形式与百兆网线的形式相同，也分为直通和交*两种。直通网线与我们平时所使用的没有什么差别，都是一一对应的。但是传统的百兆网络只用到4 根线缆来传输，而千兆网络要用到8 根来传输，所以千兆交*网线的制作与百兆不同，制作方法如下：1对3，2对6，3对1，4对7，5对8，6对2，7对4，8对5
例如：
一端为：半橙、橙，半绿、兰，半兰、绿，半棕、棕；
另一端：半绿、绿，半橙、半棕、棕，橙，兰，半兰
2.AVAYA(CommScope)
单层结构,处理好十字芯,套好扣环,导入导线框架扣好,裁齐.
尾扣在测试通过后用502固定死,外套也要用502固定死.
全过程要小心,仔细,
开绞距离越短越好,1.千兆主干交换机，接千兆分交换机，用什么线？六类线(CAT6)
2.千兆主干交换机，接百兆分交换机，用什么线？买带两1000Mbps铜口的26口交换机 .六类线(CAT6)
3.千兆主干交换机，接新服务器，用什么线？ .六类线(CAT6)
4.千兆主干交换机，接老服务器，用什么线？超五类(CAT5E).,跑100Mbps
5.千兆分交换机，接新机器，用什么线？ .预算多就用六类线(CAT6),起码要用超五类(CAT5E).
6.百兆分交换机，接旧机器，用什么线？用超五类.原来有可以不动,质量太差的话剪掉
,全新布过超五类(CAT5E),
以上六类线配六类头,超五类配合屏蔽头(也不贵) , 保证线和头都要正品!!!
超五类头用AMP压线钳压制,六类头用机压或自做工具压制.线序均按照568B顺序排列,然后用相关检测工具进行测试。

走线要设计合理，保证合适的线缆弯曲半径,两端留出的冗余线缆要整理保护好，盘线时要顺着原来的旋转方向,做好标注.
注意管径和线槽的填充度
6类线做法 1对3，2对6，3对1，4对7，5对8，6对2，7对4，8对5
白橙橙白绿蓝白蓝绿白棕棕
1 2 3 4 5 6 7 8
白绿绿白橙白棕棕橙蓝白蓝
这样速度至少达到 300M
针对上面的方法我们作过测试：
环境：H3C千兆交换机，P4 3.0CPU 希捷160G 8M 硬盘，超5类双绞线长5米。
文件对拷速度达到 32M/S

作者: coredump 时间: 25-6-2009 20:20

原帖由 mayabin 于 25-6-2009 18:53 发表

 登录/注册后可看大图

再一个，如果你想达到这样的目的，关注的技术不应该局限在文件系统，Raid以及集群软件上。建议你搜索云计算的技术（cloud computing），比如亚马逊的，Google的，有些现成的技术应该能帮到你。

没看到UB有做云计算的需求吧？

如果真的需要的话可以参考Hadoop。

作者: ubuntuhk 时间: 25-6-2009 20:25

原帖由 mayabin 于 25-6-2009 18:53 发表

 登录/注册后可看大图

再一个，如果你想达到这样的目的，关注的技术不应该局限在文件系统，Raid以及集群软件上。建议你搜索云计算的技术（cloud computing），比如亚马逊的，Google的，有些现成的技术应该能帮到你。

对不起，我现在还没搞清云计算具体是什么概念。

我现在也在写一些基于这种cluster上的web应用，不过大体的做法也就是前端web服务器+load balance proxy+后端运算/存储集群。

作者: mayabin 时间: 25-6-2009 20:30

原帖由 ubuntuhk 于 25-6-2009 19:25 发表

 登录/注册后可看大图

对不起，我现在还没搞清云计算具体是什么概念。

我现在也在写一些基于这种cluster上的web应用，不过大体的做法也就是前端web服务器+load balance proxy+后端运算/存储集群。

Coredump的建议很好，你找些Hadoop的资料，会有帮助的。

作者: ubuntuhk 时间: 25-6-2009 20:40
标题: 回复 #39 mayabin 的帖子
嗯，好，不过现在先要解决系统搭建的问题，如果需要做云计算开发，系统搭建上需要注意什么事项吗？还是非得用google、amazon的云计算服务，我可租不起

作者: coredump 时间: 25-6-2009 20:46
标题: 回复 #40 ubuntuhk 的帖子
你也可以简单说说到底是些什么类型的应用，说不定会有更适合的方案呢，最简单的就是只做集群存储。

作者: ubuntuhk 时间: 25-6-2009 20:52
标题: 回复 #41 coredump 的帖子
我所做的应用主要是围绕语音和图像处理的，现在这个集群是给语音、图像识别训练用的，特点：
1.需要大量的语音（或图像）文件作为训练数据（需要存储空间）
2.需要并行运算，对语音（或图像）进行处理，建立模型
这个系统只是局域网，单个机房里面存放即可，外面只需要能ssh进来进行控制。

将来要做的应用是基于集群上的语音（或图像）识别处理，特点：
1.不需要太大的存储空间
2.需要大量的网络带宽，以接受并发连接
3.需要大量的运算单元，将接收到的语音进行处理，并通过web将结果返回给用户
4.需要部署在不同的数据中心，要定时进行数据同步
这个应用我希望能应用云计算的概念和系统。

作者: coredump 时间: 25-6-2009 21:00
标题: 回复 #42 ubuntuhk 的帖子
我怎么看着挺像绿霸的后台服务啊

这个应用倒是非常适合分布式并行运算的，用Hadoop这样的系统建模可以，用PVM，MPI这样的经典并行计算环境也不错，后者的话可以结合HPC Cluster软件Bewolf来构建系统。

如果很有毅力的话，可以钻研下CERN的ROOT系统, 人家是用来分析对撞机数据的，每天都是好几个PB的数据呢。ROOT里面有个PROOF模块提供了分布式存储和分布式并行计算的框架。不过这整个框架是完全用C++实现的，对C++不感兴趣的话就不要选了。这里有我写的C++ ROOT 框架简介。

作者: ubuntuhk 时间: 25-6-2009 21:02
标题: 回复 #43 coredump 的帖子
嘘～～～，将来万一出现声爸系统，那就是我们做的

作者: ubuntuhk 时间: 25-6-2009 21:04
show一张裸照

作者: coredump 时间: 25-6-2009 21:13

原帖由 ubuntuhk 于 25-6-2009 19:52 发表

 登录/注册后可看大图

将来要做的应用是基于集群上的语音（或图像）识别处理，特点：
1.不需要太大的存储空间
2.需要大量的网络带宽，以接受并发连接
3.需要大量的运算单元，将接收到的语音进行处理，并通过web将结果返回给用户
4.需要部署在不同的数据中心，要定时进行数据同步
这个应用我希望能应用云计算的概念和系统。

这样的计算密集型的系统适合用NIVIDA Telsa这样的系统，用CUDA/OpenCL SDK进行开发，性价比那是相当得高。

作者: ubuntuhk 时间: 25-6-2009 21:28

原帖由 coredump 于 25-6-2009 20:13 发表

 登录/注册后可看大图

这样的计算密集型的系统适合用NIVIDA Telsa这样的系统，用CUDA/OpenCL SDK进行开发，性价比那是相当得高。

这个好像有点像非常规的系统了，有商用的吗？

作者: coredump 时间: 25-6-2009 21:44
标题: 回复 #47 ubuntuhk 的帖子
http://www.nvidia.com/object/tesla_testimonials.html

CUDA是Navida专有的API，OpenCL是标准，以后应该是OpenCL为主，mac os x新版就采用了OpenCL

作者: ubuntuhk 时间: 25-6-2009 21:53
标题: 回复 #48 coredump 的帖子
就是说只要采用了Navida的GPU的PC机，就可以采用这个CUDA来进行开发应用程序？

作者: coredump 时间: 25-6-2009 21:56
标题: 回复 #49 ubuntuhk 的帖子
对，ATI的卡也有类似API，不过未来都会支持OpenCL标准，就像现在大家支持OpenGL一样。

作者: ubuntuhk 时间: 25-6-2009 21:58
标题: 回复 #50 coredump 的帖子
这个和我现在的任务（建立Linux集群）差的有点远，先保持关注，以后再论，不过这倒是拓宽了我的视野。

作者: coredump 时间: 25-6-2009 22:20
这篇分析文章不错：What is the Best Clustered File System？

作者: ubuntuhk 时间: 25-6-2009 22:34
标题: 回复 #52 coredump 的帖子
好文，学习ing～～

作者: hchen01 时间: 25-6-2009 22:39
20090625A：要做有共同存储的集群，应该有共同的存储系统，一般就是磁盘阵列，必须的，多台机器的存储，不能相联
在存储系统上要装文件系统，redhat有，但是要买的，好像没有免费下载的，还有更多的文件系统更贵
千兆的跳线（6类，超5类）不建议自己做，网上有卖的30-50一根，德国科隆，质量不错
如果只是做集群（比如提供集群的文件服务，但是不可能做到存储容量相加），可以不需要共同存储；
一般不建议建单个卷容量大于2T，要容量大于2T，可以将容量小一点的卷建立逻辑卷

[ 本帖最后由 hchen01 于 25-6-2009 21:43 编辑 ]

作者: ubuntuhk 时间: 25-6-2009 22:51
标题: 回复 #54 hchen01 的帖子
》》多台机器的存储，不能相联
是不是指，不应该用GFS这样的文件系统，将每个机器的存储空间整合在一起？应该把存储集中到单台机器/存储点？

本来考虑购买一个MD1000或MD3000作为存储系统，不过没搞懂之前，不想乱花钱，所以现在就把每个机器都配上一个小型磁盘阵列。

对于我第一步的应用来说，主要用于训练各种模型，所以需要较大的存储容量（目前2TB也足够了），磁盘的并发性要求不高，但是要求多个计算节点都能同时访问特定的存储内容。

我是不是可以这样做，把其中一台服务器作为一个集中存储点，供集群内的其它服务器访问？

作者: coredump 时间: 25-6-2009 22:53
标题: 回复 #55 ubuntuhk 的帖子
也行，其实就用NFS貌似也就差不多满足你的需求了。

作者: ubuntuhk 时间: 25-6-2009 23:24
标题: 回复 #56 coredump 的帖子
不是吧，难道我舍近求远了？

作者: coredump 时间: 25-6-2009 23:55
标题: 回复 #57 ubuntuhk 的帖子
天花乱坠一番又绕回来了

作者: akai 时间: 25-6-2009 23:58

原帖由 ubuntuhk 于 25-6-2009 17:47 发表

 登录/注册后可看大图

对的，目前没有SAN或NAS，4-5台2950的服务器，每台各带6*1T硬盘，希望能建立一个可扩展的存储系统和集群，充分利用集群里各个CPU的性能，并且将来可以增加集群节点和NAS/SAN。

是不是这种分布式存储也会影响每个节 ...

肯定影响了．　而且会影响网络io.
我没有搞过存储分布在各个node中架构．　我个人感觉这种架构都是那种存储量以及i/o不大的计算模型准备的．
强调的是各个node之间的cpu的协调运算以取得高性能运算能力．
如果存储量很大的话．各个节点之间交换数据就会把network给封住．
如果说单独给存储的流量走另外的网路，　那不就是SAN的架构了？
我对集群什么的也是半瓶醋．所以我理解这好像是个悖论．
所以就算各个node已经组成了一个超级计算机．而且内部node之间是高速联接的
不存存储数据block网络的问题，　那和把所有硬盘都集中成SAN有什么区别呢？
而上述的高速联接的条件u版目前是不具备的．即使是千兆以太或者光纤．
所以u版目前的这些条件只能是架构一个对存储i/o要求不高的架构．
否则必须得有SAN.

作者: coredump 时间: 26-6-2009 00:07
标题: 回复 #59 akai 的帖子
这么说也对也不对。

像Google, Yahoo这种海量存储也都是采用类似lustre这样的分布式存储的，所以分布式存储不存在IO瓶颈问题，不过前提是设计得当，而且还比SAN来得灵活和便宜。我倒觉得小规模的节点上体现不出来集群存储的优势。

SAN主要还是用在中型的存储场合，比如一个企业的生产数据，银行证券这样的后台应用等，不过SAN对UB这样的需求来说就太昂贵了点。除非选择那些入门级的SAN产品。

作者: akai 时间: 26-6-2009 00:16
标题: 回复 #60 coredump 的帖子
ok. yahoo google这些分布式存储　如果节点A要访问的数据　存放在节点B和节点C那里．　A是通过什么联接方式取得B和C的数据呢？网卡？
这样作的好处　是不是说把　SAN中的需要i/o计算的部分　分摊到各个node上了？

不过我的确是糊涂了．
让google用SAN想想就觉得是搞笑的事情．
可能lustre对比sAN的优势　是在超大规模上．
node越多　i/o或者cpu的消耗　是作除法．　而san却是作加法．．

[ 本帖最后由 akai 于 25-6-2009 23:20 编辑 ]

作者: coredump 时间: 26-6-2009 00:27

原帖由 akai 于 25-6-2009 23:16 发表

 登录/注册后可看大图

ok. yahoo google这些分布式存储　如果节点A要访问的数据　存放在节点B和节点C那里．　A是通过什么联接方式取得B和C的数据呢？网卡？
这样作的好处　是不是说把　SAN中的需要i/o计算的部分　分摊到各个node上了？
...

Google的MapReduce算法会对计算节点和访问对应的数据做优化，基本上绝大部分的计算都是在数据块所在的机器上进行的，尽可能的减少了网络IO的开销。而且，一般同一份数据会存在至少3个不同的地方，这样就可以在这3个数据块所在的节点上对同一块数据同时进行计算而不消耗网络带宽。

作者: yuba 时间: 26-6-2009 01:34
这个应用我支持把存储独立出去

作者: yuba 时间: 26-6-2009 10:31
Google之所以能避免海量数据的网络IO问题是因为它做到了信息的微粒化和冗余化

如果一个数据intensive的应用做不到这一点，集中远比分散更能减少网络IO，且应用开发也较为容易

作者: key 时间: 26-6-2009 10:34
标题: 强贴留名
没想到我也出这招。

存贮结构是我的弱项中的弱项。都不明白你们怎么知道这么多东西？

作者: akai 时间: 26-6-2009 10:56
标题: 回复 #64 yuba 的帖子
兼回复 #62 coredump 的帖子
我一直对分布式存储存在误区．
希望能经过u版的这个话题能略为搞搞清楚．
我的一点个人意见如下阿：
1.假设A计算机　访问本地的SAN上的硬盘上某个文件的的速度是300MB/s
2. 假设node足够多．一个文件象BT一样被分成了好多分布在多个nodes上
3.A计算机从各个nodes上访问这个文件的速度类似p2p机制. nodes越多．
速度越快．　最终可能>或者=访问本地sAN的速度．
不知道我的理解对不对．

作者: coredump 时间: 26-6-2009 11:01
标题: 回复 #66 akai 的帖子
不光是数据分布的问题，就像yuba兄说的，这种架构需要算法设计上的紧密配合，否则可能会弄巧成拙。

作者: akai 时间: 26-6-2009 11:12
u版的这个环境需要cluster软件
问题
1.一般的cluster是不是都自带了file system?　比如oracle 的RAC
2.有没有对file system透明的 cluster软件．比如我装了lustre作为file system. 然后上面跑cluster 软件？
核心同学的高见是？

作者: ubuntuhk 时间: 26-6-2009 12:40
大家讨论得很热烈

最新进展：
我现在已经给几台机器做了如下分区：

--RAID 6 (4+2), 3.8xTB

(root)/ 50GB
SWAP 10GB
/disc1 2TB
/disc2 1.8xTB
(除了swap，以上皆为ext3分区)

为什么这么分区，因为RHEL/CentOS 5.2默认的分区策略安装（一个大LVM）之后，安装完之后，无法启动，试了好多次，只有这种方式才能启动，所以我先把系统跑起来，然后再把 /disc1， /disc2根据实际的选择，删掉之后，再换成别的分区（比如XFS、JFS、ZFS）。

这是一个土办法，大家如果有更好的办法，请不吝赐教。

作者: ubuntuhk 时间: 26-6-2009 12:41
安装的OS，最后还是觉得舍弃RHEL，安装CentOS 5.2，更符合自由精神，安装的软件集合是Server+Cluster+Cluster Storage，现在还不知道这里面的Cluster和Cluster Storage怎么用，性能如何，反正现在是裸机，可以随便试，所以大家有所什么好的idea，都可以提出来，我来做白老鼠。

作者: ubuntuhk 时间: 26-6-2009 12:48
在coredump的指引下，我对相关的资料做了一些了解，我个人比较倾向用mosix+NFS或者GFS，其实在我目前这个应用里面，在某一个时刻，很可能会被单个训练程序独占运行，这样我可以控制这个训练程序只从其中某台机器的存储里面读取数据，相当于有某一台机器会兼有NAS的作用（当然这样可能会带来不方便的地方，要记住哪些数据是存放在那台机器上，不过如果分布式存放会影响网络IO，这也是迫不得已了）。

不过我昨天发现，SATA的硬盘读写效率对CPU的占用相当大，如果我从A机拷贝一个10GB文件到B机，能保持60MB的传输速率，但是A机的CPU占用率要占去其中一个cpu core的100%，而且A机运行速度明显降低（可能因为磁盘带宽被占用的原因），这样可能会带来一定问题。

我的应用是要读取一大堆小文件，每次读取一个小文件（约占20%时间），然后运行计算程序（约占80%时间）。

针对这样的应用和目前的硬件条件，大家建议怎样做更好？

作者: coredump 时间: 26-6-2009 12:50

原帖由 akai 于 26-6-2009 10:12 发表

 登录/注册后可看大图

u版的这个环境需要cluster软件
问题
1.一般的cluster是不是都自带了file system?　比如oracle 的RAC
2.有没有对file system透明的 cluster软件．比如我装了lustre作为file system. 然后上面跑cluster 软件？
核心 ...

lustre是跑在ZFS，ext这样的本地文件系统之上的，所以lustre更像是一个面向分布式存储的集群软件，而不仅仅是一个分布式文件系统。这和GFS, Coda这样的纯分布式文件系统还是有点区别的。

作者: ubuntuhk 时间: 26-6-2009 12:58

原帖由 coredump 于 25-6-2009 23:27 发表

 登录/注册后可看大图

Google的MapReduce算法会对计算节点和访问对应的数据做优化，基本上绝大部分的计算都是在数据块所在的机器上进行的，尽可能的减少了网络IO的开销。而且，一般同一份数据会存在至少3个不同的地方，这样就可以在这 ...

如果能有这样的文件系统，而且针对我这个应用，实际性能不差的话，那么这种方案无疑是更理想的：
1.大部分数据在本机上（减少网络IO），本机可以用大胆的RAID 0进行提速，速度更快
2.可以容许2个节点挂掉而不影响cluster运行（我觉得多台机器备份比单台机器的RAID6更可靠）

作者: akai 时间: 26-6-2009 13:24
海量小文件　最可怕．
没有好的办法．　只能金钱换效率．
你如果用NAS　
1.升千兆交换机．　几千块可以搞定
2.买6类线　不能自己作
3.网卡作bonding.　尤其是作nfs的那台　能bonding　4个口更加好．

　

作者: akai 时间: 26-6-2009 13:26
另外u 版．
这种cluster 一般就是纯SA 都要折腾半天．
你是作开发的．　搞这个？．．．．．．

作者: coredump 时间: 26-6-2009 13:40
标题: 回复 #74 akai 的帖子
网卡作bonding是好主意，不过似乎需要网卡驱动和交换机的支持才行

作者: key 时间: 26-6-2009 14:25

原帖由 akai 于 26-6-2009 12:24 发表

 登录/注册后可看大图

海量小文件　最可怕．
没有好的办法．　只能金钱换效率．
你如果用NAS　
1.升千兆交换机．　几千块可以搞定
2.买6类线　不能自己作
3.网卡作bonding.　尤其是作nfs的那台　能bonding　4个口更加好．

　

海量小文件呀，这个俺有那么一点经验：弄个数据库搞定它啦。
哈哈哈，不知道embedded database在分布式平台上的表现如何，
但在local机器上，我是有信心的

作者: key 时间: 26-6-2009 14:31

原帖由 ubuntuhk 于 26-6-2009 11:48 发表

 登录/注册后可看大图

在coredump的指引下，我对相关的资料做了一些了解，我个人比较倾向用mosix+NFS或者GFS，其实在我目前这个应用里面，在某一个时刻，很可能会被单个训练程序独占运行，这样我可以控制这个训练程序只从其中某台机器的存 ...

说实际的系统我插不上话，纯吹理论的话我不妨抛几个砖头。
你这个系统怎么看怎么都象NetGrid系统的需求。
我没有具体参加netGrid的开发，只知道他们是用 GlobalBus + Lustre + 自己开发的web services

作者: coredump 时间: 26-6-2009 14:40
标题: 回复 #78 key 的帖子
netgrid 是前两年IBM带头吹的buzzword，现在实行由Google吹的Clouding Computing了，其实都是一个东东

作者: coredump 时间: 26-6-2009 14:46

原帖由 ubuntuhk 于 26-6-2009 11:48 发表

 登录/注册后可看大图

我的应用是要读取一大堆小文件，每次读取一个小文件（约占20%时间），然后运行计算程序（约占80%时间）。

针对这样的应用和目前的硬件条件，大家建议怎样做更好？

这个过程是串行的还是可以并行的？如果你的程序是可以设计多进程并行运行的话，用MOSIX可以透明地提高运行效率，比如同时用n个进程对一堆音频文件进行压缩之类的。

不过要注意的一件事是MOSIX是商业软件，不是open source的。但是价格貌似很公道，而且这玩意的历史居然和UNIX差不多久。

另有一个openMOSIX在前年就停止开发了好像

MOSIX的替代品有个叫kerrighed的，不过我对其没有了解。单纯的SSI目的的话，也可以考虑OpenSSI。

作者: valpa 时间: 26-6-2009 16:01

原帖由 ubuntuhk 于 25-6-2009 19:40 发表

 登录/注册后可看大图

嗯，好，不过现在先要解决系统搭建的问题，如果需要做云计算开发，系统搭建上需要注意什么事项吗？还是非得用google、amazon的云计算服务，我可租不起

目前国内有不少在做云计算的小公司，都是创业型的，尤其是北京和杭州
ubuntu兄真的要做云计算？

作者: valpa 时间: 26-6-2009 16:06
我认识一家上海公司ChinaNetCloud：http://www.chinanetcloud.com/en

有啥需要咨询的，等7月20号左右上海linux聚会的时候，我可以代为咨询

作者: Dreamhouse 时间: 26-6-2009 16:16
Dreamhouse不小心经过
留下景仰各位的眼神

作者: coredump 时间: 26-6-2009 16:27
标题: 回复 #82 valpa 的帖子
现在世界各地的云计算创业小公司多如牛毛啊，非常类似90年代的WEB创业公司的劲头

作者: valpa 时间: 26-6-2009 16:34
是啊是啊，要不咱也整一个？

作者: ubuntuhk 时间: 26-6-2009 16:38

原帖由 valpa 于 26-6-2009 15:01 发表

 登录/注册后可看大图

目前国内有不少在做云计算的小公司，都是创业型的，尤其是北京和杭州
ubuntu兄真的要做云计算？

做云计算不是我的目的，我的目的是（下一阶段）需要搭建一个能够实现计算密集型的分布式运算平台，如果有必要，可以顺便炒一把云计算的概念

作者: ubuntuhk 时间: 26-6-2009 16:39

原帖由 valpa 于 26-6-2009 15:06 发表

 登录/注册后可看大图

我认识一家上海公司ChinaNetCloud：http://www.chinanetcloud.com/en

有啥需要咨询的，等7月20号左右上海linux聚会的时候，我可以代为咨询

你不如单独开个帖子，给大家介绍一下云计算的多方面或某方面知识吧（系统搭建、应用开发。。。）。

作者: valpa 时间: 26-6-2009 16:53
俺水平菜得很，不献丑了

俺喜欢跟着大家一起玩

作者: yuba 时间: 26-6-2009 17:46
标题: 回复 #73 ubuntuhk 的帖子
"本机可以用大胆的RAID 0进行提速，速度更快"
- 不要神话raid0的速度。raid0是同时从2块盘上读取，x(x>=4)块盘的raid6是同时从x块盘上读取。

"大部分数据在本机上（减少网络IO）"
"可以容许2个节点挂掉而不影响cluster运行"
- 如果可以挂掉节点而不影响cluster的运行，除非数据只读不写，否则就需要大量的IO来同步
- 容许2个节点挂掉，需要两备一，就是一台的数据（及其变化）需要近乎实时的同步到至少其他两台机器上。换句话说，每台机器都实时的拥有3台机器的数据。
- 我实在看不出怎么能减少网络IO。

作者: coredump 时间: 26-6-2009 18:17

原帖由 yuba 于 26-6-2009 16:46 发表

 登录/注册后可看大图

"本机可以用大胆的RAID 0进行提速，速度更快"
- 不要神话raid0的速度。raid0是同时从2块盘上读取，x(x>=4)块盘的raid6是同时从x块盘上读取。

"大部分数据在本机上（减少网络IO）"
"可以容许2个节点挂掉而不影响 ...

N个硬盘的RAID0条带无论读写都是均匀分布的, 多于2个盘的RAID0称为RAID 0 strip array.

lustre这样的cluster只能允许一个node挂掉。

作者: 大杨树 时间: 26-6-2009 18:57
拜一下楼顶各位,
现在知道看不懂中文的滋味是多么痛苦

作者: yuba 时间: 26-6-2009 19:07

原帖由 coredump 于 26-6-2009 17:17 发表

 登录/注册后可看大图

N个硬盘的RAID0条带无论读写都是均匀分布的, 多于2个盘的RAID0称为RAID 0 strip array.

多谢指正，看着raid0想着raid1了

确实raid0在多块硬盘的情况下性能非常好

但是根据“RAID 5具有和RAID 0相近似的資料讀取速度，只是多了一個奇偶校驗資訊，寫入資料的速度相當的慢，若使用「回寫快取」可以讓效能改善不少。”，以及raid6和raid5的相似性

raid0和raid6的主要性能差异会发生在写的过程

如果有大量的写操作以至于需要考虑raid0的话，更说明了本机存储的cluster会产生大量的IO动作

[ 本帖最后由 yuba 于 26-6-2009 19:53 编辑 ]

作者: coredump 时间: 26-6-2009 20:09
标题: 回复 #92 yuba 的帖子
其实采用RAID0对UB现在手头的机器来说还有一个问题，就是SATA的IO 导致的CPU占有率问题，如果采用SCSI硬盘的话就会好的多。不过没有试验我只是猜测。

作者: yuba 时间: 26-6-2009 20:42
标题: 回复 #93 coredump 的帖子

原帖由 ubuntuhk 于 26-6-2009 11:48 发表

 登录/注册后可看大图

不过我昨天发现，SATA的硬盘读写效率对CPU的占用相当大，如果我从A机拷贝一个10GB文件到B机，能保持60MB的传输速率，但是A机的CPU占用率要占去其中一个cpu core的100%，而且A机运行速度明显降低（可能因为磁盘带宽被占用的原因），这样可能会带来一定问题。

拷贝用的是什么协议，如果不是ftp协议的话最好用ftp再测一下

从a机拷贝到b机，a机是硬盘读取和网络写出的动作。很难想象60MB/s的读操作占了一个现代处理器一个核心的100%，所以我更倾向是协议层或者是网卡驱动的问题

ftp的协议简单，可以用来排除协议层的干扰。smb或cifs明显慢过ftp且占用更多cpu资源

如果用ftp测试的结果cpu的占用率也这样的话，基本可以确定是网卡的问题

另外需要同时看一下b机的cpu占用率

再另外，如果是ext3的话最好换成别的再测，最终方案用ext3的可能性极小

[ 本帖最后由 yuba 于 26-6-2009 19:59 编辑 ]

作者: yuba 时间: 26-6-2009 22:26

原帖由 ubuntuhk 于 26-6-2009 11:48 发表

 登录/注册后可看大图

我的应用是要读取一大堆小文件，每次读取一个小文件（约占20%时间），然后运行计算程序（约占80%时间）。

cpu比io更intensive，所以读取部分不应该成为瓶颈

优先考虑是否可以利用多线程，同时处理多个已经读入的小文件

设计上可以考虑生产－消费模式，把读入和处理从逻辑上分开

今后再考虑如何利用多核，改进处理程序，加快单个文件的计算处理速度

作者: yuba 时间: 26-6-2009 23:08
标题: 还可以考虑热迁移
[youtube]EuhU6jJjpAQ[/youtube]

作者: ubuntuhk 时间: 27-6-2009 05:31
标题: 回复 #96 yuba 的帖子
看了一下Video，没太看懂如何做热迁移，以及它里面演示的视频的目的所在。

是不是根据RedHat内建的虚拟机的技术，将系统整个迁移到其它机器上（看到里面三台不同机器，有XP、RHEL系统、AMD和Intel硬件平台）？

虚拟机的技术需要的额外开销有多大？

这种热迁移技术，我的理解可以用于快速克隆完全一样的运行系统，如果增加并行处理能力，也是很有趣的技术。

作者: ubuntuhk 时间: 27-6-2009 05:46

原帖由 yuba 于 26-6-2009 21:26 发表

 登录/注册后可看大图

cpu比io更intensive，所以读取部分不应该成为瓶颈

优先考虑是否可以利用多线程，同时处理多个已经读入的小文件

设计上可以考虑生产－消费模式，把读入和处理从逻辑上分开

今后再考虑如何利用多核，改进 ...

这个提议很有启发性，随着现在内存的容量的发展（价格也在降低），对我们目前的训练应用来说，程序的运行过程大体如下：

加上有N个CPU Core可以使用，我们首先将数据集分成N份，每个CPU Core处理自己那一份
每个CPU Core处理过程：顺序地读入海量小文件集（每个文件大小约:10-100KB，每个core上所用的数据集总共应该不超过1GB，每台机器8个core)，然后进行数学建模（建模本身要耗费大量CPU时间，很少的RAM，<100MB）
每个CPU Core处理完自己的数据之后，生成一个数学模型
基于第三步的结果，重复运行第2、3步，直到模型收敛（一般需要运行160个回合才能收敛，而且每过10个回合，需要将模型复杂度增加一倍，训练时的IO占用率一样，但是CPU占用率增加约一倍）

这样完全有可能将训练数据一次性读入到RAM虚拟磁盘中，然后训练程序只从虚拟盘中读取数据，这样会减少很多IO处理。

我还不清楚在Linux下如何建立虚拟硬盘，如果RAM足够大（比如2倍于训练集）的时候，不知道Linux是否会自动将所有的文件cache到内存里。

作者: ubuntuhk 时间: 27-6-2009 05:53

原帖由 yuba 于 26-6-2009 19:42 发表

 登录/注册后可看大图

拷贝用的是什么协议，如果不是ftp协议的话最好用ftp再测一下

从a机拷贝到b机，a机是硬盘读取和网络写出的动作。很难想象60MB/s的读操作占了一个现代处理器一个核心的100%，所以我更倾向是协议层或者是网卡驱动 ...

yuba兄分析得很有道理，用的是scp协议，所以CPU占用率非常高，而且也有可能是因为单个拷贝进程把CPU沾满了，所以无法提升传输速率。

正如yuba兄前面所分析的，RAID6的读取性能确实还可以，我用hdparm（hdparm -Tt /dev/sda）测试过读取速度,
单个SATA硬盘: 80-90MB/s
RAID5(5+1，共6块硬盘SATA)是250MB/s

[root@server7 ~]# hdparm -Tt /dev/sda

/dev/sda:
Timing cached reads: 24552 MB in 1.99 seconds = 12324.57 MB/sec
Timing buffered disk reads: 758 MB in 3.00 seconds = 252.55 MB/sec

RAID6(4+2，共6块硬盘SATA)是270-370MB/s（一共设置了3台RAID6，有一台稳定在350-370MB/s，另外2台稳定在270-280MB/s，还不清楚什么原因）

[root@server4 ~]# hdparm -Tt /dev/sda

/dev/sda:
Timing cached reads: 24452 MB in 1.99 seconds = 12273.72 MB/sec
Timing buffered disk reads: 1108 MB in 3.00 seconds = 369.23 MB/sec

[root@server5 ~]# hdparm -Tt /dev/sda

/dev/sda:
Timing cached reads: 22408 MB in 1.99 seconds = 11244.20 MB/sec
Timing buffered disk reads: 834 MB in 3.00 seconds = 277.95 MB/sec

还没试过RAID0的情况。

作者: ubuntuhk 时间: 27-6-2009 06:03

原帖由 coredump 于 26-6-2009 19:09 发表

 登录/注册后可看大图

其实采用RAID0对UB现在手头的机器来说还有一个问题，就是SATA的IO 导致的CPU占有率问题，如果采用SCSI硬盘的话就会好的多。不过没有试验我只是猜测。

如yuba兄提到的，我之前的测试应该是scp协议导致的，SCSI硬盘，我的理解应该是并发性能更好一些，在IO上可能不会有太大的优势，不过我也是没有比较过，所以不敢妄下结论。

SCSI/SAS硬盘目前好像停滞在320GB了，相比SATA硬盘，价格实在太贵了，随着IC技术的发展，我估计SCSI/SAS将来在很多场合可能会被SSD硬盘取代。

作者: ubuntuhk 时间: 27-6-2009 06:07

原帖由 大杨树 于 26-6-2009 17:57 发表

 登录/注册后可看大图

拜一下楼顶各位,
现在知道看不懂中文的滋味是多么痛苦

呵呵，隔行如隔山。

不过我准备建立一个名词解释表，把这个帖子里面涉及到的专业术语做一个简单的解释。

欢迎光临 FreeOZ论坛 (https://www.freeoz.org/bbs/)

Production-Quality Reliability
Meeting uptime requirements	Lustre is currently deployed in both large and small clusters aroundthe world, meeting the uptime requirements of business-critical andnational-security applications. In fact, more than 100 teraflopsworldwide are deployed in production environments where Lustre is usedto manage data.

No point of failure	The system delivers production-quality stability and failover, with nosingle point of failure. Lustre organizes all servers in active-activefailover pairs. Together with protocol interoperability betweenversions, live cluster upgrades are now routine.

High-availability configuration	Lustre's just-mount configuration feature simplifies configuration byroutinely formatting and mounting server devices and then aggregatingthem into a global high-availability cluster file system.