Last Update: Friday, 16 February, 2007
For the latest information about the Caltech Tier2, please go to the official Web pages.
Some recent photos of the Caltech Tier2 (early 2007):
What follows below is a historical document that details the initial Tier2 Prototype development. The Caltech Tier2 enjoys the distinction of being the first Tier2 ever constructed.
Caltech and UCSD are implementing a prototype “Tier2” center as part of the ongoing preparations for deployment of the global software and computing system for the CMS experiment at the LHC. The implementation was agreed to following discussions at the US CMS Collaboration Meeting in May 2000, at the DOE Review of Software and Computing, and during the Hoffmann Review of LHC Computing at the end of 2000.
Role of the Tier2 in the Unified System Concept
The Tier2 prototype fits in the Unified System Concept being developed. This is a Grid Hierarchy that has
This is shown schematically in the Figure below.
The hierarchy naturally partitions and orders the CMS user community. Tier N sites are served by Tier N-1, and help to offload Tier N-1 when there is spare capacity available (other spare capacity at Tier N is devoted to “background” simulation tasks). The site architecture for the Tier2 centers is complementary to the major Tier1 national laboratory-based centers, and features:
It is intended that there be one Tier2 center in each region of the US, to catalyze local and regional focus on a particular sets of physics goals, encourage coordinated analysis developments which emphasize particular subdetectors, and put emphasis on training, and involvement of students in front-line data analysis and physics results. One special feature of the Tier2 is that they should include a high quality environment for desktop-based remote collaboration.
Tier2 centers are an important part of the distributed data analysis model (comprising approximately one-half of US CMS’ proposed computing capability) that has been adopted by all four LHC Collaborations. The use and management of the regional centers requires the use of “Data Grid” tools, some of which are already under development in CMS[1]. The prototype system, and the coordination of its operation with CERN and Fermilab for production and analysis, is providing a testing ground for these tools.
Planning History for the Prototype Tier2
A cost effective candidate configuration for the prototype was developed in mid-2000, and specified Linux rackmounted computational servers, medium scale data servers and network interfaces capable of providing high I/O (100 Mbyte/sec range) throughput, together with a few-Terabyte RAID arrays as nearline data storage for simulated, reconstructed and analysed events.
It was decided that the location of the prototype center
would be split between the
The CALREN OC-12 (622 Mbps)
The work plan has three major branches:
· R&D on the distributed computing model. Strategies for production processing, and for data analysis, will be investigated with the help of the MONARC simulation tools
· Help with upcoming production milestones in association with the Physics Reconstruction and Selection (PRS) studies
·
Startup of a prototypical US-based data analysis
among the
The prototype system consists of two nearly identical symmetric systems. One is located at Caltech’s Center for Advanced Computing Research (CACR) and the other at the San Diego Supercomputing Center (SDSC). They are connected over a high-speed network link, currently CALREN (at OC12/622 Mbits/second) and later NTON (OC48/2.4 Gbits/second).
The Figure below shows the schematic arrangement of Tier2 components.
The following Figure shows the Caltech half at an early stage of construction.
Each contains approximately 40 rack-mounted, dual CPU Pentium III Linux computational nodes, a multiple terabyte RAID disk array connected to one or two servers, a network switch, and connections to the existing high performance storage systems (HPSS) at CACR and SDSC. The computational nodes are networked using 100 base-T Ethernet connections. The servers are connected using Gbit Ethernet. Past experience indicated that a 100 base-T Ethernet connection would be sufficient for a dual CPU machine running CMS software performing reconstruction or simulation, when data have to be streamed across the network. An important aspect of the research agenda is to determine the optimal network configuration (in terms of topology and bandwidth) for each system: the initial configuration does not experience network bottlenecks when running the expected batch and interactive loads, but can become bandwidth limited when running certain specialized tasks.
The Figure below shows the semi-complete Tier2 at Caltech, with callouts that describe the various hardware components.
HP ProCurve Switch
24 10/100 Ethernet
2 Gbit Ethernet
3 kVA UPS
Hosting Server and RAID
21 Slave Nodes
Dual 850 MHz PIII
512 MB memory
2x30GB disk
10/100 Ethernet
FlashDisk
1 TByte
(Two trays of 8x75GB Ultra SCSI III)
RAID5
1U fold-away Console
Dual 1GHz PIII Servers
Dual-port SysKonnect GigE
(Under test)
Console Switch
nStor 18F
1 TByte
FibreChannel
(Tray One 18x18GB
Tray Two 18x36GB)
RAID0
ASA Disk Server
Dual 933MHz PIII
1 GB memory
2 SysKonnect GigE
1 TByte
(16x75GB ATA on 3ware Escalade 6800)
RAID0
Dell PowerEdge 4400
Dual 1 GHz PIII
2 GB memory
2 SysKonnect GigE
5 internal disks
The computational (“slave”) nodes are based on the
SuperMicro DLE motherboard in a 2U rack mounted case. The systems have two 800MHz Intel
Caltech and UCSD use different servers to attach the RAID arrays. Caltech uses twoservers. The primary server is a Dell PowerEdge 4400, a similar model to which we have been using extensively in other projects, and found to be reliable with excellent I/O and CPU performance. The secondary server is a dual processor Pentium III 933 MHzsystem with 1 GByte memory, and integrated dual 3ware Escalade 6800 ATA RAID controllers.This server also contains dual SysKonnect SK9843 single port Gbit ethernet cards, as doesthe Dell PowerEdge. The secondary server contains about 1.2 TByte of ATA disk in the formof 16 IBM DeskStar units each of 75GB. These disks are configured in RAID0 (see next section).UCSD uses a 4U custom configured rack mounted system based on the SuperMicro DE6 motherboard, which has a much lower cost than the Dell. Both are dual CPU systems with 2GB of SDRAM.
The following Figure shows the UCSD Tier2 equipment.
Disk Arrays and Tests
Substantial quantities of disk space are required at each of the Tier2 prototype centers. An initial capacity of 2 TBytes at each site was foreseen. We have chosen SCSI RAID as the best technology from price vs. performance as well as availability and reliability considerations. We evaluated several different configurations before choosing a vendor:
The evaluation tests involved measuring the capability of the RAID array to sustain high I/O rates with a variety of block sizes, and the real throughput from an Objectivity database application when writing and reading to the RAID array. The best performance was achieved using the Winchester Systems FlashDisk.
Showing the two
The
a standard SCSI device to a host OS.
Windows 2000 Server
–
Memspeed_v2 (Jim
Gray)
•
Single Ultra2
Array
–
Read @ 67 MB/sec
–
Write @ 66 MB/sec
•
Single Ultra3
array
–
Read @ 97 MB/sec
–
Write @ 89 MB/sec
•
Software NTFS
Stripe two Ultra2 Arrays
–
Read @ 116 MB/sec
–
Write @ 115
MB/sec
–
Java IOSpeed
(JJB)
•
Read one 5GB file
@ 53 MB/sec [10 MB buffers, Ultra3]
•
Read two 5GB
files @ 74 MB/sec
Linux 2.4 with new SCSI
drivers
–
Dsktst6 (Jan
Lindheim)
•
Ultra3
–
Write @ 70 MB/sec
–
Java IOSpeed
(JJB)
•
Read one 2GB file
@ 33 MB/sec [reiserfs, 1MB buffers]
ASA Server – 3ware “Escalade” 1.2 TByte Array
ASA Computers built 22-disk bay, dual 933MHz PIII, 1 GB memory, one SCSI system disk, twin SysKonnect SK9843 Gbit cards
Two 3ware Escalade 6800 PCI controllers, each with 8 IBM 75 GB ATA100 disks: 1.2 TB usable capacity
Disks on each 6800 can be configured in RAID0, 1, 10 or 5. All RAID is done in hardware.
Custom built - very heavy, well cooled
Pre-installed with RedHat Linux 6.2
We paid 14k$ for all the above
ASA Server Test Details
•
Hardware RAID0
–
4 disk set, write
@ 52 MB/sec
–
8 disk set, write
@ 65 MB/sec
•
Software stripe
of two Hardware RAID0 sets
–
Two sets of 4
disks, write @ 68 MB/sec
–
Two sets of 8
disks, write @ 73 MB/sec
•
Hardware RAID5
–
4 disk set, write
@ 2.8 MB/sec
–
8 disk set, write
@ 6.0 MB/sec
•
Consistent with
3ware results opposite
nStor FibreChannel 1TB array
• One tray of eighteen 18GB disks
• One tray of eighteen 36GB disks
• One controller
• Total of 1 TB
• RAID5 and RAID0 being used
• Hosted on Sun Enterprise 250 using LightSpeed LP8000 PCI-FibreChannel adapter
• Good controller, good disk cooling.
• Poor disk mounting system
• Best read rate seen: 30 MB/sec
• Best write rate seen: 7 MB/sec
• Poor performance blamed on LP8000 Solaris driver
• But similar results obtained under Win2000 server using the Windows driver
• Smoking!
Other Disk Arrays
• We tested an Adaptec “I3O” PCI RAID controller with four Seagate Cheetah 15,000 rpm Ultra3 disks. Using RAID0 the best we saw was read @ 23 MB/sec and write @ 14 MB/sec i.e. worse than using a single disk!
• In another test, using Windows 2000 software striping, and an array of Seagate disks, we saw read @ 55 MB/sec and write @ 35 MB/sec using default settings and without further experimentation.
Both Caltech and UCSD are preparing to use low cost, medium performance network switches from HP, which will be connected via the servers to existing high performance switches at CACR and SDSC. The HPSS and external network at both facilities are connected to Gbit Ethernet switches. To network the Tier2 prototype components, the computational nodes are connected to an HP ProCurve 2524Ethernet switch (auto sensing 10/100 Mbit on each of 24 ports) equipped with two Gbit ports. One or both of the Gbit ports will be connected to the server, which in turn (and on a separate circuit) is connected to the existing high performance Gbit Ethernet switches at SDSC and CACR.
Leverage
Resources:
The Tier2 prototype project is leveraging resources (both in terms of infrastructure and people) from CACR and SDSC. In terms of facilities the project benefits from high speed networking, both locally at each site and between the two sites; an HPSS at each site; and environmental services like cooling and power conditioning. The project also benefits from considerable expertise in the staff at CACR and SDSC in the areas of assembling, configuring, and managing Linux clusters.
Hardware Activities
January 2001-March 2001
Software Activities
January 2001-March 2001
Tier2 Personnel
Apart from the individuals in the following list, who are concerned with various management aspects of the Tier2, we have a growing community of end users.
Name |
Affiliation |
Tasks |
% |
Julian Bunn |
Caltech/CACR |
System Oversight |
20% |
Suresh Singh |
Caltech |
System Management |
75% |
Harvey Newman |
Caltech |
Overall Direction |
10% |
Koen Holtman |
Caltech |
PPDG and scheduling |
50% |
Vladimir Litvin |
Caltech |
ORCA and CMS environment support |
25% |
Takako Hickey |
Caltech |
ALDAP and scheduling methods |
50% |
Mehnaz Hafeez |
Caltech |
Globus infrastructure |
40% |
Asad Samar |
Caltech |
Globus infrastructure |
30% |
Philippe Galvez |
Caltech |
network measurements |
30% |
James Patton |
Caltech/CACR |
Network setup and NTON measurements |
5% |
Jan Lindheim |
Caltech/CACR |
data server configuration |
5% |
Ian Fisk |
UCSD |
ORCA, Physics tools |
25% |
Jim Branson |
UCSD |
Physics Tools |
10% |
Reagan Moore |
SDSC |
grid data |
|
Mike Vildibill |
SDSC |
grid data handling system |
|
Phil Andrews |
SDSC |
grid data handling system |
|
All of the CMS member universities in
It may be possible, later, to enlarge the center by
including resources at the other
Tier2 FTE Effort by key personnel
This table breaks down the approximate effort by individuals at Caltech who were involved in the installation and commissioning of the Caltech Tier2.
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
[1] Work now underway, done in collaboration with Ian Foster and Carl Kesselman as part of the PPDG, GriPhyN, and EU DataGrid Projects.
[2] For this test we used the “MemSpeed” application from Jim Gray/Microsoft, which provides a detailed set of performance disk performance statistics at various block sizes.
[3] The Objectivity database used had a page size of 32 kBytes. The test application (TOPS) was developed by Koen Holtman/Caltech.