คุณคิดว่าจะใส่ GPUs ได้กี่ตัวในหนึ่งเครื่อง/single system?
หากจะมองว่าการที่จะนำ GPUs หลายๆตัวนำมารวมกันเป็นหนึ่งเครื่อง คิดว่าจะสามารถทำได้กี่ตัว คำถามอันนี้ไม่ได้ตอบโจทย์ทางด้านเกมส์ หรือแม้กระทั่งตัว VR เลย เพราะแม้การจะดึงขีดความสามารถทั้งหมด แค่ GPUs ตัวเดียวหรือ สองตัวนำมาใช้แบบเต็มประสิทธิภาพนั้น ในงานแสดง GPU Technology Conference นั้นมีคำตอบให้เห็นว่าหากจะนำมาเพื่อเล่นเกมส์ น่าจะเกินความจำเป็นเกินไป แต่หากนำมาใช้ทางด้านการคำนวณนั้น นี้แหล่ะคือคำตอบ
มาเริ่มกันด้วย desktop workstation จาก Velocity Micro ที่นำเอา GTX 980 Ti (อยู่ในระดับตลาดผู้บริโภค) ถึง 8 ตัวมาอยู่รวมกัน ซึ่งแตกต่างจากบู๊ธอื่นๆที่จะใช้ GTX Titan X เสียมากกว่า ส่วนตัว Quadro และ Tesla จะเน้นไปทาง professional servers และ workstations เท่านั้น การ์ดจอทุกตัวที่มาจากVelocity Micro ใช้ของ EVGA, ส่วนประมวลผลใช้แบบคู่ของ dual Xeon processors (ซึ่งเป็นรุ่นที่เก่ากว่าตัว E5-2660 v3). สิ่งที่เป็นที่น่าสนใจก็คือตัวการ์ดทั้งหมดติดตั้งแบบเปิดโล่งแทนที่จะต้องมีตัวเป่าลมเพื่อช่วยในการระบายความร้อน
และยังมีอีกหลายบู๊ธที่ใช้การ์ดระดับตลาดบริโภคตัว GM200 cards ในระบบ workstations, ประสิทธิภาพที่ได้ก็ไม่ได้สูงไปกว่าตัว FP64 Quadro card ที่เป็น Maxwell. สิ่งที่น่าสนใจก็คืออายุในด้านตลาดของตัวมันเองจะสั้น และในอีกไม่นานตัว GTX Titan X cards อาจจะหยุดการผลิต ด้วยตัวใหม่ที่จะมาแทนอย่างเช่น Pascal ที่จะมาแทน ส่วนทางด้าน Quadro และ Tesla ที่อยู่ในระดับมืออาชีพนั้นอาจจะถูกลากออกไปยาวหน่อย เพราะยังไงก็ต้องเปรียบเทียบระหว่างความต้องการของสินค้าเป็นหลัก และหากเล่นในระดับบน แน่นอนตัวราคาก็ย่อมที่จะต้องให้คุ้มกับปริมาณที่ถูกจำหน่ายออกไป หรือความต้องการน้อย ราคาก็สูง ความต้องการเป็นจำนวนมาก ราคาก็ย่อมมาหน่อยเพื่อให้คุ้มกับต้นทุน ส่วนความเร็วทางด้าน clocke ก็น้อยลงหากเทียบกับตัวตลาดผู้บริโภค
จากรูปด้านบน ตัวเครื่องระบบนี้เรียกกันว่า 3U chassis หรือ GPUltima มาจากบริษัท One Stop Systems. การ์ด 4 ตัว 8 ตัว สำหรับการทำงานแบบ server น้อยไป แต่นี้รวมกันได้ถึง 16 GPUs อันนี้แหละมีอึ้ง มันไม่ใช่การ์ดจอรุ่นเก่าๆมารวมกันแต่เป็นTesla K80s, ซึ่งหากแปลตรงตัว แต่ละการ์ดจอมี GK210 GPUs ร่วมอยู่ด้วยถึง 2 ตัว ก็เท่ากับ 32 GPUs ที่อยู่ในเครื่องเดียวกัน
แต่ว่าไม่ได้มีตัว processors;มาร่วมอยู่ด้วย เพราะว่ามันมีหน้าที่หลักที่เป็น InfiniBand connectors สำหรับ networking. ตัว GPUltima ถูกออกแบบมาเพื่อใช้กับตัว server หลายๆตัว , ซึ่งโดยปรกติแล้วการออกแบบของ One Stop Systems จับเป้นคู่ เพื่อรองรับ dual-socket 2U server. ก็หมายความว่าในจำนวน GPU ทั้งหมดนี้ มันไปอยู่ที่ 5U (32 GPUs per 5U), และใน 42U rack/เป็นชั้นๆ—และถ้า 2U จะเป็นเท่าไหร่ของจำนวน การ์ดที่จะต้องใช้ ก็หมายความว่าทั้งหมดนี้จะสามารถนำไปใช้หรือประกอบขึ้นเป็น 8 เครื่องหรือ 256 GPUs per rack, ซึ่งไม่ต้องพูดเลยว่าจะมากขนาดไหน แต่นี้ก็ยังไม่สุด ยังมีอีกบริษัท SuperMicro ที่สร้างแค่ 1U servers แต่สามารถนำเอา tTesla K80 cards 4 ตัวใส่เข้าไป ก็เป็น 40 ตัว สำหรับ 1U servers (หาก 2U สำหรับ networking again) ก็จะเป็น 320 GPUs ต่อ single rack
มาดู Tesla K80 GPUs ที่จำนวน 128 ตัว ที่แตละตัวมีขีดความสามารถที่ 8.74 FP32 TFLOPS ต่อตัว บวกรวมกันก็จะเป็น 1,120 TFLOPS per rack. หรือหากใช้ FP64, ความเร็วก็จะตกลงมาอยู่ที่ 373 TFLOPS. ปํญหาไม่ใช่จะไม่มี ด้านพลังงานกับการระบายความร้อนหล่ะ คำตอบที่ได้ก็คือต้องมีอย่างน้อย 5000W และหากอยู่ช่วงที่ทำงานเต็มที่ก็จะเพิ่มขึ้นอีก แต่ละ 3U rack จะประกอบมาด้วย 3000W 240V PSUs ซึ่งก็หมายความว่าแต่ละ data center จะต้องมี 50kW per rack, จาก 76kW ของแต่ละชั้น/rack เผื่อเอาไว้
ส่วนทาง Nvidia’s ตัว DGX-1 server รุ่นใหม่ที่กำลังจะเปิดตัวจะประกอบไปด้วย Telsa P100 Pascal GPUs ถึง 8 ตัวขีดความสามารถก็ 170 TFLOPS ใน 3U chassis, และทั้งหมดที่กล่าวมามี 12 ชุดใน หนึ่ง rack, ก็จะเป็ฯ 2035 TFLOPS per rack. (เป็น FP16 TFLOPS) หากว่าเป็น FP32 precision ความเร็วก็จะเป็น 1017 TFLOPS, หรือ 509 TFLOPS ทีใช้ FP64. หากใช้ K80, GPUltima ก็จะเร็วขึ้นมาหน่อยที่ใช้ FP32 per rack, แต่จะช่ากว่าตัว FP64. ประเด็นสำคัญก็คือ ตัว Tesla P100, การใช้พลังงานช่วงหนักสุดควรจะต้องน้อยกว่าตัว K80, หมายความว่าหากมีการติดตั้งแบบจัดเต็มต่อ rack ที่มี DGX-1 servers 12 ตัว ก็จะใช้พลังงานเพียง 30-40kW.
คำถามที่น่าสนใจก็คือ จะเอาไปใช้กับอะไร อันนี้จะนำไปใช้กับ artificial intelligence/AI/ระบบเรียนรู้ด้วยตนเอง, weather systems/พยากรณ์อากาศ, และการคำนวณแบบ supercomputing
ลองมาคำนวณดูว่า เราจะต้องใช้ ขีดความสามารถของคอมพิวเตอร์ทั้งหมดเท่าไหร่ หากต้องการจำลองมนุษยืขุึ้นมา 1 คน คำตอบก็คือ 10^16FLOPS (Kurzweil) หรือ 10^18 FLOPS. เทียบใหม่ 1 exa-FLOPS (EFLOPS). หากเป็น 2 PFLOPS per rack, DGX-1 ก็จะเป็น 1 EFLOPS ทีเป็น 512 racks. และก็ยังต้องการตัวซอร์ฟแวร์ที่จะให้ทำงานได้อย่างมีประสิทธิภาพ และพลังงานที่จะต้องใช้ก็เป็น 15-20MW เปรียบเทียบกับสมองมนุษย์ที่ต้องการพลังงานเพียง 20W
หากจะมามองดูว่าตอนนี้ความก้าวหน้าของมนุษย์ต่อคอมพิวเตอร์นั้นไปได้ไกลขนาดไหนก็จะเปรียบเทียบแบบง่ายก็คือ ขีดความสามารถของคอมพิวเตอร์หรือ super computers จะไม่สามารถทำงานหรือเป็น OS สำหรับเกมส์ Crysis ได้, แต่มันมีความสามารถที่จะตัดสินใจและเล่นเกมส์ Crysis ด้วยตัวมันเอง อันนี้บอกเลยว่า หากหุ่นยนต์เป็นเรื่องไกลตัวสำหรับคุณ คิดใหม่ได้
ที่มาเครดิด maximumpc
You must be logged in to post a comment.