Nvidia GeForce GTX 1070 – มีเกือบทุกอย่างเหมือน 1080 แต่มาในราคาแค่ครึ่งเดียว
หากคุณเป็นอีกคนหนึ่งผู้ซึ่งคว่ำหวอดอยู่ในวงการ PC gamer หรือผู้ชื่นชอบของแรงๆละก็ ฉนั้นตัว GTX 1070 อาจจะไม่ทำให้คุณแปลกใจเสียเท่าไหร่กับการทำตลาดแบบตัดทอนบางสิ่งบางอย่างเพื่อสามารถทำราคาที่น่าสนใจออกมา และในครั้งนี้ก็เช่นกัน
เหตุการ์ณแบบนี้มักจะเกิดขึ้นทุกๆครั้งไม่ว่าจะเป็นทางทีมเขียวหรือแดงกับการเปิดการ์ดจอรุ่นใหม่ออกมา ไม่ว่าจะเป็น Nvidia’s GTX 980 Ti & Titan X, หรือ 970 & 980, 780 Ti และ Titan, GTX 670 และ the 680.หรือทาง AMD’ R9 390 กับ 390X 290 และ 290X, 7950 และ 7970 และมันก็เกิดขึ้นซ้ำแล้วซ้ำเร้ามานานเป็นสิบปี
และก็บรรดาฮาร์ดคอร์ทั้งหลาย ก็ดูเหมือนจะชอบเสียด้วย โดยเฉพาะกับอย่างที่สอง คือนำรุ่นถูกกว่ามาโมให้เละ ตัว GTX 1070 ก็เช่นกัน
Nvidia GTX 1080 ลดทอนออก 5 SMs ก็ยังถือว่าเยอะอยู่ในด้านประสิทธิภาพ
ข้างใน Nvidia นั้นมีความหนาแน่นทั้งหมด 7.2 billion บนเนื้อที่แค่ 314mm² ตัว GP104 GPU ที่ขับเคลื่อนการ์ดจอ GTX 1080 และมี 2560 CUDA cores, ซึ่งจะรวมกันได้ 20 Streaming Multiprocessors และแบ่งเป็น 4 ผัง/บล็อค Graphics Processing Clusters. แต่ละตัวของ SM จะมี 128 CUDA cores. การ์ดจอรุ่น 1070 มี 1920 CUDA cores ก็หมายความว่าหายไปแค่ 5 SMs. คราวนี้แต่ละตัวของ SM จะประกอบไปด้วย Render Output Units/การคำนวณทางด้านกราฟฟิก 8 ตัว, หรือ ROPs และ Texture Mapping อีก 8 Units. เอาออกไป 5 SMs ก็จะหมายความว่า GTX 1070 จะมีทั้งหมด 48 ROPs ซึ่งตรงกันข้ามกับทาง GTX 1080 เพราะจะมีแค่ 60 และ 120 TMUs แทนที่จะเป็น 160. ตัว GTX 1070 ก็ยังใช้ 8GB ที่เป็น memory. แต่ 8Gbps GDDR5 ก็ยังตรงกันข้ามกับ 10Gbps GDDR5X
Nvidia GTX 1080 – GP104 Block DIagram
ถึงจะมี CUDA cores ที่น้อยกว่า, TMUs และก็ ROPs, ทาง Nvidia ออกมากล่าวเสริมว่ารุ่น GTX Titan X & 980 Ti ทางด้านประสิทธิภาพนั้นอาจจะเหนือกว่า ซึ่งจริงๆแล้วก็ไม่น่าแปลกใจ ยกตัวอย่าง GTX 980 มี CUDA cores มากกว่าถึง 23% และความเร็ว clock speed ก็เร็วกว่า, แต่เมื่อมองดูภาพรวมแล้ว เร็วกว่าแค่ 15% เท่านั้นเอง.
เหตุเป็นเพราะว่าองค์ประกอบที่สำคัญที่อยู่ในชิปนั้นทำงานไม่สอดคล้องกัน (ปิด) เป็นเปอร์เซนต์ กับจำนวน แกน CUDA cores ที่ถูกตัดทิ้งไป/lasered off. อีกอย่างก็จะมีบางส่วนที่เป็น on-chip engines/ส่วนที่ทำหน้าที่ในการประมวลผล ซึ่งไม่เคยถูกใช้งานมาก่อน และในกรณีนี้ก็เป็น Raster engines/ตัวประมวลผลทางด้านภาพ หากจะแปลให้อ่านแบบง่ายๆก็คือ การที่มี CUDA cores ที่น้อยลง, ตัวแกน CUDA cores มีเนื้อที่หรือแหล่งเข้าถึงทางด้านพลังงานได้เยอะกว่า และจะทำให้มีประสิทธิภาพที่มากกว่าเมื่อเปรียบเทียบกัน แกน ต่อ แกน/per CUDA core
Nvidia GeForce GTX 1070 พกส่วนดีทุกอย่างที่มีใน GTX 1080 มาด้วย
สิ่งหนึ่งที่ทาง Nvidia ได้เพิ่มลูกเล่นใหม่ใส่เข้าไปยัง GTX 1080 และ GTX 1070 ก็คือตัว GPU Boost 3.0. มันก็คือตัว GPU Boost 2.0 แต่ว่าฉลาดกว่าและเต็มเม็ดเต็มเหนี่ยวกว่า ย่านความถี่เคลื่อนไหวได้แรงและดีกว่า ผลที่ได้คือ ความเร็ว clock speeds นั้นดีขึ้น การใช้พลังงานเป็นไปอย่างเต็มประสิทธิภาพมากขึ้น หรือสามารถจะเรียกได้ว่า ประสิทธิภาพที่ได้นั้นเทียบกันวัตถ์ ต่อ วัตถ์กันทีเดียว ที่ได้มา ตัว GTX 1080 ทำ boost clock ได้ที่ 1.7Ghz ซึ่งโดยเฉลี่ยจริงๆแล้วสามารถทำได้ที่ 1.9Ghz. และ GTX 1070 ก็จะไม่แตกต่างกันมากการทำ boost clock จะได้ที่ 1.6Ghz ซึ่งน้อยกว่า แต่หากมาดูกันที่ 200mhz (ทางด้านจอภาพ) มาเปรียบเทียบกันแล้วน่าจะสูสีกันในด้านเล่นเกมส์.
คราวนี้มาดูทางด้านการจ่ายภาพกันบ้าง ตัว GTX 1080 และ 1070 สามารถจ่ายภาพได้ละเอียด/resolutions ได้ถึง 7860×4320 ที่ 60Hz และ 8K decode/ถอดรหัสที่ 30Hz. ตัวการ์ดยังสามารถรองรับ 4K 60Hz encode/เปลี่ยนเป็นรหัส และ 4K 120Hz decode.
ตัวการ์ดยังมีอีกหนึ่งลุกเล่นที่เป็นครั้งแรกที่ถูกเพิ่มเข้ามากับตัว GeForce products, สามารถรองรับ 10-bit per color channel. ที่ทาง Radeon พยายามทำอยู่เป็นปี หากคุณมีจอภาพที่มีระบบ 10-bit per channel monitor ก็จะสามารถนำมาใช้ร่วมกับ GeForce. เพราะ ดำก็เป็นดำ แดงก็จะเป็นแดง และเขียว/น้ำเงินก็เช่นกัน ซึ่งก็หมายความรองรับบะบบจอภาพ HDR/High Dynamic Range ด้วยเหมือนกัน
การปรับปรุง Pre-emption/การแทรกแซงคำสั่ง & Dynamic Load Balancing/การทำให้การประมวลผลให้ได้ดีขึ้นทั้งสองทางเพื่อประโยชน์ทางด้าน Async Compute Performance
นวัตกรรมใหม่ของ Pascal มีการปรับปรุงทางด้านการประมวลผลออกมาสองชนิดที่สามารถทำหน้าที่ได้ดีกว่า Maxwell. Dynamic load balancing และ pre-emption. ทั้งสองระบบนี้สามารถทำให้ Pascal’s async compute performance ทำหน้าที่ได้ดีขึ้นตอบสนองเร็วขึ้นเมื่อเปรียบเทียบกับตัว Maxwell. สามารถใช้เวลาที่จำกัดขณะ workloads ที่มีมากนั้น สอดแทรกคำสั่งหรือประมวลผลได้เร็วมากขึ้นในคำสั่งนั้นๆเพื่อให้เกิดและประกอบภาพขึ้น/layering PhysX ได้ดีขึ้น และ แก้ไขพร้อมถอดรหัสภาพ/post-processing workloads ไปยังช่องว่างที่เหลืออยู่ให้ไปพร้อมๆกัน
แต่ว่าตัว Pascal ก็ยังไม่สามารถทำกับ async code ไปพร้อมๆกันได้หากไม่มี pre-emption. ซึ่งแตกต่างจากทาง AMD’s GCN architecture ซึ่งมีระบบ Asynchronous Compute Engines/ระบบสั่งงานที่เฉียบพลันและต้องมาก่อน และ hardware schedulers/ลำดับขั้นตอน ที่สามารถประมวลผลได้ไปพร้อมๆกันโดยไม่ต้องอาศัยตัว pre-emption หรือ context switching/ต้องสับเปลื่ยน.
แต่ที่กล่าวมาข้างต้นนี้ สรุปก็ยังคงมามุ่งเน้นที่ ประสิทธิิภาพเหมือนเดิม
Simultaneous Multi-Projection
Simultaneous Multi-Projection/การเห็นภาพต่างๆพร้อมกันแบบต่อเนื่อง เป็นเทคนิคหรือเป็นลักษณะการทำงานของ VR อย่างหนึ่ง ที่ต้องการกำจัดสิ่งที่ผู้ใช้นั้นไม่เห็นและให้นำพลังงานในส่วนนั้นมาใช้กับสิ่งที่มองเห็นเพื่อเพิ่มประสิทธิภาพในการจ่ายภาพ ตัว Oculus Rift นั้นภาค outputs สามารถทำความเร็วที่ 4.2 megapixels แต่ก็ไม่เกิดประโยชน์ต่อผู้ใช้ทั้งหมดและในทางด้านภาพที่มองเห็นด้วย SMP สามารถจำกัดออกได้ 1.4 megapixels, และใช้เพียงแค่ 2.8 megapixels จากทั้งหมด, ซึ่งทำให้ประสิทธิภาพการประมวลผลนั้นดีขึ้น
ระบบ MP ยังตัดการประมวลผลของ Geometry render times ออก/การประมวลผลทางด้านภาพเรขาคณิต ไปอีกครึ่ง. จริงๆแล้วระบบ SMP ไม่ใช่ตัวพระเอกในเรื่องนี้เสียเท่าไหร่ เพียงแต่มี ระบบ PolyMorph 4.0 engine สร้างขึ้นมาเพื่อช่วยเหลือทางด้านขีดความสามารถของ Pascal’s SMP โดยเฉพาะ.
ที่มาเครดิต
http://wccftech.com/gtx-1070-1920-cuda-cores/
You must be logged in to post a comment.