حسین کعبی: وقتی فیگو را در جام جهانی زدم....
این موضوعی است که در مورد Radeon سری 4800 کارتهای گرافیکی شرکت ATI/AMD اتفاق افتاد و حتی کارکنان و طراحان و مهندسان خود آن شرکت را از نتیجه نهایی محصول تولید شده، دچار حیرت کرد. نمونههای ابتدایی این کارتها، رادئون 4850 HD و 4870 HD و در ادامه 2X4850 HD و 2X4870 HD، هر کدام متشکل از 2واحد پردازشگر گرافیکی یا GPU هستند اما در طرح ساختار کارتهای جدید ATI، معماری جدید GPU 770RV بهکار رفته است.
در مورد این طراحی معماری گرافیکی، عمده تمرکز مهندسان ATI بر ارتقا و بهبود کارآیی آن بر مبنای هر وات انرژی مصرفی و همچنین کارآیی در تناسب با هر میلیمترمربع از اندازه ابعاد صفحه سیلیکونی کوچک سازنده آن بود که این روند با سری3800 آغاز شد و به سری 4800 رسید.
مقایسه صفحات سیلیکونی سازنده
شرکت /AMDAT I خلاف کارتهای گرافیکی سری 0 8 2 G T X شرکت رقیب، انویدیا، استفاده از اندازه صفحه سیلیکونی کوچکتر از 260میلیمتر مربعی متشکل از 956میلیون ترانزیستور را برگزید (در حالیکه انویدیا، بزرگترین واحد پردازنده گرافیکی را که تاکنون ساخته شده با اندازه 576میلیمتر مربع و متشکل از 4/1بیلیون ترانزیستور بهکار برده است.)
همچنین ATI، پایگاه فناوری و مرحله تولید 55میکرونی را در مقابل مرحله 65نانومتری انویدیا انتخاب کرد. استفاده از صفحه سیلیکونی کوچکتر موجب شد تا ATI، قادر به فشرده کردن تعداد بیشتری تراشه در قالب ویفر (Wafer) و پایین آوردن قیمت این کارتهای گرافیکی شود.
در ابتدا ATI اندازه صفحه سیلیکونی سری3800 را به نصف اندازه سری2900 رسانید و در ادامه با افزایش ناچیز اندازه صفحه سیلیکونی، آنرا از 190میلیمتر مربع در سری2900 به 260میلیمتر مربع در سری4800 افزایش داد که استعداد و قابلیتی عظیم در پهنای باند و کارآیی قابل انتظاری را بههمراه نگه داشتن آنها در سطح مناسبی از قیمت بههمراه آورد.
استفاده از 5 GDDR
ATI تصمیم گرفت تا حافظه 5GDDR را به ساختار کارتهای گرافیکی بردهای گرافیک4870 وارد و معرفی کند (کارتهای گرافیکی 4850 با استفاده از حافظه استاندارد 3 GDDR ساخته میشوند.) این امر برای رسیدن به درجه بالایی از کارآیی که در کارتهای 4870 وجود دارد، لازم بود و هیچ راه دیگری برای رسیدن به پهنای باند لازم، بدون افزایش اندازه خود صفحه سیلیکونی و قیمت آن وجود نداشت.
واحدهای بافت
واحد پردازشگر گرافیکی 770RV در بردارنده 4 واحد آدرس و 4 واحد فیلتر بافت1 است و نرخی یکبهیک را بهوجود میآورد که برای اجتناب از مشکلات زمان درنگ لازم است.
770RV قادر است تا 160کشش جریان در هر سیکل ساعت را ارائه دهد. در این پردازشگر گرافیکی هر یک ازحافظههای نهان بافت 1L با یک واحد بافت در ارتباط است.
هر حافظه نهان 1L مقدار پهنای باندی معادل 480گیگابایت بر ثانیه را ارائه میدهد. با همتراز بودن هر 1L، هر SIMD و هر واحد بافت در یک ردیف، ATI مدعی است (بر اساس کاری که در گذشته با 670RV کرده بود) در اینجا فضای ذخیره داده موثر را در واحد حافظه نهان 1L، 2برابر کرده است.
حافظه نهان 2 L
هر 4 ناحیه حافظه نهان 2L با هر 4 کنترلر حافظه در یک ردیف، همتراز هستند. 770RV پهنای باندی معادل 384گیگابایت بر ثانیه را بین ناحیههای حافظه نهان 1L و 2L ارائه میدهد. حافظه نهان 2L بر اساس تفکیک پارتیشنهای حافظه، به 2 نیمه منشعب شده است. موفقیت حاصله از بهرهبرداری از این نسل سودمند بسیار بالا است و حافظه نهان 2L نرخ بسیار خوبی را فراهم میآورد.
واحدهای جاری پردازش و هستههای SIMD
در ترکیب پارتیشنبندی بالایی، هر هسته SIMD متشکل از 16پردازشگر جاریکننده(Streaming)است.یکناحیه حافظه مشترک محلی و یک واحد بافت. همچنین هر هسته SIMD به یک حافظه نهان 1L دسترسی دارد.
در ترکیببندی پایینی در داخل هر هسته در درون هر یک از پردازشگرهای جریاندار نیز 5 واحد پردازش جریان (SPU(2یک انشعاب واحد اجرایی و ثباتها (رجیسترها) قرار دارند.
بخش درونی 770RV دربردارنده 10 هسته SIMD است که از 800 SPU در هر تراشه (در مقایسه با 320 واحد پردازش جریان در 670(RV بهره میبرد. در 670RV تنها یکی از 5 SPU، توانایی اجرای محاسبه ریاضی عدد صحیح را داشت (آن SPU واحد Fat نامیده میشود) اما در نسل جدید هر 5 SPU محاسبه ریاضی عدد صحیح را جهت کارکرد بهتر با نرمافزار کاربردی 10.1 DirectX انجام میدهند.
مبارزه فناوری
Switched Hub و Ring Bus
در واحد پردازشگر گرافیکی جدید 770RV، فناوری گذرگاه عمومی حلقوی که در نسخههایی از 670RV استفاده شده بود، کنار گذاشته شد. معماری 770RV، فناوری قطب مرکزی دارای هاب سوییچدار را به همراه یک طراحی توزیع یافته برای حرکت داده بهکار برد.
با انتقال تنظیمکنندهها به زوایایی در گوشههای تراشه، آنها به وضعیتی که بیشترین پهنای باند تراشه را استفاده میکند، نزدیکتر شدند. عملکرد ضعیف گذرگاه حلقوی در ارائه پهنای باند داده، موجب اتلاف انرژی میشد اما در 770RV شاهد بهینهسازی مصرف انرژی و کاهش زمان درنگ هستیم. با استفاده از یک تنظیمکننده حافظه توزیعیافته بدون نیاز به گذرگاه حلقوی و 10هسته SIMD که در یک ردیف همتراز در مرکز یک قطعه سیلیکونی قرار گرفتهاند و با داشتن امکان کنترل منطقی روی آنها، زوایای گوشهها درست جایی است که نیاز است تا عناصر اساسی I/Oدر آن مکان باشند.
مدیریت انرژی پویا
در سری 4800 از یک ریزتنظیمکننده روی تراشه، برای کنترل بصری با کمترین نیاز به مدیریت گردانندهها و نرمافزار استفاده شده است. ATIمدعی است با این سیستم مدیریت برق و دیگر اصلاحات انجام شده بر این تراشه، کارآیی آن بر مبنای وات 2برابر سری 3800 و 4برابر سری 2900 خواهد بود. ریزتنظیمکننده میتواند مدیریت انرژی را با کاهش دادن سرعت ساعت حافظه و پایین آوردن ولتاژ و تنظیم فن سرمایش کنترل کند.
Clock gating یک اصل مهارتی کاهش مصرف برق از طریق غیرفعال کردن بخشهای امنیتی تراشه که مورد استفاده قرار نگرفتهاند، است و اجرای آن در سری 4800، صرفهجویی در مصرف برق را در زمانی که حداقل ارائه و انتقال محتوا یا رندر گرافیکی مورد نیاز است، بههمراه داشته است.
قدرت پردازش ترافلاپی و بالاترین حد کارآیی
نتیجه همه این تغییرات، بهوجود آمدن نسلی از کارتهای گرافیکی بوده که در همه ابعاد، از قدرتی فوقالعاده برخوردارند که توانایی عملیاتی 1تریلیون ممیزشناور در هر ثانیه، قدرت پردازش باورنکردنی حداقل 1ترافلاپ3بر ثانیه برای کارتهای سری 4800، بههمراه بهبود در هر دو کارآیی ذکر شده در ابتدای مطلب را به آسانی ممکن ساخته است.
جمعبندی
برتری قابل ملاحظه این کارتهای گرافیکی از نظر کارآیی بر مبنای واحد وات و تمرکز طراحی مهندسی در مورد آنها بر ایجاد کارایی در همه ابعاد به همراه استفاده از فناوری واحد پردازش گرافیکی 770 RV و حافظه 5GDDR برای ATI، نکته کلیدی و رمزموفقیت این شرکت بود که حاصل آن یک جهش بلند رو به جلو بود و باعث جلو افتادن ATI از دیگر رقیبان شد.
جواد ودودزاده
پینوشت
Texture filter unit .1
Streaming Processing Unit .2
TeraFlops .3
منابع
http://www.ati.com
حسین کعبی: وقتی فیگو را در جام جهانی زدم....