Архитектура Nvidia Kepler
Устройство потокового мультипроцессора SMX

Потоковый мультипроцессор SMX
Теперь подробнее рассмотрим потоковый мультипроцессор SMX. Прежде всего, изюминкой является вдвое более производительный, по сравнению с применяемым в Fermi, блок обработки геометрии — PolyMorph Engine 2.0. Конечно, присутствует кэш инструкций, кэш текстур, унифицированный кэш, а также 64 Кб кэша первого уровня. 4 планировщика (Warp Scheduler) и 8 управляющих блоков (Dispatch Unit) взаимодействуют через регистровый файл со 192 ядрами CUDA, 32 блоками загрузки/выгрузки данных LD/ST и 32 SFU-блоками, выполняющими специальные математические функции. Количество SFU в SMX возросло в 8 раз по сравнению GF110 (Fermi)! Потоковый мультипроцессор также насчитывает 16 текстурных блоков, что вдвое превышает данное число в Fermi.

Сравнение вычислительных блоков Fermi и Kepler
В целом по чипу можно сказать, что размер SMX (в таблице — «Polymorph») значительно увеличен по сравнению с Fermi, в то время как общее число потоковых мультипроцессоров сократилось вдвое. В основном за счёт количественного увеличения числа исполнительных блоков, теоретическая производительность чипа увеличена до двух раз.













