流处理单元

更新时间:2022-07-29 12:08

流处理器(SP,Stream Processor)单元是统一架构GPU内通用标量着色器的称谓。

产品简介

流处理单元是全新的全能渲染单元,由以前的顶点着色器像素着色器结合而成的新一代显卡核心架构,是继Pixel Pipelines(像素管线)和Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。流处理单元既可以完成VS(Vertex Shader,顶点着色器)运算,也可以完成PS(Pixel Shader,像素着色器)运算,而且可以根据需要组成任意VS/PS比例,从而给开发者更广阔的发挥空间。简而言之,过去按照固定的比例组成的渲染管线/顶点单元渲染模式如今被流处理单元组成的任意比例渲染管线/顶点单元渲染模式替代。

流处理单元是组成渲染管线的一部分,一条完整的渲染管线包括流处理器和纹理贴图处理器。这是DirectX 10引入的新概念统一渲染架构(DirectX 10在XP上还不能装,但是一些软件有这功能)。采用统一渲染架构能有效而充分的利用显卡闲置资源,不再需要上一代显卡依靠渲染管线执行命令排队并逐个执行。Nvidia GeForce 8800GTX是世界上第一块支持DirectX 10的PC桌面显卡,核心代号G80,同时也是结束显卡管线概念的第一块显卡,引入新的流处理单元的概念,是显卡发展史上一次重大的革新。

流处理单元直接影响处理能力,因为流处理单元是显卡的核心,也可称作大脑。流处理单元个数越多则处理能力越强,一般成正比关系,但这仅限于NVIDIA自家的核心或者AMD自家的核心比较范畴。NVIDIA和AMD的流处理单元比较可采取近似比较,即NVIDIA的1个流处理单元相当于AMD的5个流处理单元(随着发展可能会有所不同)。

流处理器直接将多媒体的图形数据流映射到流处理器上进行处理,有可编程和不可编程两种。市面上XX年公布的名为Cheops中的流处理器,是针对某一个特定的视频处理功能而设计的一种不可编程的流处理器。但为了得到一定的灵活性,系统中也包含一个通用的可编程处理器。从1996年到2001年,MIT和Standford针对图像处理的应用,研制了名为Imagine的可编程流处理器。Imagine流处理器没有采用Cache高速缓冲存储器),而是采用一个SRF(Stream Register File,流寄存器文件),作为流(主)存储器与处理器寄存器之间的缓冲存储器,来解决存储器带宽问题的。流存储器与SRF之间的带宽是2GB/s,SRF与处理器寄存器之间的带宽是32GB/s,ALU Cluster(ALU簇)内寄存器与ALU之间的带宽是544GB/s,三种带宽的比例关系为1:16:272。

起源

流处理单元这个名词第一次出现在人们的视线中还要上溯到2006年12月4日, NVIDIA在当天正式对外发布新一代DX10显卡8800GTX,在技术参数表里面,看不到惯常使用的两个参数:Pixel Pipelines(像素渲染管线)和Vertex Pipelines(顶点着色单元),取而代之的是一个新名词:streaming processor,中文翻译过来就是流处理器(也叫流处理单元、SP单元),它的作用就是处理由CPU传输过来的数据,处理后转化为显示器可以辨识的数字信号。

原理

1995年公布的名为Cheops中的流处理器,是针对某一个特定的视频处理功能而设计的一种不可编程的流处理器。但为了得到一定的灵活性,系统中也包含一个通用的可编程处理器。

从1996年到2001年,MIT和Standford针对图像处理的应用,,研制了名为Imagine 的可编程流处理器。Imagine流处理器没有采用cache,而是采用一个流寄存器文件SRF(Stream Register File),作为流(主)存储器与处理器寄存器之间的缓冲存储器,来解决存储器带宽问题的。流存储器与SRF之间的带宽是2GB/s,SRF与处理器寄存器之间的带宽是32GB/s,ALU簇(ALU Cluster)内寄存器与ALU之间的带宽是544GB/s,三种带宽的比例关系为1:16:272。

抗锯齿是3D特效中最重要的效果之一,它经过多年的发展,变为一个庞大的家庭,有必要独立开来说明一下。

效果

每个流处理器当中都有专门高速单元负责解码和执行流数据。片载缓存是一个典型的采用流处理器的单元,它可以迅速输入和读取数据从而完成下一步的渲染。

流处理器多少对显卡性能有决定性作用,可以说高中低端的显卡除了核心不同外最主要的差别就在于流处理器数量,但是有一点要注意,就是NV和AMD的显卡流处理器数量不具有可比性,他们两家的显卡核心架构不同,不能通过比较流处理器多少来看性能,一般情况下NV的显卡流处理器数量会明显少于AMD,要从流处理器多少来看性能,只能自家的与自家的比,比如3850与3450相比,8600与8800相比。

当然,就像你的CPU主频高低一样的道理.一般显卡流处理的多少都会影响视频与高清视频的解码功能,不过最主要的还是你的显卡核心.现在最好的核心应该是G92的.不过,光这些还不够,你的显卡架构也决定性能.就像专业显卡和游戏显卡的区别一样,即使东西都完全一样但不是一个概念.8800GTS还不如一张普通的G92核心的专业显卡性能强悍。

这是显卡的一个参数,2006年由NVIDIA公司首先提出的一个概念,也就是以前常说的两个显卡参数Pixel Pipelines(像素渲染管线)和Vertex Pipelines(顶点着色单元),简称SP,其作用就是处理CPU传过来的信号,直接变成显示器可以识别的数字信号。

一般来说,流处理器数量越多,显卡性能越强劲,比如拥有640个流处理器的显卡,比如拥有80个流处理器的显卡高出几个档次。

作用

去除物体边缘的锯齿现象,广州话称之为“狗牙”,大家可以想像一下狗牙是如何的凹凸不平。

过程

我们在真实世界看到的物体,由无限的像素组成,不会看到有锯齿现象,而显示器没有足够多的点来表现图形,点与点之间的不连续就造成了锯齿。

抗锯齿通过采样算法,在像素与像素之间进行平均值计算,增加像素的数目,达到像素之间平滑过渡的效果。去掉锯齿后,还可以模拟高分辨率游戏的精致画面。它是目前最热门的特效,主要用于1600 * 1200以下的低分辨率。理论上来说,在17寸显示器上,1600 * 1200分辨率已经很难看到锯齿,无须使用抗锯齿算法。如此类推,在19寸显示器上,必须使用1920 x 1080分辨率,总之,越大的显示器,分辨率越高,才越不会看到抗锯齿1920 x 1200。由于RAMDAC(Random Access Memory Digital to Analog Converter,随机存储器数/模转换器)频率和显示器制造技术的限制,我们不可能永无止境地提升显示器和显卡的分辨率,抗锯齿技术变得很有必要了。

超级采样抗锯齿

最早期的全屏抗锯齿,方法简单直接。首先,图像创建到一个分离的缓冲区,缓冲区图像分辨率高于屏幕分辨率,假设是2*1(或2x),那么缓冲区场景的水平尺寸比屏幕分辨率高两倍,若是2*2(或4x)抗锯齿,缓冲区图像的水平和垂直均比显示图像大两倍。像素计算加倍之后,选取2个或4个邻近像素,此过程称为采样。把这些采样混合起来后,生成的最终像素,拥有邻近像素的特征,那么像素与像素之间的过渡色彩,就变得更为近似,整个图像的色彩过渡趋于平滑。再把最终像素输出到帧缓冲,作为一幅图像存储起来,然后发到显示器,显示出一帧画面。每帧都进行抗锯齿处理,游戏过程中的所有画面都变得带有抗锯齿效果了。

边缘超级采样抗锯齿

超级采样效果很好,但效率极低,严重影响显卡性能。新的4x抗锯齿方法,只把抗锯齿应用于物体边缘,避免占用过大的缓冲区。工作过程比超级采样稍为复杂,几何引擎生成多边形后,光栅单元会进行描色工作,同时检查当前的纹理,看看它是否需要用2x2采样的方式填充到多边形边缘。如果不是,GPU只计算一种色彩,在中间插入纹理像素,然后用单色填充这个块。这些就是非边缘像素,无须进行抗锯齿处理

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}