1

关于投票
可扩充嵌入型网络平台【转】

技术分类: 嵌入式系统  通信  | 2008-03-26
来源:赛灵思产品营销经理 Navanee Sundaramoorthy 软件工程师 Sathya Thammanur

  Xilinx提供弹性化以太网络解决方案让您能针对各种应用的效能与成本需求开发客制化方案

  大多数的嵌入式产品都需要一个网络或通信界面。由于具备低成本、普遍性、以及能透过像TCP/IP等通信协议连上因特网之特性,以太网络(Ethernet)成为其中最广为采用的网络界面。

  网络子系统的需求,端视锁定的应用种类,而有相当大的差异。简单的远程控制和监控等应用,每秒只需要传送数千位的数据;但反观高阶储存或影音应用,每秒则需要支持高达gigabit的流量。

  嵌入式解决方案的一项重要考虑因素就是处理器、IP核心、以及软件组件的高弹性与扩充能力

  您的应用可能在价位、效能、以及功能方面均面临一系列的基本要求。在设计一款产品时,您必须在这些基本要求之间找出一个最好的平衡点。此外,在 产品或设计周期中,为了因应市场的变化,您的需求可能会产生变动。因此,您必须采用一个高弹性、可扩充的平台来开发您的产品,能让您针对各项设计随时进行 调整,而不必更换平台或合作厂商。

  本文将介绍各项应用需求与网络效能的关系,探讨各项设计考虑因素,以及几个能满足需求的设计案例。

  应用需求

  根据OSI标准,Ethernet是一个实体层界面。在传输与网络层中使用的各种通讯协议标准之间,TCP/IP通信协议套件是最常使用的标准,也因此成为在网络上传输数据的现存业界标准,尤其是在嵌入式系统方面。

  为简化之故,我们在本文以后的章节中,使用TCP负载流量作为评估性能的主要标准。表1列出几个范例应用与其TCP/IP负载流量的要求。

各种应用的网络流量需求

  赛灵思嵌入式网络解决方案

  赛灵思嵌入式解决方案提供让您开发各种嵌入式网络系统的所有必要组件。赛灵思嵌入式解决方案的其中一项关键优势,就是处理器、IP核心、以及软 件组件的高弹性与扩充能力。您有充裕的弹性启动或关闭处理器、IP核心、以及软件平台中较高阶的功能,并微调许多独立参数,直到能在软件层满足各项应用需 求为止。

  此外,攸关效能高低的软件功能,可运用效能测试工具来找出,并运用适合的硬件加速器来分担处理作业负载。

  以下介绍3个范例是运用Xilinx Platform Studio(XPS),来设计Ethernet子系统,以符合典型的应用效能需求。每种设计含有不同的系统架构,包括处理器组态、以太网络媒体存取控制组件(MAC) IP组态、以及内存界面。

  范例中还介绍这些硬件子系统可使搭配的各种TCP/IP软件堆栈。由于硬件建置区块与软件层都入建客制化能力,您可根据应用要求,逐步扩充或调降这些范例系统的效能。

  Ethernet“Lite”子系统

  图1显示的“Lite”网络子系统,足以支持远程监控或各种控制应用的简单网络界面。在这类应用中,TCP/IP效能需求相当低(少于1 Mbps),因此您可以使用小型的TCP/IP堆栈LwIP(轻量级网络通讯协议堆栈),而不需使用实时操作系统(RTOS)。

Ethernet

  您可以运用Ethernet“Lite”IP中的简单轮询模式来进行建置此系统,而不被中断。您也可以结合完整的软件,包括一个简单的应用层, 然后全部整合至Xilinx FPGA中的local memory。在这种基本网络子系统中,您可加入其它必要的I/O界面,像是RS-232 UART与GPIO(如图1所示)。

  典型的快速Ethernet (10/100)子系统

  您可经由变更上述的最小规格系统,以达到更高的TCP/IP处理流量(10~50 Mbps),以及转移至更常见的10/100 Ethernet解决方案,如图2所示。关键的变更包括:

  •   把直接内存存取(DMA)引擎加入至Ethernet MAC,成为由中断驱动(interrupt-driven)的组件。
  •   把外部内存加入到系统,将高速缓存加入处理器中。
  •   使用更精密的TCP/IP堆栈,像是Linux操作系统中的uClinux。
  •   您可运用XPS中的Base System Builder精灵,轻易开发出MicroBlaze?的设计。
高效能Gigabit Ethernet子系统

    针对需要支持100 Mbps以上TCP/IP流量的应用,您可以有效运用已预先内建于几款特定的Xilinx FPGA系列组件中的三模以太网络媒体存取控制组件硬式IP(如图3所示)。针对高阶应用所需的500 Mbps以上的流量,您必须运用像是分散/收集DMA(SGDMA)等许多先进的DMA技术,搭配像是数据重新配置引擎(DRE)与检查码处理分流 (CSO)等FPGA硬件加速器。

高效能Gigabit Ethernet子系统

  有几款建置于Xilinx FPGA的高效能PowerPC? 405处理器,内建16-Kb指令,并以450MHz运作频率进行数据撷取,可支持各种软件平台,包括Linux、VxWorks、Integrity、 以及QNX,让您能运用各种高效能网络界面来开发各类系统。

  图4比较先前讨论的3种网络子系统TCP/IP负载流量。Y轴的流量数据是对数值,以方便比较差距极大的效能值。

各款Xillinx网络解决方案的效能比较

  影响TCP效能的因素

  许多因素会影响TCP效能,包括硬件与软件方面。在一个系统中,这些相关因素会影响TCP的流量:

  1. 处理器

  频率频率:TCP/IP通信协议堆栈通常会先将使用者缓冲区的负载流量复制到由堆栈控制的缓冲区,然后再复制到以太网络媒体存取控制组件的 FIFO组件。当在软件中进行作业时,部份的内存复制作业会用到处理器周期。处理器亦涉及到运算TCP的检查码,包括从内存中读取整个封包的数据。较快的 处理器搭配较快的内存,能在更短的时间内执行两项作业,并跟上数据传输的速度。

  特色:TCP/IP通信协议堆栈涉及到存取封包的表头与负载流量。表头处理作业中,典型的存取作业包括读取表头中特定的信息位,造成位移;且每 个封包都须逐一处理加法、乘法的运算。在像MicroBlaze软式处理器这类可组态处理器中,您必须启用相关指令,来执行位移缓存器或乘法运算,才能调 校出更高的效能。

  快取:一旦封包从以太网络媒体存取控制组件复制到内存后,就会被传送至TCP/IP通信协议堆栈的各功能层进行处理。此时TCP/IP堆栈中的封包处理码则进入执行阶段。把程序代码与封包放在高速缓存的作法,能大幅提升处理器的效率,并增加Ethernet的频宽。

  2. 内存

  内存存取时间与延迟对系统效能有极大的影响。典型的TCP/IP通信协议堆栈应用,无法配合local memory程序与数据都是外部内存的一部份。存取数据与指令所耗费的时间,对效能有极大的影响。内存因素通常和快取容量有直接的关系。增加指令与数据的 快取容量,将有助于缩短外部内存的传输延迟与存取时间。

  3. 以太网络媒体存取控制组件

  建置于FPGA的以太网络媒体存取控制组件的外围组件,在运作模式(无DMA与SGDMA相对问题)、封包FIFO的深度、DRE与CSO的支 持能力、以及巨型讯框支持能力方面,都相当提供相当大的弹性。然而,上述每种选项被MAC组件所耗用的空间,将得以卸载处理器各项功能,进而增进效能。

  4. TCP/IP通讯协议堆栈

  最佳化与弹性的TCP/IP堆栈建置,是增进系统效能的重要因素。包括像在硬件中支持CSO、无复制作业的API(数据不必从应用程序复制到堆栈缓冲区)、以及配合应用软件需求的可组态堆栈选项等TCP/IP堆栈功能都有助于改进系统效能。

  5. 信息大小

  信息(应用数据)的大小是另一项影响效能的因素。信息愈小,TCP/IP通讯协议表头(像是TCP、IP、以及Ethernet表头)的耗用资源比例就愈高,能取得的资料流量也随之降低。

  结论

  各种嵌入式应用对网络效能的需求有很大的差距,且会随着产品生命周期的演进而有所改变。要设计出理想的产品来满足各式各样且持续演进的需求,您需要一种高弹性且可扩充的解决方案,针对您的应用需求进行客制化。

  赛灵思针对PowerPC与MicroBlaze处理器所开发的嵌入式解决方案,搭配阵容完备的工具与可客制化IP,协助您开发可扩充的网络子系统,并针对差异悬殊的各类应用需求,自行规划适合的效能。


系统分类: 通信网络
用户分类: FPGA
标签: 无标签
来源: 转贴
发表评论 阅读全文(183) | 回复(1)

1

关于投票
FPGA设计的四种常用思想与技巧[转]

转自http://www.eeworld.com.cn/gykz/2008/0328/article_710.html


FPGA/CPLD 的设计思想与技巧是一个非常大的话题,由于篇幅所限,本文仅介绍一些常用的设计思想与技巧,包括乒乓球操作、串并转换、流水线操作和数据接口的同步方法。 希望本文能引起工程师们的注意,如果能有意识地利用这些原则指导日后的设计工作,将取得事半功倍的效果!

 

乒乓操作

图1:乒乓操作示意图。

“ 乒乓操作 ” 是一个常常应用于数据流控制的处理技巧,典型的乒乓操作方法如图 1 所示。

乒 乓操作的处理流程为:输入数据流通过 “ 输入数据选择单元 ” 将数据流等时分配到两个数据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口 RAM(DPRAM) 、单口 RAM(SPRAM) 、 FIFO 等。在第一个缓冲周期,将输入的数据流缓存到 “ 数据缓冲模块 1” ;在第 2 个缓冲周期,通过 “ 输入数据选择单元 ” 的切换,将输入的数据流缓存到 “ 数据缓冲模块 2” ,同时将 “ 数据缓冲模块 1” 缓存的第 1 个周期数据通过 “ 输入数据选择单元 ” 的选择,送到 “ 数据流运算处理模块 ” 进行运算处理;在第 3 个缓冲周期通过 “ 输入数据选择单元 ” 的再次切换,将输入的数据流缓存到 “ 数据缓冲模块 1” ,同时将 “ 数据缓冲模块 2” 缓存的第 2 个周期的数据通过 “ 输入数据选择单元 ” 切换,送到 “ 数据流运算处理模块 ” 进行运算处理。如此循环。

乒乓操作的最大特点是通过 “ 输入数据选择单元 ” 和 “ 输出数据选择单元 ” 按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到 “ 数据流运算处理模块 ” 进行运算与处理。把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进 行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲与处理。

乒乓操作的第二个优点是 可以节约缓冲区空间。比如在 WCDMA 基带应用中, 1 个帧是由 15 个时隙组成的,有时需要将 1 整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数据缓存起来,然后延时 1 个时隙进行处理。这时缓冲区的长度是 1 整帧数据长,假设数据速率是 3.84Mbps , 1 帧长 10ms ,则此时需要缓冲区长度是 38400 位。如果采用乒乓操作,只需定义两个能缓冲 1 个时隙数据的 RAM( 单口 RAM 即可 ) 。当向一块 RAM 写数据的时候,从另一块 RAM 读数据,然后送到处理单元处理,此时每块 RAM 的容量仅需 2560 位即可, 2 块 RAM 加起来也只有 5120 位的容量。

图2:采用双口RAM,并在DPRAM后引入一级数据预处理模块实现用低速模块处理高速数据流。

另 外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图 2 所示,数据缓冲模块采用了双口 RAM ,并在 DPRAM 后引入了一级数据预处理模块,这个数据预处理可以根据需要的各种数据运算,比如在 WCDMA 设计中,对输入数据流的解扩、解扰、去旋转等。假设端口 A 的输入数据流的速率为 100Mbps ,乒乓操作的缓冲周期是 10ms 。以下分析各个节点端口的数据速率。

A 端口处输入数据流速率为 100Mbps ,在第 1 个缓冲周期 10ms 内,通过 “ 输入数据选择单元 ” ,从 B1 到达 DPRAM1 。 B1 的数据速率也是 100Mbps , DPRAM1 要在 10ms 内写入 1Mb 数据。同理,在第 2 个 10ms ,数据流被切换到 DPRAM2 ,端口 B2 的数据速率也是 100Mbps , DPRAM2 在第 2 个 10ms 被写入 1Mb 数据。在第 3 个 10ms ,数据流又切换到 DPRAM1 , DPRAM1 被写入 1Mb 数据。

仔 细分析就会发现到第 3 个缓冲周期时,留给 DPRAM1 读取数据并送到 “ 数据预处理模块 1” 的时间一共是 20ms 。有的工程师困惑于 DPRAM1 的读数时间为什么是 20ms ,这个时间是这样得来的:首先,在在第 2 个缓冲周期向 DPRAM2 写数据的 10ms 内, DPRAM1 可以进行读操作;另外,在第 1 个缓冲周期的第 5ms 起 ( 绝对时间为 5ms 时刻 ) , DPRAM1 就可以一边向 500K 以后的地址写数据,一边从地址 0 读数,到达 10ms 时, DPRAM1 刚好写完了 1Mb 数据,并且读了 500K 数据,这个缓冲时间内 DPRAM1 读了 5ms ;在第 3 个缓冲周期的第 5ms 起 ( 绝对时间为 35ms 时刻 ) ,同理可以一边向 500K 以后的地址写数据一边从地址 0 读数,又读取了 5 个 ms ,所以截止 DPRAM1 第一个周期存入的数据被完全覆盖以前, DPRAM1 最多可以读取 20ms 时间,而所需读取的数据为 1Mb ,所以端口 C1 的数据速率为: 1Mb/20ms=50Mbps 。因此, “ 数据预处理模块 1” 的最低数据吞吐能力也仅仅要求为 50Mbps 。同理, “ 数据预处理模块 2” 的最低数据吞吐能力也仅仅要求为 50Mbps 。换言之,通过乒乓操作, “ 数据预处理模块 ” 的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的 1/2 。

通过乒乓操作实现低速模块处理高速数据的实质是:通过 DPRAM 这种缓存单元实现了数据流的串并转换,并行用 “ 数据预处理模块 1” 和 “ 数据预处理模块 2” 处理分流的数据,是面积与速度互换原则的体现!

串并转换

串 并转换是 FPGA 设计的一个重要技巧,它是数据流处理的常用手段,也是面积与速度互换思想的直接体现。串并转换的实现方法多种多样,根据数据的排序和数量的要求,可以选用 寄存器、 RAM 等实现。前面在乒乓操作的图例中,就是通过 DPRAM 实现了数据流的串并转换,而且由于使用了 DPRAM ,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存器完成串并转换。如无特殊需求,应该用同步时序设计完成串并之间的转换。比如数据从串行到 并行,数据排列顺序是高位在前,可以用下面的编码实现:


prl_temp<={prl_temp,srl_in};

其中, prl_temp 是并行输出缓存寄存器, srl_in 是串行数据输入。对于排列顺序有规定的串并转换,可以用 case 语句判断实现。对于复杂的串并转换,还可以用状态机实现。串并转换的方法比较简单,在此不必赘述。

 

流水线操作设计思想

 

首先需要声明的是,这里所讲述的流水线是指一种处理流程和顺序操作的设计思想,并非 FPGA 、 ASIC 设计中优化时序所用的 “Pipelining” 。

流水线处理是高速设计中的一个常用设计手段。如果某个设计的处理流程分为若干步骤,而且整个数据处理是 “ 单流向 ” 的,即没有反馈或者迭代运算,前一个步骤的输出是下一个步骤的输入,则可以考虑采用流水线设计方法来提高系统的工作频率。

图3:流水线设计的结构示意图。

流 水线设计的结构示意图如图 3 所示。其基本结构为:将适当划分的 n 个操作步骤单流向串联起来。流水线操作的最大特点和要求是,数据流在各个步骤的处理从时间上看是连续的,如果将每个操作步骤简化假设为通过一个 D 触发器 ( 就是用寄存器打一个节拍 ) ,那么流水线操作就类似一个移位寄存器组,数据流依次流经 D 触发器,完成每个步骤的操作。流水线设计时序如图 4 所示。

图4:流水线设计时序示意图。

 

流 水线设计的一个关键在于整个设计时序的合理安排,要求每个操作步骤的划分合理。如果前级操作时间恰好等于后级的操作时间,设计最为简单,前级的输出直接汇 入后级的输入即可;如果前级操作时间大于后级的操作时间,则需要对前级的输出数据适当缓存才能汇入到后级输入端;如果前级操作时间恰好小于后级的操作时 间,则必须通过复制逻辑,将数据流分流,或者在前级对数据采用存储、后处理方式,否则会造成后级数据溢出。

在 WCDMA 设计中经常使用到流水线处理的方法,如 RAKE 接收机、搜索器、前导捕获等。流水线处理方式之所以频率较高,是因为复制了处理模块,它是面积换取速度思想的又一种具体体现。

 

数据接口的同步方法

 

数据接口的同步是 FPGA/CPLD 设计的一个常见问题,也是一个重点和难点,很多设计不稳定都是源于数据接口的同步有问题。

在 电路图设计阶段,一些工程师手工加入 BUFT 或者非门调整数据延迟,从而保证本级模块的时钟对上级模块数据的建立、保持时间要求。还有一些工程师为了有稳定的采样,生成了很多相差 90 度的时钟信号,时而用正沿打一下数据,时而用负沿打一下数据,用以调整数据的采样位置。这两种做法都十分不可取,因为一旦芯片更新换代或者移植到其它芯片 组的芯片上,采样实现必须从新设计。而且,这两种做法造成电路实现的余量不够,一旦外界条件变换 ( 比如温度升高 ) ,采样时序就有可能完全紊乱,造成电路瘫痪。

下面简单介绍几种不同情况下数据接口的同步方法:

1. 输入、输出的延时 ( 芯片间、 PCB 布线、一些驱动接口元件的延时等 ) 不可测,或者有可能变动的条件下,如何完成数据同步?

对于数据的延迟不可测或变动,就需要建立同步机制,可以用一个同步使能或同步指示信号。另外,使数据通过 RAM 或者 FIFO 的存取,也可以达到数据同步目的。

把 数据存放在 RAM 或 FIFO 的方法如下:将上级芯片提供的数据随路时钟作为写信号,将数据写入 RAM 或者 FIFO ,然后使用本级的采样时钟 ( 一般是数据处理的主时钟 ) 将数据读出来即可。这种做法的关键是数据写入 RAM 或者 FIFO 要可靠,如果使用同步 RAM 或者 FIFO ,就要求应该有一个与数据相对延迟关系固定的随路指示信号,这个信号可以是数据的有效指示,也可以是上级模块将数据打出来的时钟。对于慢速数据,也可以采 样异步 RAM 或者 FIFO ,但是不推荐这种做法。

数据是有固定格式安排的,很多重要信息在数据的起 始位置,这种情况在通信系统中非常普遍。通讯系统中,很多数据是按照 “ 帧 ” 组织的。而由于整个系统对时钟要求很高,常常专门设计一块时钟板完成高精度时钟的产生与驱动。而数据又是有起始位置的,如何完成数据的同步,并发现数据的 “ 头 ” 呢?

数据的同步方法完全可以采用上面的方法,采用同步指示信号,或者使用 RAM 、 FIFO 缓存一下。找到数据头的方法有两种,第一种很简单,随路传输一个数据起始位置的指示信号即可,对于有些系统,特别是异步系统,则常常在数据中插入一段同步 码 ( 比如训练序列 ) ,接收端通过状态机检测到同步码后就能发现数据的 “ 头 ” 了,这种做法叫做 “ 盲检测 ” 。

上级数据和本级时钟是异步的,也就是说上级芯片或模块和本级芯片或模块的时钟是异步时钟域的。

前 面在输入数据同步化中已经简单介绍了一个原则:如果输入数据的节拍和本级芯片的处理时钟同频,可以直接用本级芯片的主时钟对输入数据寄存器采样,完成输入 数据的同步化;如果输入数据和本级芯片的处理时钟是异步的,特别是频率不匹配的时候,则只有用处理时钟对输入数据做两次寄存器采样,才能完成输入数据的同 步化。需要说明的是,用寄存器对异步时钟域的数据进行两次采样,其作用是有效防止亚稳态 ( 数据状态不稳定 ) 的传播,使后级电路处理的数据都是有效电平。但是这种做法并不能保证两级寄存器采样后的数据是正确的电平,这种方式处理一般都会产生一定数量的错误电平数 据。所以仅仅适用于对少量错误不敏感的功能单元。

为了避免异步时钟域产生错误的采样电平,一般使用 RAM 、 FIFO 缓存的方法完成异步时钟域的数据转换。最常用的缓存单元是 DPRAM ,在输入端口使用上级时钟写数据,在输出端口使用本级时钟读数据,这样就非常方便的完成了异步时钟域之间的数据交换。

2. 设计数据接口同步是否需要添加约束?

建议最好添加适当的约束,特别是对于高速设计,一定要对周期、建立、保持时间等添加相应的约束。

这里附加约束的作用有两点:

a. 提高设计的工作频率,满足接口数据同步要求。通过附加周期、建立时间、保持时间等约束可以控制逻辑的综合、映射、布局和布线,以减小逻辑和布线延时,从而提高工作频率,满足接口数据同步要求。

b. 获得正确的时序分析报告。几乎所有的 FPGA 设计平台都包含静态时序分析工具,利用这类工具可以获得映射或布局布线后的时序分析报告,从而对设计的性能做出评估。静态时序分析工具以约束作为判断时序 是否满足设计要求的标准,因此要求设计者正确输入约束,以便静态时序分析工具输出正确的时序分析报告。

Xilinx 和数据接口相关的常用约束有 Period 、 OFFSET_IN_BEFORE 、 OFFSET_IN_AFTER 、 OFFSET_OUT_BEFORE 和 OFFSET_OUT_AFTER 等; Altera 与数据接口相关的常用约束有 Period 、 tsu 、 tH 、 tco 等。



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=2155293

系统分类: CPLD/FPGA
用户分类: FPGA
标签: fpga
来源: 转贴
发表评论 阅读全文(233) | 回复(0)
总共 , 当前 /