EDN首页   博客首页

最新日志

发表于:2007-9-15 11:53:25
标签:无标签

0

FPGA设计中关键问题的研究

FPGA设计中关键问题的研究

随着FPGA(Field Programmable Gate Array)容量、功能以及可靠性的提高,其在现代数字通信系统中的应用日渐广泛。采用FPGA设计数字电路已经成为数字电路系统领域的主要设计方式之一[1]。在信号的处理和整个系统的控制中,FPGA不但能大大缩减电路的体积,提高电路的稳定性,而且其先进的开发工具使整个系统的设计调试周期大大缩短[2~3]。本文结合作者的经验和体会,指出FPGA设计中的一些难点问题,分析问题产生的原因并给出解决方案,有利于FPGA设计者少走弯路,在较短的时间内掌握FPGA设计技术。

1 FPGA设计流程

FPGA设计大都采用自顶向下的设计流程,大体上分为设计说明书、设计输入、综合、功能仿真(前仿真)、逻辑实现、时序仿真(后仿真)、配置下载等七个步骤,设计流程如图1所示。 2 FPGA设计的核心问题

2.1 时钟设计

在任何数字电路设计中,可靠的时钟是非常关键的。时钟一般可分为全局时钟、门控时钟和多级逻辑时钟等几种类型。

2.1.1 全局时钟

全局时钟或同步时钟是最简单、可靠的时钟。在FPGA设计中时钟的最好解决方案是:由专用的全局时钟输入引脚驱动的单个主时钟去钟控设计中的每一个时序器件,只要有可能就应尽量在设计项目中采用全局时钟。FPGA都具有专门的全局时钟引脚,它直接连到器件中的每一个寄存器。在器件中,这种全局时钟能提供最短的时钟延时(数据输入到数据到达输出的时间)。图2是全局时钟的一个实例。

 

 

 

 

2.1.2 门控时钟

在许多应用中,都采用外部的全局时钟是不实际的,通常要用阵列时钟构成门控时钟。门控时钟常常同微处理器接口有关,每当用组合函数钟控触发器时,通常都存在着门控时钟。如果符合下述条件,门控时钟可以象全局时钟一样可靠地工作:(1)驱动时钟的逻辑必须只包含一个"与"门或"或"门;(2)逻辑门的一个输入是实际的时钟,而该逻辑门的所有其它输入必须是地址或控制线,它们约束时钟的建立和保持时间。当然也可以将门控时钟转换成全局时钟以改善设计项目的可靠性。

2.1.3 多时钟系统

许多应用要求在同一个FPGA内采用多个时钟,比如两个异步微处理器之间的接口或微处理器和异步通信通道的接口。由于两个时钟信号之间要求一定的建立和保持时间,所以引进了附加的定时约束条件,将某些异步信号同步化。在许多系统中只将异步信号同步化是不够的,当系统中有两个或两个以上非同源时钟的时候,数据的建立和保持时间很难得到保证,最好的解决办法是将所有非同源时钟同步化。使用FPGA内部的锁相环(PLL)模块是一个很好的方法。如果不用PLL,当两个时钟的频率比是整数时,同步的方法比较简单;当两个时钟的频率比不为整数时,处理方法要复杂得多。这时需要使用带使能端模拇シ⑵鳎⒁胍桓龈咂凳敝永词迪帧?/P>

2.1.4 时钟歪斜

时钟歪斜是FPGA设计中最严重的问题之一。电路中控制各元件同步运行的时钟源到各元件的距离相差很大,时钟歪斜就是在系统内不同元件处检测到有效的时钟跳变沿所需的时间差异。为了保证各个元件的建立保持时间,歪斜必须足够小。若歪斜的程度大于从一边缘敏感存储器的输出到下一级输入的延迟时间,就能使移位寄存器的数据丢失,使同步计数器输出发生错误,故必须设法消除时钟歪斜。减少时钟歪斜的方法有以下几种:(1)采用适当的时钟缓冲器,或者在边缘敏感器件的输出与其馈给的任何边缘敏感器件输入端之间加入一定的延迟以减小歪斜。(2)严重的时钟歪斜往往是由于在FPGA内的时钟及其它全局控制线(如复位线)使负载过重造成的,在信号线上接一串线形缓冲器,使驱动强度逐步增大,可以消除时钟歪斜。(3)在受时钟控制的部件之后分别接入缓冲器,并在两个缓冲器输出端之间接一平衡网络。(4)采用FPGA内的PLL模块可以对输入时钟进行很好的分频和倍频,从而使时钟歪斜减到最低程度。

2.2 毛刺信号及其消除

在组合逻辑电路中,信号要经过一系列的门电路和信号变换。由于延迟的作用使得当输入信号发生变化时,其输出信号不能同步地跟随输入信号变化,而是经过一段过渡时间后才能达到原先所期望的状态。这时会产生小的寄生毛刺信号,使电路产生瞬间的错误输出,造成逻辑功能的瞬时紊乱。在FPGA内部没有分布电感和电容,无法预见的毛刺信号可通过设计电路传播,从而使电路出现错误的逻辑输出。

任何组合电路、反馈电路和计数器都可能是潜在的毛刺信号发生器。毛刺并不是对所有输入都有危害,如触发器的D输入端,只要毛刺不出现在时钟的上升沿并满足数据的建立保持时间,就不会对系统造成危害。而当毛刺信号成为系统的启动信号、控制信号、握手信号,触发器的清零信号(CLEAR)、预置信号(PRESET)、时钟输入信号(CLK)或锁存器的输入信号就会产生逻辑错误。任何一点毛刺都可能使系统出错,因此消除毛刺信号是FPGA设计中的一个重要问题。毛刺问题在电路连线上是找不出原因的,只能从逻辑设计上采取措施加以解决。消除毛刺的一般方法有以下几种:

(1)利用冗余项消除毛刺

函数式和真值表所描述的是静态逻辑,而竞争则是从一种稳态到另一种稳态的过程。因此竞争是动态过程,它发生在输入变量变化时。此时,修改卡诺图,增加多余项,在卡诺图的两圆相切处增加一个圆,可以消除逻辑冒险。但该法对于计数器型产生的毛刺是无法消除的。

(2)取样法

由于冒险出现在变量发生变化的时刻,如果待信号稳定之后加入取样脉冲,那么就只有在取样脉冲作用期间输出的信号才能有效。这样可以避免产生的毛刺影响输出波形。

(3)吸收法

增加输出滤波,在输出端接上小电容C可以滤除毛刺,如图3所示。但输出波形的前后沿将变坏,在对波形要求较严格时,应再加整形电路,该方法不宜在中间级使用。

 

(4)延迟办法

因为毛刺最终是由于延迟造成的,所以可以找出产生延迟的支路。对于相对延迟小的支路,加上毛刺宽度的延迟可以消除毛刺。但有时随着负载增加,毛刺会继续出现,因而这种方法也是有局限性的。而且采用延迟线的方法产生延迟更会由于环境温度的变化而使系统变不可靠。

(5)锁存办法

当计数器的输出进行相"与"或相"或"时会产生毛刺。随着计数器位数的增加,毛刺的数量和毛刺的种类也会越来越复杂。毛刺在计数器电路输出中的仿真结果如图4所示,从图中可发现有毛刺出现。此时,可通过在输出端加D触发器加以消除。接D触发器后仿真结果如图5所示。

 
 
 
 
 
 
 
 
 

从图5可以看到,数据中的毛刺被明显消除。当FPGA输出有系统内其它部分的边沿或电平敏感信号时,应在输出端寄存那些对险象敏感的组合输出。对于异步输入,可通过增加输入寄存器确保满足状态机所要求的建立和保持时间。对于一般情况下产生的毛刺,可以尝试用D触发器来消除。但用D触发器消除时,有时会影响到时序,需要考虑很多问题。所以要仔细地分析毛刺产生的来源和毛刺的性质,采用修改电路或其它办法来彻底消除。

2.3 FPGA中的延时设计

当需要对电路中的某一信号作一段延时时,可在信号后串接一些"非门"或其它门电路。但在FPGA中,开发软件会在综合设计时将这些门当作冗余逻辑去掉,达不到延时的效果。用ALTERA公司的MAXPLUSII开发FPGA时,可以通过插入LCELL原语或调用延时线模块来产生一定的延时。但这样形成的延时在FPGA芯片中并不稳定,会随温度等外部环境的改变而改变,这样会影响FPGA的性能。因此,可以用高频时钟来驱动一移位寄存器,需要延时的信号作为数据输入,按所需延时正确设置移位寄存器的级数,移位寄存器的输出即为延时后的信号。此方法产生的延时信号有误差,误差大小由高频时钟的周期来决定。对于数据信号的延时,在输出端用数据时钟对延时后的信号重新采样,就可以消除误差。当然,当所需延时较长时,这样做比较浪费资源。此外,用VHDL语言进行FPGA设计时,不能用after语句来实现延时,因为目前的综合工具还不能做到如此精确的延时,即程序中的after语句不能被综合。

2.4 FPGA中的同步电路设计

2.4.1 同步电路与异步电路

异步电路主要是组合逻辑电路,用于产生地址译码器、FIFO或RAM的读写控制信号脉冲,其逻辑输出与任何时钟信号都没有关系,译码输出产生的毛刺通常是可以监控的。同步电路是由时序电路(寄存器和各种触发器)和组合逻辑电路构成的电路,其所有操作都是在严格的时钟控制下完成的。这些时序电路共享同一个时钟CLK,而所有的状态变化都是在时钟的上升沿(或下降沿)完成的。比如D触发器,当上升延到来时,寄存器把D端的电平传到Q输出端。 下面介绍一下建立保持时间的问题。建立时间(tsu)是指在触发器的时钟上升沿到来以前,数据稳定不变的时间。如果建立时间不够,数据将不能在这个时钟上升沿被打入触发器;保持时间(th)是指在触发器的时钟上升沿到来以后,数据稳定不变的时间。如果保持时间不够,数据同样不能被打入触发器。数据稳定传输必须满足建立时间和保持时间的要求,否则电路就会出现逻辑错误。建立保持时间时序图如图6所示。

 
 

例如,从D触发器的Q输出端直接馈给另一触发器的D输入端时,第一个D触发器能满足建立保持时间,但是到第二个D触发器的延迟就可能不足以满足第二个触发器对保持时间的要求,此时就会出现逻辑错误,当时钟出现歪斜时错误更加严重。解决办法是在第一个触发器Q端加一缓冲器,如图7所示。这样就能满足第二个触发器的时序要求。另外还可采用一个低驱动强度的源D型触发器而不加缓冲来解决,高的相对扇出有助于改进保持时间。

 

同步数字电路系统在当今是占绝对优势的,工程师常用它设计所有能想象到的数字电路,其频率可以从直流到几GHz。同步电路与异步电路相比有以下优点:

(1)同步电路能在温度、电压、过程等参数变化的情况下保持正常的工作,而异步电路的性能通常和环境温度、工作电压以及生产过程有关。

(2)同步电路具有可移植性,易于采用新技术或更先进的技术,而异步电路很难重用和维护。

(3)同步电路能简化两个模块之间的接口,而异步电路需要握手信号或令牌标记才能确保信号的完整性。

(4)用D触发器或寄存器设计同步电路,可以消除毛刺和同步内部歪斜的数据。而异步电路就没有这个优点,且很难进行模拟和排错,也不能得到很好的综合。

同步电路也有缺点,因为需要时序器件,它与异步电路相比将会消耗更多的逻辑门资源。虽然异步电路速度较快且电源消耗较少,但由于现在的FPGA芯片已做到几百万门,故不必太在意这一点。笔者建议尽量避免用异步电路而采用同步电路进行设计。

2.4.2 用流水线技术提高同步电路的速度

同步电路的速度是指同步系统时钟的速度,同步时钟愈快,电路处理数据的时间间隔越短,电路在单位时间内处理的数据量就愈大。在讨论同步电路的运行速度之前,先看看电路的数据传输模型,如图8所示

 

Tco是触发器的输入数据被时钟打入到触发器到数据到达触发器输出端的延时时间;Tdelay是组合逻辑的延时;Tsetup是D触发器的建立时间。假设数据已被时钟打入D触发器,那么数据到达第一个触发器的Q输出端需要的延时时间是Tco,经过组合逻辑的延时时间为Tdelay,然后到达第二个触发器的D端,要希望时钟能在第二个触发器再次被稳定地打入触发器,则时钟的延迟必须大于Tco+Tdelay+Tsetup,也就是说最小的时钟周期Tmin=Tco+Tdelay+Tsetup,即最快的时钟频率Fmax=1/Tmin。FPGA开发软件也是通过这种方法来计算系统最高运行速度Fmax。因为Tco和Tsetup是由具体的器件工艺决定的,故设计电路时只能改变组合逻辑的延时时间Tdelay,所以说缩短触发器间组合逻辑的延时时间是提高同步电路速度的关键所在。由于一般同步电路都大于一级锁存,而要使电路稳定工作,时钟周期必须满足最大延时要求。故只有缩短最长延时路径,才能提高电路的工作频率。可以将较大的组合逻辑分解为较小的N块,通过适当的方法平均分配组合逻辑,然后在中间插入触发器,并和原触发器使用相同的时钟,就可以避免在两个触发器之间出现过大的延时,消除速度瓶颈,这样可以提高电路的工作频率。这就是所谓"流水线"技术的基本设计思想,即原设计速度受限部分用一个时钟周期实现,采用流水线技术插入触发器后,可用N个时钟周期实现,因此系统的工作速度可以加快,吞吐量加大。注意,流水线设计会在原数据通路上加入延时,另外硬件面积也会稍有增加。

3 FPGA设计应注意的其它问题

(1)所有的状态机输入,包括复位、置位信号,都要用同步信号。所有的状态机输出都要用寄存器寄存输出。注意在状态机设计中不要出现死锁状态。

(2)要用寄存器和触发器设计电路,尽量不要用锁存器,因它对输入信号的毛刺太敏感。如果坚持用锁存器设计必须保证输入信号绝对没有毛刺,且满足保持时间。 (3)设计译码逻辑电路时必须十分小心,因为译码器和比较器本身会产生尖峰,容易产生毛刺,把译码器或比较器的输出直接连到时钟输入端或异步清除端,会造成严重的后果。

(4)应该尽量避免隐含RS触发器的出现。一般要控制输出被直接反馈到输入端,采用反馈环路会出现隐含RS触发器,其对输入尖峰和假信号很敏感,输入端有任何变化都有可能使输出值立刻改变,此时易造成毛刺的产生,导致时序的严重混乱。一旦具有隐含的RS触发器,加锁存器消除毛刺是不能解决问题的。此时只有通过全面修改电路来从根本上解决。 (5)每一个模块中只用一个时钟,避免使用多时钟设计,同时避免使用主时钟分频后的二次时钟作为时序器件的时钟输入,因为二次时钟相对于一次时钟可能存在过大的时钟歪斜。对所有模块的输入时钟、输入信号、输出信号都用D触发器或寄存器进行同步处理,即输出信号直接来自触发器或寄存器的输出端。这样可以消除尖峰和毛刺信号。不论是控制信号还是地址总线信号、数据总线信号,都要采用另外的寄存器,以使内部歪斜的数据变成同步的数据。这些表面上看似乎无用的操作可以大大提高电路系统的性能。 (6)应该尽量避免使用延迟线,因它对工艺过程的变化极为敏感,会大大降低电路的稳定性和可靠性,并将为测试带来麻烦。

(7)大部分FPGA器件都为时钟、复位、预置等信号提供特殊的全局布线资源,要充分利用这些资源。这样可以减少电路中的毛刺并且大大提高设计电路的性能。

(8)不要试图用HDL语言去综合RAM、ROM或FIFO等存储模块。当前的综合工具主要用于产生逻辑电路,如需要用这些模块,直接调用或例化相应的宏单元即可。

(9)注意仿真结果和实际综合的电路的不一致性。无论是时序电路还是异步逻辑电路,其行为与其仿真器结果都是不完全一样的。特别是异步逻辑电路,仿真结果将会隐藏竞争冒险和毛刺现象,与实际行为相差较远。故在FPGA设计中,对每一个逻辑门、每一行VHDL(Verilog)语言,必须完全理解,不要期望仿真器替你找到错误。一个好的设计工程师要知道怎样通过修改设计来提高电路性能,而不把责任归咎于所使用的软件。

使用FPGA开发数字电路,可以大大缩短设计时间、减少PCB面积、提高系统的可靠性。它的这些优点使得FPGA技术得到飞速的发展,已经在通信、电子、信号处理、工业控制等领域被广泛应用。随着FPGA容量的增加,SoPC(对信号的处理和整个系统的控制)的应用时代即将到来。SoPC既有嵌入处理器、I/O电路和大规模嵌入存储器,也有CPLD/FPGA,用户可以选择。同时也可以选择PLD公司提供的FPGA IPIntellectual Property内核。使用IP核能保证系统级芯片的开发效率、质量,并能大大缩短产品开发时间。因此,FPGA已成为解决系统级设计的重要选择方案之一。本文对FPGA设计中的关键问题进行了研究,提出了设计中影响系统可靠性的主要问题和解决方案,希望对FPGA设计者有一定的参考作用。

点击此处查看原文 >>

系统分类: CPLD/FPGA   |    用户分类:    |    来源: 转贴

评论(0) | 阅读(551)
发表于:2007-9-13 20:29:40
标签:无标签

0

一篇很好的文章,学verilog的可以好好看看!(转载)

发贴心情 一篇很好的文章,学verilog的可以好好看看!(转载)
规范很重要[52RD.com]
[52RD.com]
   工作过的朋友肯定知道,公司里是很强调规范的,特别是对于大的设计(无论软件[52RD.com]
还是硬件),不按照规范走几乎是不可实现的。逻辑设计也是这样:如果不按规范做的[52RD.com]
话,过一个月后调试时发现有错,回头再看自己写的代码,估计很多信号功能都忘了,[52RD.com]
更不要说检错了;如果一个项目做了一半一个人走了,接班的估计得从头开始设计;如[52RD.com]
果需要在原来的版本基础上增加新功能,很可能也得从头来过,很难做到设计的可重用[52RD.com]
性。[52RD.com]
[52RD.com]
  [52RD.com]
[52RD.com]
[52RD.com]
在逻辑方面,我觉得比较重要的规范有这些: [52RD.com]
   1.设计必须文档化。要将设计思路,详细实现等写入文档,然后经过严格评审通过[52RD.com]
后才能进行下一步的工作。这样做乍看起来很花时间,但是从整个项目过程来看,绝对[52RD.com]
要比一上来就写代码要节约时间,且这种做法可以使项目处于可控、可实现的状态。[52RD.com]
[52RD.com]
   2.代码规范。[52RD.com]
   a.设计要参数化。比如一开始的设计时钟周期是30ns,复位周期是5个时钟周期,我[52RD.com]
们可以这么写:[52RD.com]
         parameter  CLK_PERIOD = 30;[52RD.com]
         parameter  RST_MUL_TIME = 5;[52RD.com]
         parameter  RST_TIME = RST_MUL_TIME * CLK_PERIOD;[52RD.com]
         ...[52RD.com]
         rst_n = 1'b0;[52RD.com]
         # RST_TIME rst_n = 1'b1;[52RD.com]
         ...[52RD.com]
         # CLK_PERIOD/2 clk <= ~clk;[52RD.com]
    如果在另一个设计中的时钟是40ns,复位周期不变,我们只需对CLK_PERIOD进行重[52RD.com]
新例化就行了,从而使得代码更加易于重用。[52RD.com]
[52RD.com]
   b.信号命名要规范化。[52RD.com]
   1) 信号名一律小写,参数用大写。[52RD.com]
   2) 对于低电平有效的信号结尾要用_n标记,如rst_n。[52RD.com]
   3) 端口信号排列要统一,一个信号只占一行,最好按输入输出及从哪个模块来到哪[52RD.com]
个模块去的关系排列,这样在后期仿真验证找错时后  方便很多。如:[52RD.com]
      module a([52RD.com]
               //input[52RD.com]
               clk,[52RD.com]
               rst_n,   //globle signal[52RD.com]
               wren,[52RD.com]
               rden,[52RD.com]
               avalon_din,  //related to avalon bus[52RD.com]
               sdi,         //related to serial port input[52RD.com]
               //output[52RD.com]
               data_ready,[52RD.com]
               avalon_dout, //related to avalon bus[52RD.com]
               ...[52RD.com]
              );[52RD.com]
      4) 一个模块尽量只用一个时钟,这里的一个模块是指一个module或者是一个en[52RD.com]
tity。在多时钟域的设计中涉及到跨时钟域的设计中最好有专门一个模块做时钟域的隔[52RD.com]
离。这样做可以让综合器综合出更优的结果。[52RD.com]
      5) 尽量在底层模块上做逻辑,在高层尽量做例化,顶层模块只能做例化,禁止[52RD.com]
出现任何胶连逻辑(glue logic),哪怕仅仅是对某个信号取反。理由同上。[52RD.com]
      6) 在FPGA的设计上禁止用纯组合逻辑产生latch,带D触发器的latch的是允许的[52RD.com]
,比如配置寄存器就是这种类型。[52RD.com]
      7) 一般来说,进入FPGA的信号必须先同步,以提高系统工作频率(板级)。[52RD.com]
       所有模块的输出都要寄存器化,以提高工作频率,这对设计做到时序收敛也[52RD.com]
是极有好处的。[52RD.com]
      9) 除非是低功耗设计,不然不要用门控时钟--这会增加设计的不稳定性,在要[52RD.com]
用到门控时钟的地方,也要将门控信号用时钟的下降沿 打一拍再输出与时钟相与。[52RD.com]
               clk_gate_en      --------                    ----[52RD.com]
              -----------------|D     Q |------------------|     \ gate_clk[52RD.com]
_out[52RD.com]
                               |        |         ---------|      )--------[52RD.com]
-[52RD.com]
                        ------o|>       |         |        |     /[52RD.com]
                clk    |       --------           |         ----[52RD.com]
              ------------------------------------[52RD.com]
      10)禁止用计数器分频后的信号做其它模块的时钟,而要用改成时钟使能的方式[52RD.com]
,否则这种时钟满天飞的方式对设计的可靠性极为不利,也大大增加了静态时序分析的[52RD.com]
复杂性。如FPGA的输入时钟是25M的,现在系统内部要通过RS232与PC通信,要以rs232_[52RD.com]
1xclk的速率发送数据。[52RD.com]
        不要这样做:[52RD.com]
        always (posedge rs232_1xclk or negedge rst_n)[52RD.com]
        begin[52RD.com]
            ...[52RD.com]
        end[52RD.com]
        而要这样做:[52RD.com]
        always (posedge clk_25m or negedge rst_n)[52RD.com]
        begin[52RD.com]
            ...[52RD.com]
            else if ( rs232_1xclk == 1'b1 )[52RD.com]
            ...[52RD.com]
        end[52RD.com]
      11)状态机要写成3段式的(这是最标准的写法),即[52RD.com]
         ...[52RD.com]
         always @(posedge clk or negedge rst_n)[52RD.com]
         ...[52RD.com]
             current_state <= next_state;[52RD.com]
         ...[52RD.com]
         always @ (current_state ...)[52RD.com]
         ...[52RD.com]
         case(current_state)[52RD.com]
               ...[52RD.com]
               s1:[52RD.com]
                  if ...[52RD.com]
                    next_state = s2;[52RD.com]
               ...[52RD.com]
         ...[52RD.com]
         always @(posedge clk or negedge rst_n)[52RD.com]
         ...[52RD.com]
             else[52RD.com]
                a <= 1'b0;[52RD.com]
                c <= 1'b0;[52RD.com]
                c <= 1'b0;            //赋默认值[52RD.com]
                 case(current_state)[52RD.com]
                     s1:[52RD.com]
                         a <= 1'b0;   //由于上面赋了默认值,这里就不用再对b[52RD.com]
、c赋值了(b、c在该状态为0,不会产生锁存器,下同)[52RD.com]
                     s2:[52RD.com]
                         b <= 1'b1;[52RD.com]
                     s3:[52RD.com]
                         c <= 1'b1;[52RD.com]
                     default:[52RD.com]
                     ...[52RD.com]
        ...[52RD.com]
[52RD.com]
      3.ALTERA参考设计准则[52RD.com]
       1) Ensure Clock, Preset, and Clear configurations are free of glitch[52RD.com]
es.[52RD.com]
       2) Never use Clocks consisting of more than one level of combinatori[52RD.com]
al logic.[52RD.com]
       3) Carefully calculate setup times and hold times for multi-Clock sy[52RD.com]
stems.[52RD.com]
       4) Synchronize signals between flipflops in multi-Clock systems when[52RD.com]
the setup and hold time requirements cannot be met.[52RD.com]
       5) Ensure that Preset and Clear signals do not contain race conditio[52RD.com]
ns.[52RD.com]
       6) Ensure that no other internal race conditions exist.[52RD.com]
       7) Register all glitch-sensitive outputs.[52RD.com]
        Synchronize all asynchronous inputs.[52RD.com]
       9) Never rely on delay chains for pin-to-pin or internal delays.[52RD.com]
       10)Do not rely on Power-On Reset. Use a master Reset pin to clear al[52RD.com]
l flipflops.[52RD.com]
       11)Remove any stuck states from state machines or synchronous logic.[52RD.com]
[52RD.com]
    其它方面的规范一时没有想到,想到了再写,也欢迎大家补充。[52RD.com]
[52RD.com]
[52RD.com]
====================================================================================[52RD.com]
时序是设计出来的[52RD.com]
   我的boss有在华为及峻龙工作的背景,自然就给我们讲了一些华为及altera做逻辑[52RD.com]
的一些东西,而我们的项目规范,也基本上是按华为的那一套去做。在工作这几个月中[52RD.com]
,给我感触最深的是华为的那句话:时序是设计出来的,不是仿出来的,更不是湊出来[52RD.com]
的。[52RD.com]
[52RD.com]
   在我们公司,每一个项目都有很严格的评审,只有评审通过了,才能做下一步的工[52RD.com]
作。以做逻辑为例,并不是一上来就开始写代码,而是要先写总体设计方案和逻辑详细[52RD.com]
设计方案,要等这些方案评审通过,认为可行了,才能进行编码,一般来说这部分工作[52RD.com]
所占的时间要远大于编码的时间。[52RD.com]
[52RD.com]
   总体方案主要是涉及模块划分,一级模块和二级模块的接口信号和时序(我们要求[52RD.com]
把接口信号的时序波形描述出来)以及将来如何测试设计。在这一级方案中,要保证在[52RD.com]
今后的设计中时序要收敛到一级模块(最后是在二级模块中)。什么意思呢?我们在做[52RD.com]
详细设计的时候,对于一些信号的时序肯定会做一些调整的,但是这种时序的调整最多[52RD.com]
只能波及到本一级模块,而不能影响到整个设计。记得以前在学校做设计的时候,由于[52RD.com]
不懂得设计时序,经常因为有一处信号的时序不满足,结果不得不将其它模块信号的时[52RD.com]
序也改一下,搞得人很郁闷。[52RD.com]
[52RD.com]
   在逻辑详细设计方案这一级的时候,我们已经将各级模块的接口时序都设计出来了[52RD.com]
,各级模块内部是怎么实现的也基本上确定下来了。[52RD.com]
[52RD.com]
   由于做到这一点,在编码的时候自然就很快了,最重要的是这样做后可以让设计会[52RD.com]
一直处于可控的状态,不会因为某一处的错误引起整个设计从头进行。[52RD.com]
[52RD.com]
[52RD.com]
   版权所有,未经作者允许,禁止用于商业性质的转载;如对此文有疑问或想给作者[52RD.com]
提建议请给作者发email:wangdian@tom.com  [52RD.com]
[52RD.com]
[52RD.com]
[52RD.com]
[52RD.com]
EDA论坛 版权所有,严禁拷贝! 转载请联系bbs@edacn.net[52RD.com]
[52RD.com]
=============================================================================================[52RD.com]
如何提高电路工作频率[52RD.com]
[52RD.com]
   对于设计者来说,我们当然希望我们设计的电路的工作频率(在这里如无特别说明[52RD.com]
,工作频率指FPGA片内的工作频率)尽量高。我们也经常听说用资源换速度,用流水的[52RD.com]
方式可以提高工作频率,这确实是一个很重要的方法,今天我想进一步去分析该如何提[52RD.com]
高电路的工作频率。[52RD.com]
[52RD.com]
   我们先来分析下是什么影响了电路的工作频率。[52RD.com]
[52RD.com]
   我们电路的工作频率主要与寄存器到寄存器之间的信号传播时延及clock skew有关[52RD.com]
。在FPGA内部如果时钟走长线的话,clock skew很小,基本上可以忽略, 在这里为了简[52RD.com]
单起见,我们只考虑信号的传播时延的因素。[52RD.com]
[52RD.com]
   信号的传播时延包括寄存器的开关时延、走线时延、经过组合逻辑的时延(这样划[52RD.com]
分或许不是很准确,不过对分析问题来说应该是没有可以的),要提高电路的工作频率[52RD.com]
,我们就要在这三个时延中做文章,使其尽可能的小。[52RD.com]
[52RD.com]
   我们先来看开关时延,这个时延是由器件物理特性决定的,我们没有办法去改变,[52RD.com]
所以我们只能通过改变走线方式和减少组合逻辑的方法来提高工作频率。[52RD.com]
[52RD.com]
   1.通过改变走线的方式减少时延。[52RD.com]
   以altera的器件为例,我们在quartus里面的timing closure floorplan可以看到有[52RD.com]
很多条条块块,我们可以将条条块块按行和按列分,每一个条块代表1个LAB,每个LAB里[52RD.com]
有8个或者是10个LE。它们的走线时延的关系如下:同一个LAB中(最快) < 同列或者同[52RD.com]
行 < 不同行且不同列。[52RD.com]
   我们通过给综合器加适当的约束(不可贪心,一般以加5%裕量较为合适,比如电路[52RD.com]
工作在100Mhz,则加约束加到105Mhz就可以了,贪心效果反而不好,且极大增加综合时[52RD.com]
间)可以将相关的逻辑在布线时尽量布的靠近一点,从而减少走线的时延。(注:约束[52RD.com]
的实现不完全是通过改进布局布线方式去提高工作频率,还有其它的改进措施)[52RD.com]
[52RD.com]
   2.通过减少组合逻辑的减少时延。[52RD.com]
   上面我们讲了可以通过加约束来提高工作频率,但是我们在做设计之初可万万不可[52RD.com]
将提高工作频率的美好愿望寄托在加约束上,我们要通过合理的设计去避免出现大的组[52RD.com]
合逻辑,从而提高电路的工作频率,这才能增强设计的可移植性,才可以使得我们的设[52RD.com]
计在移植到另一同等速度级别的芯片时还能使用。[52RD.com]
   我们知道,目前大部分FPGA都基于4输入LUT的,如果一个输出对应的判断条件大于[52RD.com]
四输入的话就要由多个LUT级联才能完成,这样就引入一级组合逻辑时延,我们要减少组[52RD.com]
合逻辑,无非就是要输入条件尽可能的少,,这样就可以级联的LUT更少,从而减少了组[52RD.com]
合逻辑引起的时延。[52RD.com]
   我们平时听说的流水就是一种通过切割大的组合逻辑(在其中插入一级或多级D触发[52RD.com]
器,从而使寄存器与寄存器之间的组合逻辑减少)来提高工作频率的方法。比如一个32[52RD.com]
位的计数器,该计数器的进位链很长,必然会降低工作频率,我们可以将其分割成4位和[52RD.com]
8位的计数,每当4位的计数器计到15后触发一次8位的计数器,这样就实现了计数器的切[52RD.com]
割,也提高了工作频率。[52RD.com]
   在状态机中,一般也要将大的计数器移到状态机外,因为计数器这东西一般是经常[52RD.com]
是大于4输入的,如果再和其它条件一起做为状态的跳变判据的话,必然会增加LUT的级[52RD.com]
联,从而增大组合逻辑。以一个6输入的计数器为例,我们原希望当计数器计到111100后[52RD.com]
状态跳变,现在我们将计数器放到状态机外,当计数器计到111011后产生个enable信号[52RD.com]
去触发状态跳变,这样就将组合逻辑减少了。[52RD.com]
[52RD.com]
   上面说的都是可以通过流水的方式切割组合逻辑的情况,但是有些情况下我们是很[52RD.com]
难去切割组合逻辑的,在这些情况下我们又该怎么做呢?[52RD.com]
[52RD.com]
   状态机就是这么一个例子,我们不能通过往状态译码组合逻辑中加入流水。如果我[52RD.com]
们的设计中有一个几十个状态的状态机,它的状态译码逻辑将非常之巨大,毫无疑问,[52RD.com]
这极有可能是设计中的关键路径。那我们该怎么做呢?还是老思路,减少组合逻辑。我[52RD.com]
们可以对状态的输出进行分析,对它们进行重新分类,并根据这个重新定义成一组组小[52RD.com]
状态机,通过对输入进行选择(case语句)并去触发相应的小状态机,从而实现了将大的[52RD.com]
状态机切割成小的状态机。在ATA6的规范中(硬盘的标准),输入的命令大概有20十种[52RD.com]
,每一个命令又对应很多种状态,如果用一个大的状态机(状态套状态)去做那是不可[52RD.com]
想象的,我们可以通过case语句去对命令进行译码,并触发相应的状态机,这样做下来[52RD.com]
这一个模块的频率就可以跑得比较高了。[52RD.com]
[52RD.com]
   总结:提高工作频率的本质就是要减少寄存器到寄存器的时延,最有效的方法就是[52RD.com]
避免出现大的组合逻辑,也就是要尽量去满足四输入的条件,减少LUT级联的数量。我们[52RD.com]
可以通过加约束、流水、切割状态的方法提高工作频率。[52RD.com]
[52RD.com]
===================================================================================[52RD.com]
做逻辑的难点在于系统结构设计和仿真验证[52RD.com]
   刚去公司的时候BOSS就和我讲,做逻辑的难点不在于RTL级代码的设计,而在于系统[52RD.com]
结构设计和仿真验证方面。目前国内对可综合的设计强调的比较多,而对系统结构设计[52RD.com]
和仿真验证方面似乎还没有什么资料,这或许也从一个侧面反映了国内目前的设计水平[52RD.com]
还比较低下吧。[52RD.com]
[52RD.com]
   以前在学校的时候,总是觉得将RTL级代码做好就行了,仿真验证只是形式而已,所[52RD.com]
以对HDL的行为描述方面的语法不屑一顾,对testbench也一直不愿意去学--因为觉得画[52RD.com]
波形图方便;对于系统结构设计更是一点都不懂了。[52RD.com]
[52RD.com]
   到了公司接触了些东西才发现完全不是这样。[52RD.com]
[52RD.com]
   其实在国外,花在仿真验证上的时间和人力大概是花在RTL级代码上的两倍,现在仿[52RD.com]
真验证才是百万门级芯片设计的关键路径。仿真验证的难点主要在于怎么建模才能完全[52RD.com]
和准确地去验证设计的正确性(主要是提高代码覆盖),在这过程中,验证速度也是很[52RD.com]
重要的。[52RD.com]
[52RD.com]
   验证说白了也就是怎么产生足够覆盖率的激励源,然后怎么去检测错误。我个人认[52RD.com]
为,在仿真验证中,最基本就是要做到验证的自动化。这也是为什么我们要写testbenc[52RD.com]
h的原因。在我现在的一个设计中,每次跑仿真都要一个小时左右(这其实算小设计)。[52RD.com]
由于画波形图无法做到验证自动化,如果用通过画波形图来仿真的话,一是画波形会画[52RD.com]
死(特别是对于算法复杂的、输入呈统计分布的设计),二是看波形图要看死,三是检[52RD.com]
错率几乎为零。[52RD.com]
[52RD.com]
   那么怎么做到自动化呢?我个人的水平还很有限,只能简单地谈下BFM(bus funct[52RD.com]
ion model,总线功能模型)。[52RD.com]
[52RD.com]
   以做一个MAC的core为例(背板是PCI总线),那么我们需要一个MAC_BFM和PCI_BFM[52RD.com]
及PCI_BM(PCI behavior model)。MAC_BFM的主要功能是产生以太网帧(激励源),随[52RD.com]
机的长度和帧头,内容也是随机的,在发送的同时也将其复制一份到PCI_BM中;PCI_BFM[52RD.com]
的功能则是仿PCI总线的行为,比如被测收到了一个正确帧后会向PCI总线发送一个[52RD.com]
请求,PCI_BFM则会去响应它,并将数据收进来;PCI_BM的主要功能是将MAC_BFM发送出[52RD.com]
来的东西与PCI_BFM接收到的东西做比较,由于它具有了MAC_BFM的发送信息和PCI_BFM的[52RD.com]
接收信息,只要设计合理,它总是可以自动地、完全地去测试被测是否工作正常,[52RD.com]
从而实现自动检测。[52RD.com]
[52RD.com]
   华为在仿真验证方面估计在国内来说是做的比较好的,他们已建立起了比较好的验[52RD.com]
证平台,大部分与通信有关的BFM都做好了,听我朋友说,现在他们只需要将被测放[52RD.com]
在测试平台中,并配置好参数,就可以自动地检测被测功能的正确与否。[52RD.com]
[52RD.com]
   在功能仿真做完后,由于我们做在是FPGA的设计,在设计时已经基本保证RTL级代码[52RD.com]
在综合结果和功能仿真结果的一致性,只要综合布局布线后的静态时序报告没有违反时[52RD.com]
序约束的警告,就可以下到板子上去调试了。事实上,在华为中兴,他们做FPGA的设计[52RD.com]
时也是不做时序仿真的,因为做时序仿真很花时间,且效果也不见得比看静态时序分析[52RD.com]
报告好。[52RD.com]
[52RD.com]
   当然了,如果是ASIC的设计话,它们的仿真验证的工作量要大一些,在涉及到多时[52RD.com]
钟域的设计时,一般还是做后仿的。不过在做后仿之前,也一般会先用形式验证工具和[52RD.com]
通过静态时序分序报告去查看有没有违反设计要求的地方,这样做了之后,后仿的工作[52RD.com]
量可以小很多。[52RD.com]
[52RD.com]
   在HDL语言方面,国内语言很多人都在争论VHDL和verilog哪个好,其实我个人认为[52RD.com]
这并没有多大的意义,外面的大公司基本上都是用verilog在做RTL级的代码,所以还是[52RD.com]
建议大家尽量学verilog。在仿真方面,由于VHDL在行为级建模方面弱于verilog,用VH[52RD.com]
DL做仿真模型的很少,当然也不是说verilog就好,其实verilog在复杂的行为级建模方[52RD.com]
面的能力也是有限的,比如目前它还不支持数组。在一些复杂的算法设计中,需要高级[52RD.com]
语言做抽象才能描述出行为级模型。在国外,仿真建模很多都是用System C和E语言,用[52RD.com]
verilog的都算是很落后的了,国内华为的验证平台好像是用System C写。[52RD.com]
[52RD.com]
   在系统结构设计方面,由于我做的设计还不够大,还谈不上什么经验,只是觉得必[52RD.com]
须要具备一些计算机系统结构的知识才行。划分的首要依据是功能,之后是选择合适的[52RD.com]
总线结构、存储结构和处理器架构,通过系统结构划分要使各部分功能模块清晰,易于[52RD.com]
实现。这一部分我想过段时间有一点体会了再和大家分享,就先不误导大家了。

点击此处查看原文 >>

系统分类: CPLD/FPGA   |    用户分类:    |    来源: 转贴

评论(0) | 阅读(852)
发表于:2007-9-13 20:03:12
标签:FPGA  

0

FPGA和CPLD基本结构

FPGA和CPLD基本结构(转)

一、FPGA的基本结构
    FPGA由6部分组成,分别为可编程输入/输出单元、基本可编程逻辑单元、嵌入式块RAM、丰富的布线资源、底层嵌入功能单元和内嵌专用硬核等。
    每个单元简介如下:
    1.可编程输入/输出单元(I/O单元)
      目前大多数FPGA的I/O单元被设计为可编程模式,即通过软件的灵活配置,可适应不同的电器标准与I/O物理特性;可以调整匹配阻抗特性,上下拉电阻;可以调整输出驱动电流的大小等。
    2.基本可编程逻辑单元
      FPGA的基本可编程逻辑单元是由查找表(LUT)和寄存器(Register)组成的,查找表完成纯组合逻辑功能。FPGA内部寄存器可配置为带同步/异步复位和置位、时钟使能的触发器,也可以配置成为锁存器。FPGA一般依赖寄存器完成同步时序逻辑设计。一般来说,比较经典的基本可编程单元的配置是一个寄存器加一个查找表,但不同厂商的寄存器和查找表的内部结构有一定的差异,而且寄存器和查找表的组合模式也不同。
     学习底层配置单元的LUT和Register比率的一个重要意义在于器件选型和规模估算。由于FPGA内部除了基本可编程逻辑单元外,还有嵌入式的RAM、PLL或者是DLL,专用的Hard IP Core等,这些模块也能等效出一定规模的系统门,所以简单科学的方法是用器件的Register或LUT的数量衡量。
    3.嵌入式块RAM
    目前大多数FPGA都有内嵌的块RAM。嵌入式块RAM可以配置为单端口RAM、双端口RAM、伪双端口RAM、CAM、FIFO等存储结构。
    CAM,即为内容地址存储器。写入CAM的数据会和其内部存储的每一个数据进行比较,并返回与端口数据相同的所有内部数据的地址。简单的说,RAM是一种写地址,读数据的存储单元;CAM与RAM恰恰相反。
    除了块RAM,Xilinx和Lattice的FPGA还可以灵活地将LUT配置成RAM、ROM、FIFO等存储结构。
    4.丰富的布线资源
    布线资源连通FPGA内部所有单元,连线的长度和工艺决定着信号在连线上的驱动能力和传输速度。布线资源的划分:
    1)全局性的专用布线资源:以完成器件内部的全局时钟和全局复位/置位的布线;
    2)长线资源:用以完成器件Bank间的一些高速信号和一些第二全局时钟信号的布线(这里不懂什么是“第二全局时钟信号”);
    3)短线资源:用来完成基本逻辑单元间的逻辑互连与布线;
    4)其他:在逻辑单元内部还有着各种布线资源和专用时钟、复位等控制信号线。
    由于在设计过程中,往往由布局布线器自动根据输入的逻辑网表的拓扑结构和约束条件选择可用的布线资源连通所用的底层单元模块,所以常常忽略布线资源。其实布线资源的优化与使用和实现结果有直接关系。
    5.底层嵌入功能单元(书上举了很多例子,不过这些东东要看具体哪个厂商的哪种型号的芯片上嵌有什么资源决定)
    6.内嵌专用硬核
    与“底层嵌入单元”是有区别的,这里指的硬核主要是那些通用性相对较弱,不是所有FPGA器件都包含硬核。
二、CPLD的基本结构
  CPLD主要由可编程I/O单元、基本逻辑单元、布线池和其他辅助功能模块构成。
  1.可编程逻辑单元
    作用与FPGA的基本I/O口相同,但是CPLD应用范围局限性较大,I/O的性能和复杂度与FPGA相比有一定的差距,支撑的I/O标准较少,频率也较低。
  2.基本逻辑单元
    CPLD中基本逻辑单元是宏单元。所谓宏单元就是由一些与、或阵列加上触发器构成的,其中“与或”阵列完成组合逻辑功能,触发器用以完成时序逻辑。
    与CPLD基本逻辑单元相关的另外一个重要概念是乘积项。所谓乘积项就是宏单元中与阵列的输出,其数量标志了CPLD容量。乘积项阵列实际上就是一个“与或”阵列,每一个交叉点都是一个可编程熔丝,如果导通就是实现“与”逻辑,在“与”阵列后一般还有一个“或”阵列,用以完成最小逻辑表达式中的“或”关系。
  3.布线池、布线矩阵
    CPLD中的布线资源比FPGA的要简单的多,布线资源也相对有限,一般采用集中式布线池结构。所谓布线池其本质就是一个开关矩阵,通过打结点可以完成不同宏单元的输入与输出项之间的连接。由于CPLD器件内部互连资源比较缺乏,所以在某些情况下器件布线时会遇到一定的困难。由于CPLD的布线池结构固定,所以CPLD的输入管脚到输出管脚的标准延时固定,被成为Pin to Pin延时,用Tpd表示,Tpd延时反映了CPLD器件可以实现的最高频率,也就清晰地表明了CPLD器件的速度等级。
  4.其他辅助功能模块
    如JTAG编程模块,一些全局时钟、全局使能、全局复位/置位单元等。

点击此处查看原文 >>

系统分类: CPLD/FPGA   |    用户分类:    |    来源: 转贴

评论(0) | 阅读(913)
发表于:2007-8-25 20:58:42
标签:无标签

0

DS1084的控制程序

     这两天在调了一个DS1804的控制程序,昨天程序就写好了,可是加上去之后却怎么也没有反应,换了几个片子都是一样的效果,气的我真是无语,结果现在才发现是有一根电源线没有接稳。哎呀,吐血呀,以后做事情一定要细心才行,特别是我们电子这一行,如果你没有足够的耐心,又不够细心的话,那你干脆改行吧!

//通过判断两个比较端的输出信号,来控制两个数字电位器的滑动,以实现信号的放大和衰减
module ds1804(clk,key1,key2,cs,inc,up_dn,cnt_up_dn);
 input clk;
 input key1,key2;
 output cs,inc,up_dn;
 output [7:0] cnt_up_dn;
 
 wire [1:0] key;
 reg cs,inc,up_dn;
 reg clk1;
 reg key1_1,key1_2,key2_1,key2_2;
 reg [2:0] cnt_clk;
 reg [7:0] cnt_up_dn;
 reg [2:0] state;
 parameter s0=0,s1=1,s2=2,s3=3,s4=4,s5=5,s6=6;

 initial
 begin
  cs<=1'b1;
  up_dn<=1'b0;
 end

 always @(posedge clk)
 begin
  cnt_clk=cnt_clk+1'b1;
  if (cnt_clk<3'b100)
   clk1<=1'b1;
  else
   clk1<=1'b0;
 end

 always @(posedge clk1)
 begin
  key1_1<=key1;
  key1_2<=key1_1;
  key2_1<=key2;
  key2_2<=key2_1;
 end

 always @(posedge clk1)
 begin
  case (state)
   s0:
    begin
     cs<=1'b0;
     inc<=1'b1;
     if (key1_1 && !key1_2)             //when key1 have

//a rise edge,the wiper position move to H-terminal
      begin
       up_dn<=1'b1;
       cnt_up_dn<=cnt_up_dn+1'b1;
       state<=s1;
      end 
     else if (key2_1 && !key2_2)        //when key2 have

//a rise edge,the wiper position move to -terminal
      begin
       up_dn<=1'b0;
       cnt_up_dn<=cnt_up_dn-1'b1;  

    
       state<=s1;
      end
     else
      state<=s0;
    end
   s1:
    begin
     inc<=1'b0;      


     state<=s2;     
    end
   s2:
    begin
     inc<=1'b1;
     state<=s3;
    end
   s3:
    begin
     cs<=1'b1;
     state<=s0;
    end
  endcase  
 end
endmodule 
 

 

点击此处查看原文 >>

系统分类: 资源共享   |    用户分类:    |    来源: 原创

评论(0) | 阅读(706)
总共 , 当前 /