??隨著嵌入式技術的發展,人們對系統的智能化、小型化的要求也越來越高?;?a target="_blank">ARM結構的微處理器以其高性能、低功耗、低價格等方面的優勢被廣泛應用于各種電子產品,特別是一些高端的嵌入式控制應用中,例如移動電話、工業控制、網絡通信等方面。ARM技術具有很好的性能和功效,其合作伙伴包括許多世界頂級的半導體公司。可以說ARM技術幾乎無處不在。
TCP/IP互聯網協議族在全世界范圍內已經成為開放系統互聯的協議,它提供了很好的交互操作能力,可兼容多種網絡技術。嵌入式技術與TCP/IP技術的結合已經展現出強勁的發展勢頭和巨大的市場潛力。如何開發面向 ARM的高效代碼,尤其是提高類似于TCP/IP協議棧等基礎性的軟件模塊的執行效率已成為每個從事基于ARM的嵌入式系統開發人員必須思考的問題。
面向ARM的程序優化
開發高效的程序涉及很多方面,包括優秀的算法實現、良好的編程風格以及針對目標的程序優化。程序優化是指軟件編程基本結束后,利用軟件開發工具對程序代碼進行調整和改進,使程序能夠更加充分地利用有限的軟硬件資源,縮減代碼尺寸,提高運行效率的過程。
在實際的程序設計過程中,程序優化的兩個目標(運行速度和代碼大?。┩腔ハ嗝艿?。為了提高程序運行效率,就要以犧牲存儲空間、增加代碼量為代價;而為了減少程序代碼量、壓縮存儲器空間,可能又要以降低程序運行效率為代價。按照優化的側重點不同,程序優化可分為運行速度優化和代碼尺寸優化。隨著微電子技術的不斷發展,存儲空間已不再是制約系統集成的主要因素。面向ARM的程序優化主要是討論如何在了解匯編語言和編譯規則的基礎上編寫出能夠高效運行的C語言程序。
作為高性能、低功耗的RISC芯片,ARM的C語言編譯器已經非常成熟。盡管如此,在編寫面向ARM的C源程序時,對程序進行必要的優化仍是提高程序運行效率的有效途徑。以下是一些在實現TCP/IP協議過程中用到的比較典型的優化原則和方法,這些技術也適用于其他RISC指令集微處理器。
變量定義
32位 ARM處理器的指令集支持有符號/無符號的8位、16位、32位整型和浮點型變量類型,這不僅可以節省代碼,而且可以提高代碼的運行效率。按照作用范圍的不同,C語言的變量可以劃分為全局變量和局部變量。ARM編譯器通常將全局變量定位在存儲空間中,局部變量分配給通用寄存器。
在全局變量聲明時,需要考慮最佳的存儲器布局,使得各種類型的變量能以32位的空間位基準對齊,從而減少不必要的存儲空間浪費,提高運行效率。如:
這里定義的四個變量形式相同,只是次序不同,卻導致了在最終映像中不同的數據布局,如圖1所示。顯然第二種方式節約了更多的存儲器空間。
對于局部變量,要盡量不使用32位以外的變量類型。當一個函數的局部變量數目不多時,編譯器會把局部變量分配給內部寄存器,每個變量占一個32位的寄存器。這樣short和char類型的變量不但起不到節省空間的作用,反而會耗費更多的指令周期來完成short和char的存取操作。C語言代碼及其編譯結果如下所示:
條件執行
條件執行是程序中必不可少的基本操作。典型的條件執行代碼序列是由一個比較指令開始的,接下來是一系列相關的執行語句。ARM中的條件執行是通過對運算結果標志位進行判斷實現的,一些帶標志位的運算結果中,N和Z標志位的結果與比較語句的結果相同。盡管在C語言中沒有帶標志位的指令,但在面向ARM的C語言程序中,如果運算結果是與0作比較,編譯器會移去比較指令,通過一條帶標志位指令實現運算和判斷。例如:
因此,面向ARM的C語言程序設計的條件判斷應當盡量采用“與0比較”的形式。C語言中,條件執行語句大多數應用在if條件判斷中,也有應用在復雜的關系運算(等)及位操運算(&&,!,and等)中的。面向ARM的C語言程序設計中,有符號型變量應盡量采取x& lt;0、x>=0、x==0、x!=0的關系運算;對于無符號型的變量應采用x==0、x!=0(或者x>0)關系運算符。編譯器都可以對條件執行進行優化。
對于程序設計中的條件語句,應盡量簡化if和else判斷條件。與傳統的C語言程序設計有所不同,面向ARM的C語言程序設計中,關系表述中類似的條件應該集中在一起,使編譯器能夠對判斷條件進行優化。
循環
循環是程序設計中非常普遍的結構。在嵌入式系統中,微處理器執行時間在循環中運行的比例較大,因此關注循環的執行效率是非常必要的。除了在保證系統正確工作的前提下盡量簡化核循環體的過程以外,正確和高效的循環結束標志條件也非常重要。按照以上所述的“與0比較”原則,程序中的循環結束條件應該是“減到0” 的循環,結束條件盡量簡單。應盡可能在關鍵循環中采取上述的判斷形式,這樣可以在關鍵循環中省去一些不必要的比較語句,減少不必要的開銷,提高性能。如下面二個示例:
fact1 和fact2中通過定義局部變量a來減少對n的load/store操作。fact2函數遵循了“與0比較”原則,省去了fact1編譯結果中的比較指令,并且,變量n在整個循環過程不參與運算,也不需要保存。由于省去了寄存器分配,從而給其他部分程序的編譯帶來了方便,提高了運行效率。
“減到0”的方法同樣適用于while和do語句。如果一個循環體只循環幾次,可以用展開的方法提高運行效率。當循環展開后,不需要循環計數器和相關的跳轉語句,雖然代碼的長度有所增加,但是得到了更高的執行效率。
除法和求余
ARM 指令集中沒有提供整數的除法,除法是由C語言函數庫中的代碼(符號型_rt_SDIv和無符號型的_rt_udiv)實現的。一個32位數的除法需要 20~140個周期,依賴于分子和分母的取值。除法操作所用的時間是一個時間常量乘每一位除法所需要的時間:
Time(分子/分母)=C0+C1×log2(分子/分母)
=C0+C1×(log2(分子)-log2(分母))
由于除法的執行周期長,耗費的資源多,程序設計中應當盡量避免使用除法。以下是一些避免調用除法的變通辦法:
(1)在某些特定的程序設計時,可以把除法改寫為乘法。例如:(x/y)>z,在已知y是正數而且y×z是整數的情況下,就可以寫為x>(z×y)。
(2)盡可能使用2的次方作為除數,編譯器使用移位操作完成除法,如128就比100更加適合。在程序設計中,使用無符號型的除法要快于符號型的除法。
(3)使用求余運算的一個目的是為了按模計算,這樣的操作有時可以使用if的判斷語句來完成,考慮如下的應用:
uiNTCounter1(uintcount)uintcounter2(uintcount)
{{return(++count`);if(++count>=60)}count=0;
return(count);}
(4)對于一些特殊的除法和求余運算,采用查找表的方法也可以獲得很好的運行效果。
在除以某些特定的常數時,編寫特定的函數完成此操作會比編譯產生的代碼效率高很多。ARM的C語言庫中就有二個這樣的符號型和無符號型數除以10的函數,用來完成十進制數的快速運算。在toolkit子目錄的examplesexplaSMDiv.c和examplesthumbdiv.c文件中,有這二個函數的ARM和Thumb版本。
面向ARM的程序優化在嵌入式TCP/IP協議實現中的應用
筆者采用ATMEL公司的AT91RM9200微處理器,配合以太網物理層驅動芯片(DM9161)構建面向網絡的嵌入式系統硬件平臺,如圖2所示。在此平臺上,實現基于ARM微處理器的嵌入式TCP/IP協議處理。
基于ARM的嵌入式系統直接面向以太網數據,典型的以太網數據封裝格式如圖3所示。根據以上的優化方法,在變量定義時需要考慮最佳的存儲器布局,使得各種類型的變量能以32位的空間位基準對齊,對于功能函數中參加運算的數據應盡量采用32位的數據進行處理。
嵌入式TCP/IP協議的實現通常采用Linux中的TCP/IP網絡結構層次。TCP/IP協議實現網絡層和控制層的ARP/RARP、IP、ICMP、 TCP、UDP等協議,直接為HTTP、SMTP、FTP、TELNET等這樣的應用層協議提供支持。每個系統都需要具體定義應用層程序和協議軟件之間的接口。
協議處理的一般流程如圖4所示。協議處理過程中需要多次條件判斷,對IP地址和TCP數據的校驗和處理循環比較是無法避免的,因此可以充分利用“與0比較”的條件判斷和“減到0”的循環來優化程序設計。
評論