top | "Scene Research Station"

::Cell Broadband Engine resource center

IBMとソニー、Cell開発ソフトウェアを公開．
てことで，Cellのシミュレータやらライブラリやらサンプルが公開されました．
tutorialに入ってるベクトルの数値積分がかなり参考になります．STEP1では単純にVMXを使う例で，STEP3_multi_speは名前の通り複数のSPEを使う例．ここまでは簡単．ああ，ライブラリ使えばSPE使うの楽だな，C言語は偉大なり．等と思っていたら，STEP4_tuned_multi_speで爆裂．DMAで次に必要なデータをプリフェッチしたりで結構大変．って効率考えたらプリフェッチしない方が頭がおかしいとはいえ，結構大変だよなあ．

大変といっても，言い方を変えれば，
「今までのプログラムはアルゴリズムとデータ構造に関する自由度はあっても，データフローに関する自由度がありませんでした．しかし，Cellプログラミングはデータフローに関する自由度もあり，さらに効率の高い処理を追求することが出来ます」
って感じか．

んー，しかしそこ(DMAとか)はどう隠蔽するべきなのかな？ソフトはより複雑になり，ソフト屋はより抽象的かつ汎用的な記述を望むわけだけども，ハードはCellのようなより効率の良いアーキテクチャへと移行しようとする．その差はどう埋めるんだろう？特にCellのデータフロー(DMA操作)を隠蔽する技術は一朝一夕ではできないでしょう．
ただ，この性能を得るためにはこれを使うしかない，って状況になれば，お構いなくみんなDMAを叩きまくるんでしょうけど．

::見えてきたIntelの5～10年後のCPUアーキ

ついでに後藤弘茂のWeekly海外ニュースより．

Intelは命令セットは一緒だけど，シングルスレッド性能重視のデカコアと面積効率重視のチビコアを混載する方向に行くみたい．あー，その手があるか．面白いです．新規開発のCellとかじゃ無駄過ぎて考えられない展開ともいえますが．

ただ，本質はISAじゃなくてキャッシュ等をどうするかって事だよね．メニーコアの場合は．沢山PU載せればその分コヒーレンシを取るのが困難に成るし，共有キャッシュ等載せようものならその調停も大変な事になります．その辺はCellとかも抱えているマルチコアの本質的な問題でしょう．CellはLSという考えうる最も単純な解で解決(逃げたともいえるが)しましたが，こんな荒業はx86では許されませんからね．うーん，けどx86コードをμopに展開して実行してしまうような力技をやるIntelですから，もっと粒度の高い解析を動的にして纏まったコードをLSを持ったチビコアに割り振る位のことはするのかも？ってやったら鬼じゃん．てかきっとその解析回路が大きすぎて本末転倒．

余

最近はディスプレイ2面にノートPCやら基盤に囲まれるのに飽き足らず，オシロやらロジアナやらも僕の周りに集まってきて，さながら砦のように成ってまいりました．よくわからんけど，電磁波を浴びる量だけは多分トップクラスです．病気になりそう．

けどロジアナは便利だなあ．もう心の友だね，こいつは．デバッグが楽しくてしょうがない！(半ばヤケ)

SCENE RESEARCH STATION
	with my everyday thinking-and-doctrine

*2005.11.12

::Cell Broadband Engine resource center

::見えてきたIntelの5～10年後のCPUアーキ

余