Add single-dispatch layer-by-layer multi-head attention by andrej · Pull Request #91 · amd/IRON

andrej · 2026-04-06T22:48:34Z

"Naive" alternative implementation for multi-head attention from the currently checked-in data-flow design. This is a simple layer-by-layer implementation, but it uses the single-dispatch mechanism to fuse it all into one MLIR file and save on CPU roundtrips and XRT overheads.

Includes two variants:

"core": Only does the core matmuls and softmax; assumes projected and repeated inputs Q, K, V. This matches the functionality of the checked-in dataflow MHA.
"projected": Performs the Q, K, V projections, applies a RoPE positional embedding and repeats K and V matrices for grouped-query attention. Takes an embedding vector and RoPE angles as input.

andrej · 2026-04-06T22:49:32Z

iron/operators/mha_prefill_lxl_sd/reference.py

Can we reuse the reference from the existing mha? (Note: does not include RoPE and Q, K, V projections, but some code reuse should be possible.)

github-actions · 2026-04-07T21:05:59Z

📊 Test Results for Test Example Applications

1d87fe8 (2026_04_07_21_05_39)

IRONCLAD

Tested on 2026_04_07_21_05_39 at commit 1d87fe8.

Test	Checks	TTFT (mean)	TPS (mean)
llama_3.2_1b_prompt_1024_tokens_1	✅ 5/5	2.13	n/a
llama_3.2_1b_prompt_1024_tokens_40	✅ 5/5	2.18	4.31
llama_3.2_1b_prompt_13_tokens_1	✅ 5/5	2.09	n/a
llama_3.2_1b_prompt_13_tokens_40	✅ 5/5	2.09	4.31

📈 Trends (vs main branch) for Test Example Applications

1d87fe8 (2026_04_07_21_05_39)

IRONCLAD Trends

llama_3.2_1b

Commit/Date	Num Tokens (max)	Num Tokens (mean)	Num Tokens (median)	Num Tokens (min)	Num Tokens (stddev)	TPS (max)	TPS (mean)	TPS (median)	TPS (min)	TPS (stddev)	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)	Total (max)	Total (mean)	Total (median)	Total (min)	Total (stddev)
`130b6ea` — 2025-12-05 21:33:12	40.00 (+0.00%)	40.00 (+0.00%)	40.00 (+0.00%)	40.00 (+0.00%)	0.00 (n/a)	4.71 (-0.42%)	4.64 (-0.09%)	4.64 (+0.65%)	4.55 (-0.22%)	0.05 (-17.66%)	4.41 (-0.34%)	4.39 (-0.19%)	4.38 (-0.33%)	4.37 (-0.15%)	0.01 (-25.90%)	12.96 (-0.00%)	12.80 (+0.07%)	12.80 (-0.23%)	12.67 (+0.44%)	0.09 (-21.12%)
`0a6c11c` — 2025-12-03 23:35:15	40.00 (n/a)	40.00 (n/a)	40.00 (n/a)	40.00 (n/a)	0.00 (n/a)	4.73 (n/a)	4.64 (n/a)	4.61 (n/a)	4.56 (n/a)	0.06 (n/a)	4.42 (n/a)	4.40 (n/a)	4.40 (n/a)	4.37 (n/a)	0.02 (n/a)	12.96 (n/a)	12.79 (n/a)	12.83 (n/a)	12.62 (n/a)	0.12 (n/a)

llama_3.2_1b_prompt_1024_tokens_1

Commit/Date	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`1d87fe8` — 2026-04-07 21:00:00	2.15 (+0.09%)	2.13 (+0.08%)	2.13 (-0.42%)	2.12 (+0.62%)	0.01 (-31.21%)
`912e6bc` — 2026-04-07 19:08:43	2.15 (n/a)	2.13 (n/a)	2.13 (n/a)	2.11 (n/a)	0.02 (n/a)

llama_3.2_1b_prompt_1024_tokens_40

Commit/Date	TPS (max)	TPS (mean)	TPS (median)	TPS (min)	TPS (stddev)	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`1d87fe8` — 2026-04-07 21:00:00	4.33 (+2.90%)	4.31 (+3.44%)	4.31 (+3.58%)	4.29 (+3.77%)	0.01 (-46.93%)	2.29 (+0.48%)	2.18 (+0.83%)	2.15 (+0.80%)	2.13 (+0.61%)	0.07 (-4.73%)
`912e6bc` — 2026-04-07 19:08:43	4.21 (n/a)	4.17 (n/a)	4.16 (n/a)	4.14 (n/a)	0.03 (n/a)	2.28 (n/a)	2.16 (n/a)	2.13 (n/a)	2.12 (n/a)	0.07 (n/a)

llama_3.2_1b_prompt_13_tokens_1

Commit/Date	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`1d87fe8` — 2026-04-07 21:00:00	2.10 (-0.10%)	2.09 (+0.11%)	2.09 (+0.19%)	2.09 (+0.00%)	0.01 (+8.87%)
`912e6bc` — 2026-04-07 19:08:43	2.10 (n/a)	2.09 (n/a)	2.09 (n/a)	2.09 (n/a)	0.01 (n/a)

llama_3.2_1b_prompt_13_tokens_40

Commit/Date	TPS (max)	TPS (mean)	TPS (median)	TPS (min)	TPS (stddev)	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`1d87fe8` — 2026-04-07 21:00:00	4.36 (+4.23%)	4.31 (+3.57%)	4.30 (+3.44%)	4.29 (+3.23%)	0.03 (+128.30%)	2.09 (-0.38%)	2.09 (-0.04%)	2.09 (+0.00%)	2.08 (+0.44%)	0.01 (-34.93%)
`912e6bc` — 2026-04-07 19:08:43	4.18 (n/a)	4.16 (n/a)	4.16 (n/a)	4.15 (n/a)	0.01 (n/a)	2.10 (n/a)	2.09 (n/a)	2.09 (n/a)	2.07 (n/a)	0.01 (n/a)

llama_3.2_1b_prompt_2048_tokens_1

Commit/Date	Num_Tokens (max)	Num_Tokens (mean)	Num_Tokens (median)	Num_Tokens (min)	Num_Tokens (stddev)	TPS (max)	TPS (mean)	TPS (median)	TPS (min)	TPS (stddev)	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`897d04e` — 2026-03-06 22:56:07	1.00 (+0.00%)	1.00 (+0.00%)	1.00 (+0.00%)	1.00 (+0.00%)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	2.68 (-1.06%)	2.68 (-1.06%)	2.68 (-1.06%)	2.68 (-1.06%)	0.00 (n/a)
`84d3478` — 2026-02-17 23:16:23	1.00 (n/a)	1.00 (n/a)	1.00 (n/a)	1.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	0.00 (n/a)	2.70 (n/a)	2.70 (n/a)	2.70 (n/a)	2.70 (n/a)	0.00 (n/a)

llama_3.2_1b_prompt_2048_tokens_40

Commit/Date	Num_Tokens (max)	Num_Tokens (mean)	Num_Tokens (median)	Num_Tokens (min)	Num_Tokens (stddev)	TPS (max)	TPS (mean)	TPS (median)	TPS (min)	TPS (stddev)	TTFT (max)	TTFT (mean)	TTFT (median)	TTFT (min)	TTFT (stddev)
`897d04e` — 2026-03-06 22:56:07	40.00 (+0.00%)	40.00 (+0.00%)	40.00 (+0.00%)	40.00 (+0.00%)	0.00 (n/a)	4.00 (-1.72%)	4.00 (-1.72%)	4.00 (-1.72%)	4.00 (-1.72%)	0.00 (n/a)	2.70 (-0.44%)	2.70 (-0.44%)	2.70 (-0.44%)	2.70 (-0.44%)	0.00 (n/a)
`84d3478` — 2026-02-17 23:16:23	40.00 (n/a)	40.00 (n/a)	40.00 (n/a)	40.00 (n/a)	0.00 (n/a)	4.07 (n/a)	4.07 (n/a)	4.07 (n/a)	4.07 (n/a)	0.00 (n/a)	2.71 (n/a)	2.71 (n/a)	2.71 (n/a)	2.71 (n/a)	0.00 (n/a)

andrej commented Apr 6, 2026

View reviewed changes

andrej added 8 commits April 7, 2026 13:59

add single-dispatch layer-by-layer MHA

c69a3ad

add GPT-2 sizes as test cases, make causal mask an option

1bc9bc3

as benchmarked

b698e02

fix DMA dimension overflow

1da4d56

create separate attn_scores_scaled buffer

b1d1e58

move output GEMM out of core MHA

2b45766

remove symbol renaming after rebase to use link_with, other fixes

6e4aed4

format

675c212

andrej force-pushed the mha-lxl-sd branch from df28cf6 to 675c212 Compare April 7, 2026 20:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add single-dispatch layer-by-layer multi-head attention#91

Add single-dispatch layer-by-layer multi-head attention#91
andrej wants to merge 8 commits intoamd:develfrom
andrej:mha-lxl-sd

andrej commented Apr 6, 2026 •

edited

Loading

Uh oh!

andrej Apr 6, 2026

Uh oh!

github-actions bot commented Apr 7, 2026

IRONCLAD

IRONCLAD Trends

llama_3.2_1b

llama_3.2_1b_prompt_1024_tokens_1

llama_3.2_1b_prompt_1024_tokens_40

llama_3.2_1b_prompt_13_tokens_1

llama_3.2_1b_prompt_13_tokens_40

llama_3.2_1b_prompt_2048_tokens_1

llama_3.2_1b_prompt_2048_tokens_40

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

andrej commented Apr 6, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

andrej Apr 6, 2026

Choose a reason for hiding this comment

Uh oh!

github-actions bot commented Apr 7, 2026

IRONCLAD

IRONCLAD Trends

llama_3.2_1b

llama_3.2_1b_prompt_1024_tokens_1

llama_3.2_1b_prompt_1024_tokens_40

llama_3.2_1b_prompt_13_tokens_1

llama_3.2_1b_prompt_13_tokens_40

llama_3.2_1b_prompt_2048_tokens_1

llama_3.2_1b_prompt_2048_tokens_40

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

andrej commented Apr 6, 2026 •

edited

Loading