fp8乘累加使用fp32精度

Hello,  您的代码对我们有非常大的帮助，目前还有点小问题想麻烦您提供下帮助。
1、examples/matmul/this-fp8/matmul-fp8-v0.cu这个代码使用fp8矩阵做乘累加时用的是fp16精度，能麻烦您提供一个使用fp32精度做乘累加的代码吗？
2、麻烦您再给出一个A@B+C这种带累加器的示例代码

非常期待您的回复，再次感谢您的示例代码