Datenlord - 极术社区 - 连接开发者与智能计算生态

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

发布了文章 · 3月13日

从循环到融合：理解 Fused MoE 算子原理（三）

在 Part 1 中，我们通过 for 循环构建了 MoE 计算的基准模型。这种“专家视角”的实现虽然逻辑清晰，但在执行层面会产生大量细粒度的算子调用（Kernel Launch），增加了系统调度开销，难以充分利用 GPU 的并行计算能力。（参考：从循环到融合：理解 Fused MoE 算子原理（一））
发布了文章 · 2月10日

开源周报第八期

设立这一系列的初衷，是为了更透明地分享达坦科技开源项目的成长轨迹。在这里，我们不仅会同步项目近期的核心开发进展与技术突破，更将通过路线图为您揭示未来的演进方向。
发布了文章 · 1月19日

深入 NVIDIA GPU：高性能矩阵乘法算子解构（一）

深入 NVIDIA GPU：高性能矩阵乘法（Matmul）算子解构在本篇博文中，我将逐步介绍支撑最尖端（SOTA）NVIDIA GPU 矩阵乘法（matmul）算子的核心硬件概念和编程技术。
发布了文章 · 1月14日

DeepSeek-V3⽚段--分组式 Top-K

混合专家（Mixtureof Experts, MoE）作为大模型高效训练与推理的核心架构，其专家筛选环节的性能瓶颈直接制约整体系统效率。DeepSeek开源的分组式Top-K专家选择逻辑，虽在算法层面实现了专家筛选的合理性，但基于PyTorch的原生实现在通用计算架构下存在显著性能损耗，单次专家筛选操作耗时高达100微秒（μs），成为MoE推...
发布了文章 · 1月2日

开源周报第三期

设立这一系列的初衷，是为了更透明地分享达坦科技开源项目的成长轨迹。在这里，我们不仅会同步项目近期的核心开发进展与技术突破，更将通过路线图为您揭示未来的演进方向。
发布了文章 · 2025年12月24日

从结果到思路：GPU性能优化赛优胜者技术分享会即将来袭

自达坦科技GPU性能优化挑战赛启动以来，我们收到了众多技术爱好者的热烈响应与精彩提交。近日，随着公示期的圆满结束，我们正式公布本次大赛的最终获奖名单！
发布了文章 · 2025年12月11日

2025 DatenLord GPU 性能优化大赛结果正式公示！

历时数周的激烈角逐，2025 DatenLord GPU 性能优化大赛已圆满落幕！本次大赛吸引了来自全国众多高校学生与开发者的积极参与，涌现了大量优秀的GPU内核优化方案，展现了大家在高性能计算领域的深厚功底与创新思维。
发布了文章 · 2025年11月16日

从循环到融合：理解 Fused MoE 算子原理（一）

在当今大语言模型（LLM）的浪潮中，模型规模的持续扩张是提升性能的关键驱动力。然而，随着模型参数量的激增，训练和推理的计算成本也随之飙升。为了解决这一挑战，混合专家模型（Mixture-of-Experts, MoE）架构应运而生，并已成为许多前沿模型（如 Mixtral 8x7B, DeepSeek-V3）的核心技术之一。
发布了文章 · 2025年11月01日

达坦科技&琶洲实验室｜开源组会邀您上线

在AI基础设施飞速发展的今天，培养具备GPU计算能力的专业人才成为行业迫切需求。达坦科技联合琶洲实验室（黄埔）推出的「开源组会」系列活动正是这一背景下的创新实践，为AI Infra领域的人才培养开辟了新路径。
发布了文章 · 2025年10月31日

DatenLord 前沿技术分享 No.41

达坦科技始终致力于打造高性能AI+Cloud基础设施平台，积极推动AI应用的落地。达坦科技通过软硬件深度融合的方式，提供AI推理引擎和高性能网络，为AI应用提供弹性、便利、经济的基础设施服务，以此满足不同行业客户对AI+Cloud的需求。在本周的前沿技术分享中，我们邀请到了中国科学院大学在读学生许佳凯，来为大家分享从 ...
发布了文章 · 2025年10月30日

达坦科技GPU性能优化大赛：挑战极限，释放GPU终极算力！

在大模型与高性能计算深度融合的当下，充分释放GPU硬件算力已成为推动技术进步的关键环节。为探索GPU性能优化的前沿技术，培养高水平计算人才，达坦科技在2025年11月份举办 “GPU性能优化比赛” ，现正式启动赛事报名工作。
发布了文章 · 2025年09月29日

达坦科技RDMA解决方案助力国际顶尖天文观测项目论文发表

近日，由意大利国家核物理研究所（INFN）主导的国际天文观测研究团队，在切伦科夫望远镜阵列（Cherenkov Telescope Array Observatory, CTAO）项目中取得了重要突破，其最新研究成果已正式发表在《IEEE Transactions on Nuclear Science》这一期刊。
发布了文章 · 2025年09月21日

Triton 实战：从零开始构建一个 GPU 序列化算子-基础实现

在大模型时代，对极致性能的追求永无止境。作为一门为大规模并行计算而生的高性能语言，Triton 正凭借其出色的开发效率和接近硬件极限的性能，受到越来越多AI工程师的关注。在达坦科技，我们也在积极拥抱 Triton，利用它来开发和优化GPU算子，以加速大模型的推理效率。
发布了文章 · 2025年09月05日

DatenLord 前沿技术分享 No.40

达坦科技始终致力于打造高性能AI+Cloud基础设施平台，积极推动AI应用的落地。达坦科技通过软硬件深度融合的方式，提供AI推理引擎和高性能网络，为AI应用提供弹性、便利、经济的基础设施服务，以此满足不同行业客户对AI+Cloud的需求。在本周的前沿技术分享中，我们邀请到了软硬件联合开发工程师陈添，来为大家分享Triton ...
发布了文章 · 2025年07月11日

【2025 RISC-V中国峰会 x DatenLord】硬件敏捷开发与验证方法学研讨会预告

2025年，全球开源芯片开放架构技术的盛会——第五届RISC-V中国峰会将于7月16日至19日上海张江科学会堂盛大召开。本届中国峰会将聚焦人工智能、高性能计算、汽车电子、软件与生态系统、教育与人才培养、前沿技术创新、EDA、投资与并购等九大热门话题，采用“主论坛+专题研讨+生态展览+开发者活动”的多元形式，汇聚全球顶尖专...
发布了文章 · 2025年06月15日

虚拟 RDMA 设备驱动实现（二）：从零构建一个内核可识别的RDMA设备

在《虚拟 RDMA 设备驱动实现（一）：环境配置与Linux内核模块初探》中，我们已经完成了内核驱动开发所需的基础设施构建。通过部署一个标准化的虚拟化开发环境，并实践了 out-of-tree 内核模块的完整生命周期，我们确立了在内核空间执行自定义代码的基本能力。
发布了文章 · 2025年06月07日

虚拟 RDMA 设备驱动实现（一）：环境配置与Linux内核模块初探

在当今数据以前所未有的速度和规模产生、传输和处理的时代，系统性能的每一个环节都面临着极致的考验。从高性能计算集群到大规模分布式存储，从实时金融交易到低延迟的云服务，对高效数据交换的需求日益迫切。然而，传统的网络通信方式，尽管成熟稳定，其固有的处理开销和多次数据拷贝，在这些追求极致性能的场景下，往...
发布了文章 · 2025年05月17日

达坦科技×琶洲实验室（黄埔）联合招募：AI与高性能网络领域实习先锋集结！

鹏城实验室与琶洲实验室（黄埔）作为国内顶尖的科研机构，长期致力于人工智能、高性能计算及信息科学领域的前沿探索。鹏城实验室聚焦智能技术与系统创新，琶洲实验室（黄埔）则依托粤港澳大湾区区位优势，深耕网络通信与硬件研发，两者共同推动产学研深度融合。
发布了文章 · 2025年05月11日

cocotbext-pcie使用经验交流

达坦科技即将开源的100G RDMA RTL代码采用cocotb对其功能进行验证。其中，对于DMA引擎的验证工作使用了开源的cocotbext-pcie框架来进行验证。本文将简要介绍cocotbext-pcie的使用方式，以及在使用中遇到的问题。
发布了文章 · 2025年04月26日

blue-rdma 设计介绍（一）—— 如何实现RDMA操作

blue-rdma是一个新的RDMA实现。本文将介绍blue-rdma是如何实现常见的几种RDMA操作的，并且我们会分析blue-rdma设计和InfiniBand的异同点。
点击载入更多