项目展示

探索我在AI领域的创新项目,从LLM架构优化到强化学习算法实现, 每一个项目都体现了对技术极致追求的精神。

项目发展历程

DZ-TiDPO

ACL 2026 Submission
2025.12

Overcoming State Inertia: 针对长上下文对话中模型“固守历史、难以适应新指令”的问题,提出的一种最小侵入式对齐框架。

核心贡献包括: • ⚡ Temporal Attention Bias: 在推理端引入时序注意力偏置。
• ⚖️ Dynamic KL Constraint: 训练端实现语义自适应的动态约束。
• 📉 SOTA 性能: 在 IC-Bench 及多轮对话任务上超越标准 DPO。

RLHF/DPO Long Context Alignment
DZ-TiDPO Architecture

Figure 1: The DZ-TiDPO Framework Architecture

2025年7月~至今 - 技术突破

最新进展

YingHub V3 - 稀疏混合专家语言模型

基于Triton实现Flash Attention,支持异构专家和动态Top-k路由的先进语言模型架构。 引入戏剧结构强化和流式数据迭代器,大幅提升模型性能和训练效率。

LLM MoE Triton FlashAttention Python
查看项目

强化学习算法集 - 完整实现

完整的强化学习算法实现,包括DQN、PPO、DDPG、TD3等主流算法和ICM、RENT、RaR、INTUITOR等前沿算法。 支持多种环境训练或LLM,从经典控制到连续控制任务、从无监督到自监督的全面覆盖。

RL PPO DPO GRPO U-RL SSRL PyTorch
查看项目

2025年2月~6月 - 算法积累

算法研究

Triton FlashAttention - CUDA计算优化

使用Triton重写Flash Attention内核,实现高效的注意力机制计算优化。 包含Flash Attention-1、Flash Attention-2、Flash Attention-3的完整实现。

CUDA Triton Attention GPU优化
查看项目

GlowFlow - 奖励建模探索

基于人工标签的奖励模型来微调GPT-2,探索奖励建模在语言模型训练中的应用。 项目展示了从数据构建到模型训练的完整流程。

GPT-2 奖励建模 微调 NLP
查看项目

2025年及以前 - 基础积累

学习探索

YingHub V2

混合专家Transformer架构

MoE Transformer PPO

YingGem

滑动窗口注意力机制

Attention RoPE RMSNorm

CUDA矩阵乘法

GPU并行计算优化

CUDA GPU 并行计算

项目分类

U-RL

无监督强化学习

U-RL

解决了外部奖励缺失或稀疏的问题, 最前沿的论文复刻:无监督引出ICM、熵最小化RENT、自信进行强化学习RLSC

RL 无监督 LLM 奖励函数设计 损失函数设计
查看详情 →
SSRL

自监督强化学习

SSRL

解决了监督信号昂贵或难获取的问题, 最前沿的论文复刻:自学进行强化学习Quiet-STaR、无外部奖励INTUITOR

RL 自监督 LLM 奖励函数设计 损失函数设计
查看详情 →
RL

多算法强化学习集合

RL

综合实现多个前沿强化学习算法:DDPG、TD3、NAC、LIDAR、RLPD、BQFD、SPReD。 涵盖连续控制、策略优化、离线强化学习等多个研究方向,基于最新论文复刻实现。

DDPG TD3 NAC LIDAR RLPD BQFD SPReD 连续控制
查看详情 →
CM

CoAT-MCTS

测试时扩展与偏好优化

结合蒙特卡洛树搜索和偏好优化的测试时扩展框架。通过CoAT框架进行上下文感知自适应思考, 使用TIP惩罚思路切换,并利用TPO进行迭代优化,提升模型在复杂推理任务中的表现。

TTS MCTS TPO TIP CoAT LLM RL
查看详情 →
YH

YingHub V3

稀疏混合专家语言模型

基于Triton实现Flash Attention,支持异构专家和动态Top-k路由的先进语言模型架构。 引入戏剧结构强化和流式数据迭代器,大幅提升模型性能和训练效率。

LLM MoE Triton FlashAttention Python
查看详情 →
YG

YingGem

滑动窗口注意力

实现滑动窗口注意力机制,结合RoPE旋转位置编码和RMSNorm, 支持KV缓存滑动窗口,提升长序列处理能力。

Attention RoPE RMSNorm KV缓存
查看详情 →
YM

YingMab

选择性状态空间

基于选择性状态空间模型,使用Triton并行内核扫描和深度可分离卷积, 实现高效的状态序列建模。

SSM Triton Convolution 并行计算
查看详情 →
YR

YingRet

增强检索模型

双重计算模式(并行模式、循环模式)、指数衰减矩阵、增强值投影、GroupNorm。 专为高效检索和序列建模设计的架构。

Retrieval GroupNorm 并行计算 序列建模
查看详情 →
GF

GlowFlow

奖励模型微调

基于人工标签的奖励模型来微调GPT-2,探索奖励建模在语言模型训练中的应用。 项目展示了从数据构建到模型训练的完整流程。

GPT-2 奖励建模 微调 NLP
查看详情 →
DQN

Pong DQN

游戏AI智能体

使用DQN算法训练Pong游戏AI,支持Double Q-Learning、 Dueling网络和噪声网络等先进技术的实现。

DQN PyTorch gymnasium 游戏AI
查看详情 →
PPO

BipedalWalker PPO

连续控制任务

基于PPO算法训练BipedalWalker智能体,实现高效的连续动作空间控制, 展示了策略梯度方法的强大能力。

PPO 连续控制 策略梯度 机器人控制
查看详情 →
TD3

LunarLander TD3

双延迟深度确定性策略梯度

使用TD3算法解决LunarLander连续控制问题,展示了双延迟更新机制 在处理复杂控制任务时的优势。

TD3 Actor-Critic 连续控制 航天控制
查看详情 →
ES

LunarLander ES

进化策略优化

使用进化策略算法解决LunarLander控制问题,展示了无梯度优化方法 在连续控制任务中的应用潜力。

ES 进化算法 无梯度优化 CMA-ES
查看详情 →
MM

CUDA矩阵乘法

GPU计算优化

手写CUDA实现矩阵乘法优化,包含分块矩阵乘法、共享内存、 线程协作、双缓冲、向量化内存访问等优化技术。

CUDA GPU 并行计算 内存优化
查看详情 →
TRI

Triton内核

深度学习算子

使用Triton实现各种深度学习算子,包括softmax、快速矩阵乘法、 Attention计算和专家网络前向计算等。

Triton 算子优化 深度学习 内核编程
查看详情 →
YO

安全帽反光衣检测

工业安全监控

基于Yolov5的安全帽和反光衣检测系统,用于工业安全监控。 支持实时检测和报警,提升工地安全管理效率。

Yolov5 目标检测 工业安全 实时监控
查看详情 →
RC

稻米识别ResNet18

农业AI应用

使用ResNet18架构实现稻米品种识别,准确率达到95%以上。 为农业生产提供智能化的品质检测解决方案。

ResNet18 图像分类 农业AI 品质检测
查看详情 →
C3

打架检测3DCNN

视频监控分析

基于3DCNN和C3D架构的打架行为检测系统,使用ucf101数据集进行训练。 适用于安防监控场景,实现实时异常行为识别。

3DCNN C3D 行为识别 视频监控
查看详情 →
SA

情感分析系统

新闻评论情感分析

基于Spacy和Gensim的新闻正负面评论检测系统,支持多进程处理。 包含电影评论情感分析功能,准确率达到90%以上。

Spacy Gensim 情感分析 NLP
查看详情 →
YM

YingMix

文本混合生成

基于GPT架构的文本混合生成系统,支持多种风格的文本生成。 集成了风格控制、长度调节和主题约束等功能。

GPT 文本生成 风格控制 内容创作
查看详情 →
DS

DeepSeek复刻

细粒度专家分割

复刻DeepSeek的细粒度专家分割技术,实现子专家级别的路由控制。 支持更灵活的专家组合和负载均衡策略。

DeepSeek 专家分割 路由控制 负载均衡
查看详情 →
ST

Switch Transformer

专家负载均衡优化

优化Switch Transformer的专家负载均衡机制,引入0.01重要性损失 和0.5专家均衡损失,提升专家利用率和模型性能。

Switch Transformer 负载均衡 专家路由 重要性损失
查看详情 →
IT

Infini-Transformer

压缩记忆机制

复刻Infini-Transformer的压缩记忆机制,支持无限长序列处理。 通过记忆压缩和检索机制,实现高效的长程依赖建模。

Infini-Transformer 记忆压缩 长序列 注意力机制
查看详情 →

开源贡献

30+
开源项目
涵盖LLM、RL、TTS、CUDA等多个领域
600+
GitHub贡献
年度代码提交次数
20+
技术文章
CSDN博客分享