探索我在AI领域的创新项目,从LLM架构优化到强化学习算法实现, 每一个项目都体现了对技术极致追求的精神。
Overcoming State Inertia: 针对长上下文对话中模型“固守历史、难以适应新指令”的问题,提出的一种最小侵入式对齐框架。
核心贡献包括:
• ⚡ Temporal Attention Bias: 在推理端引入时序注意力偏置。
• ⚖️ Dynamic KL Constraint: 训练端实现语义自适应的动态约束。
• 📉 SOTA 性能: 在 IC-Bench 及多轮对话任务上超越标准 DPO。
Figure 1: The DZ-TiDPO Framework Architecture
基于Triton实现Flash Attention,支持异构专家和动态Top-k路由的先进语言模型架构。 引入戏剧结构强化和流式数据迭代器,大幅提升模型性能和训练效率。
完整的强化学习算法实现,包括DQN、PPO、DDPG、TD3等主流算法和ICM、RENT、RaR、INTUITOR等前沿算法。 支持多种环境训练或LLM,从经典控制到连续控制任务、从无监督到自监督的全面覆盖。
混合专家Transformer架构
滑动窗口注意力机制
GPU并行计算优化
U-RL
解决了外部奖励缺失或稀疏的问题, 最前沿的论文复刻:无监督引出ICM、熵最小化RENT、自信进行强化学习RLSC
SSRL
解决了监督信号昂贵或难获取的问题, 最前沿的论文复刻:自学进行强化学习Quiet-STaR、无外部奖励INTUITOR
RL
综合实现多个前沿强化学习算法:DDPG、TD3、NAC、LIDAR、RLPD、BQFD、SPReD。 涵盖连续控制、策略优化、离线强化学习等多个研究方向,基于最新论文复刻实现。
测试时扩展与偏好优化
结合蒙特卡洛树搜索和偏好优化的测试时扩展框架。通过CoAT框架进行上下文感知自适应思考, 使用TIP惩罚思路切换,并利用TPO进行迭代优化,提升模型在复杂推理任务中的表现。
稀疏混合专家语言模型
基于Triton实现Flash Attention,支持异构专家和动态Top-k路由的先进语言模型架构。 引入戏剧结构强化和流式数据迭代器,大幅提升模型性能和训练效率。
滑动窗口注意力
实现滑动窗口注意力机制,结合RoPE旋转位置编码和RMSNorm, 支持KV缓存滑动窗口,提升长序列处理能力。
选择性状态空间
基于选择性状态空间模型,使用Triton并行内核扫描和深度可分离卷积, 实现高效的状态序列建模。
增强检索模型
双重计算模式(并行模式、循环模式)、指数衰减矩阵、增强值投影、GroupNorm。 专为高效检索和序列建模设计的架构。
奖励模型微调
基于人工标签的奖励模型来微调GPT-2,探索奖励建模在语言模型训练中的应用。 项目展示了从数据构建到模型训练的完整流程。
游戏AI智能体
使用DQN算法训练Pong游戏AI,支持Double Q-Learning、 Dueling网络和噪声网络等先进技术的实现。
连续控制任务
基于PPO算法训练BipedalWalker智能体,实现高效的连续动作空间控制, 展示了策略梯度方法的强大能力。
双延迟深度确定性策略梯度
使用TD3算法解决LunarLander连续控制问题,展示了双延迟更新机制 在处理复杂控制任务时的优势。
进化策略优化
使用进化策略算法解决LunarLander控制问题,展示了无梯度优化方法 在连续控制任务中的应用潜力。
深度学习算子
使用Triton实现各种深度学习算子,包括softmax、快速矩阵乘法、 Attention计算和专家网络前向计算等。
工业安全监控
基于Yolov5的安全帽和反光衣检测系统,用于工业安全监控。 支持实时检测和报警,提升工地安全管理效率。
农业AI应用
使用ResNet18架构实现稻米品种识别,准确率达到95%以上。 为农业生产提供智能化的品质检测解决方案。
视频监控分析
基于3DCNN和C3D架构的打架行为检测系统,使用ucf101数据集进行训练。 适用于安防监控场景,实现实时异常行为识别。
新闻评论情感分析
基于Spacy和Gensim的新闻正负面评论检测系统,支持多进程处理。 包含电影评论情感分析功能,准确率达到90%以上。
细粒度专家分割
复刻DeepSeek的细粒度专家分割技术,实现子专家级别的路由控制。 支持更灵活的专家组合和负载均衡策略。
专家负载均衡优化
优化Switch Transformer的专家负载均衡机制,引入0.01重要性损失 和0.5专家均衡损失,提升专家利用率和模型性能。
压缩记忆机制
复刻Infini-Transformer的压缩记忆机制,支持无限长序列处理。 通过记忆压缩和检索机制,实现高效的长程依赖建模。