关于我 - 廖溢俊

教育背景

当前状态

高三在读学生
独立AI研究员
开源项目贡献者
AAAI 2026 Program Committee成员

研究兴趣

大语言模型架构优化
强化学习算法设计
测试时计算扩展
CUDA计算优化

技术专长

LLM

架构优化与复现

不依赖现成框架，从底层复现并优化 Transformer 核心组件。

MoE & Routing

实现了支持动态 Top-k 路由的稀疏混合专家模型 (YingHub V3)。

Memory Mechanism

复刻 Infini-Transformer 压缩记忆机制，解决长窗口问题。

Custom Attention

设计了时序注意力偏差 (Temporal Attention Bias) 以解决状态惯性。

RL

强化学习与对齐

深入理解 PPO/DPO 数学原理，具备从零手写 Loss 函数与 Trainer 的能力。

Alignment Algorithms

Implemented DPO, PPO, GRPO from scratch in PyTorch.

Novel Loss Functions

设计了动态 KL 惩罚机制 (Dynamic KL Penalty) 优化长对话对齐。

Unsupervised RL

复现了 ICM、RENT 等前沿无监督 RL 算法。

TTC

测试时计算扩展

探索 Inference Scaling Laws，通过搜索与验证提升推理能力。

Search & Planning

实现了 CoAT-MCTS 框架，将蒙特卡洛树搜索与思维偏好优化 (TPO) 结合。

Dynamic Scaling

设计了 DTTC 框架 (AAAI 2026 投稿)，实现轻量级数学推理的动态计算分配。

Process Supervision

提出了思维干扰惩罚 (TIP) 机制，引导模型进行自我验证与修订。

HPC

高性能计算

专注于 GPU 内核优化与高效算子实现，榨干硬件性能。

Kernel Optimization

使用 Triton 重写 FlashAttention-2 前向传播内核。

Parallel Computing

手写 CUDA C++ 实现分块矩阵乘法与共享内存优化。

Custom Operators

实现了 Softmax、LayerNorm 等基础算子的 Triton 版本。

技术栈

编程语言

🐍

Python

专家级

⚡

CUDA C++

专家级

🔥

PyTorch

专家级

💎

TensorFlow

高级

🚀

JAX

中级

⚙️

C++

高级

框架与工具

🎯

HuggingFace

🔄

Ray

📊

WandB

🎮

gymnasium

🔧

Docker

☁️

AWS

💻

Linux

📈

MLflow

⚡🔥

vLLM

🔷

ONNX

📔

Jupyter

🔢

NumPy

🚀

TensorRT

🌐

Kubernetes

🎨

Matplotlib

📐

Math

📄

HTML

🎨

CSS

⚡

JavaScript

🔷

TypeScript

💚

🧪

Flask

🎸

Django

🐬

MySQL

学术经历

AA

AAAI 2026 Program Committee

2025年 - 至今

被选为AAAI 2026会议的Program Committee成员，参与顶级AI会议的论文评审工作。负责评审机器学习、自然语言处理等领域的研究论文。

学术评审顶级会议 AI研究

AR

ARC Prize 2025 竞赛

2025年

参加ARC Prize 2025竞赛，挑战抽象推理和概念学习能力的极限。通过创新的算法设计和模型架构，探索AI系统在抽象思维方面的能力边界。

抽象推理概念学习算法竞赛

PA

论文提交经历

2025年

向AAAI 2026提交论文《DTTC: An Extended Framework for Dynamic Test Time Computing with Lightweight Mathematical Reasoning》，虽然最终未被录用（得分5分），但获得了宝贵的评审反馈，为后续研究提供了重要指导。

论文写作学术发表测试时计算