Yanjun Chen
PhD Candidate, Department of Computing, The Hong Kong Polytechnic University.香港理工大学 计算学系 博士候选人。香港理工大学 計算学科 博士候補者。
I want to make the environment trainable, the way models are, and with it to lift the ceiling of what AI can become. Today the environment is not even a single thing: a reward model here, a verifier there, a curriculum somewhere else, each built and judged on its own. My work begins with measurement: what does each piece actually contribute to the model it trains.
I am a PhD candidate in the Department of Computing at The Hong Kong Polytechnic University, advised by Prof. Wenjie Li (Maggie) and Prof. Wei Zhang.
Research
Three fields have hit the same wall in their own vocabularies.
Reward-model evaluation in RLHF. A reward model’s benchmark accuracy fails to predict the policy it trains: varying only accuracy, my first study found an interior optimum, with the real signal in the training dynamics.
The Accuracy Paradox in RLHF (EMNLP 2024).
Withdrawable shaping on the action interface. Aids added to the action interface carry no invariance guarantee, and existing methods keep the correction forever: my second study co-trains a gated shaping aid whose absorption into the base policy is itself measured, so withdrawal is measured rather than hoped for.
Under review (2026).
Exact credit for cooperative LLM agents. One shared outcome hides each decision’s share: my third study shows the transcript makes every decision replayable, so per-decision credit is measured exactly instead of estimated.
Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).
One problem, three faces: the models that train a model must be judged from inside training, by their measured effect on it, and kept only for the help it absorbs.
Where I’m going
My bet: environments themselves must scale, train, and generalize the way models have. The environment today is pieces; the road ahead trains those pieces (reward model, verifier, curriculum) as one team serving one model, and extends beyond text toward embodied systems.
With thanks to Xiaoyu Shen and Dawei Zhu, whose ongoing mentorship and guidance have shaped much of how I think about research.
我想让环境像模型一样能训练起来,并以此把 AI 的上限抬上去。今天的环境甚至还不是一个整体:这边一个 reward model,那边一个 verifier,再加一个 curriculum,各自被单独构建、单独评判。我的工作从测量开始:每个部件到底为它训练的模型贡献了什么。
我是香港理工大学 计算学系的博士候选人,导师为 Wenjie Li (Maggie) 教授与 Wei Zhang 教授。
研究方向
三个领域用各自的术语撞上了同一堵墙。
RLHF 中的 reward model 评估。 reward model 在 benchmark 上的准确率无法预测它训练出的 policy:仅改变准确率,我的第一项研究发现了一个内部最优点,真正的信号藏在训练动态之中。
The Accuracy Paradox in RLHF (EMNLP 2024).
action interface 上可撤回的 shaping。 加在 action interface 上的辅助不附带不变性保证,而现有方法永远保留这一修正。我的第二项研究联合训练一个门控 shaping 辅助,其吸收到 base policy 的过程本身被测量,使得撤回是被测量的,而非被寄望的。
Under review (2026).
协作式 LLM agent 的精确 credit。 一个共享的结果隐藏了每个决策的贡献份额。我的第三项研究表明,transcript 使得每个决策均可重放,因此 per-decision credit 是被精确测量的,而非被估算的。
Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).
同一个问题的三张面孔:训练模型的那些模型,必须在训练内部、按它们对模型的实测效果来评判,并且只为被模型吸收的帮助而保留。
后续方向
我的判断: 环境自身必须像模型一样可扩展、可训练、可泛化。 今天的环境还是一堆部件;今后的方向是把这些部件(reward model、verifier、curriculum)训练成服务同一个模型的一支团队,并从文本走向具身系统。
感谢 Xiaoyu Shen 老师与 Dawei Zhu 师兄一直以来的指导与帮助,他们在很多方面塑造了我做研究的方式。
私は、環境そのものを、モデルと同じように訓練できるものにしたい。そしてそれによって、AI の到達点を引き上げたいのです。今日の環境は、まだ一つのまとまりですらありません。こちらに reward model、あちらに verifier、さらに curriculum。それぞれが別々に作られ、別々に評価されています。私の研究は測定から始めます。各部品が、訓練するモデルに実際に何を貢献しているのか。
香港理工大学 計算学科の博士候補者で、Wenjie Li (Maggie) 教授と Wei Zhang 教授の指導を受けています。
研究内容
三つの分野が、それぞれの用語で同じ壁にぶつかっています。
RLHF における reward model の評価。 reward model の benchmark 精度は、それが訓練する policy を予測できません。精度のみを変化させた私の最初の研究は、内側に最適点が存在することを見出し、真の信号は訓練のダイナミクスにあることを示しました。
The Accuracy Paradox in RLHF (EMNLP 2024).
action interface 上の撤回可能な shaping。 action interface に付加された補助には不変性の保証がなく、既存の手法は修正を永続的に保持します。私の第二の研究は、ゲート付き shaping 補助を共同訓練し、base policy への吸収過程そのものを測定することで、撤回を希望的観測ではなく測定対象にします。
Under review (2026).
協調的 LLM agent の厳密な credit。 一つの共有された結果は、各決定の寄与分を隠してしまいます。私の第三の研究は、transcript により全ての決定が再現可能であることを示し、per-decision credit を推定ではなく厳密に測定します。
Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).
一つの問題、三つの顔。モデルを訓練するモデルたちは、訓練の内部で、モデルへの実測された効果によって評価されなければなりません。そして、モデルが吸収した助けのためにのみ保持されるべきです。
これから
私の賭けはこうです: 環境そのものが、モデルと同じようにスケールし、訓練され、汎化される必要があります。 今日の環境はまだばらばらの部品です。今後の道筋は、これらの部品(reward model、verifier、curriculum)を一つのモデルに仕える一つのチームへと訓練し、テキストを超えて身体性システムへと拡張することです。
Xiaoyu Shen 先生と Dawei Zhu 先輩から受けた継続的なご指導とお力添えに深く感謝いたします。私の研究との向き合い方の多くは、お二人からの影響によるものです。
News近况お知らせ
| Jun 24, 20262026年6月24日2026年6月24日 | Passed the confirmation of candidature for my PhD at The Hong Kong Polytechnic University, with the thesis Towards Efficient Reinforcement Learning via Environment Measurement and Shaping.通过了香港理工大学的博士候选人资格确认,论文题目为 Towards Efficient Reinforcement Learning via Environment Measurement and Shaping。香港理工大学の博士候補者資格審査に合格しました。論文題目は Towards Efficient Reinforcement Learning via Environment Measurement and Shaping です。 |
|---|---|
| May 22, 20262026年5月22日2026年5月22日 | Shortlisted for PolyU Micro Fund 2025/26 Cohort 2 (HK$20,000 cash prize), with a conditional offer to the HKSTP Ideation Programme.入围 PolyU Micro Fund 2025/26 第二轮(HK$20,000 现金奖励),并获得 HKSTP Ideation Programme 的有条件录取。PolyU Micro Fund 2025/26 Cohort 2(賞金 HK$20,000)にショートリスト入り、HKSTP Ideation Programme に条件付きで内定。 |
| May 08, 20262026年5月8日2026年5月8日 | Released v2 of Exact Is Easier: Credit Assignment for Cooperative LLM Agents on arXiv:2603.06859.Exact Is Easier: Credit Assignment for Cooperative LLM Agents v2 已发布至 arXiv:2603.06859。Exact Is Easier: Credit Assignment for Cooperative LLM Agents v2 を arXiv:2603.06859 で公開。 |
| Mar 06, 20262026年3月6日2026年3月6日 | First arXiv release of Exact Is Easier: Credit Assignment for Cooperative LLM Agents (in submission).Exact Is Easier: Credit Assignment for Cooperative LLM Agents 在 arXiv 首次发布(投稿中)。Exact Is Easier: Credit Assignment for Cooperative LLM Agents を arXiv に初回公開(投稿中)。 |
| May 22, 20252025年5月22日2025年5月22日 | Co-authored a comprehensive survey on latent chain-of-thought reasoning (arXiv:2505.16782).与人合作完成了一篇关于隐式思维链推理(latent chain-of-thought reasoning)的综述论文(arXiv:2505.16782)。latent chain-of-thought reasoning に関する包括的なサーベイ論文を共著として発表(arXiv:2505.16782)。 |
| May 15, 20252025年5月15日2025年5月15日 | Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning accepted at ACL 2025 Findings (co-author).Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning 被 ACL 2025 Findings 接收(共同作者)。Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning が ACL 2025 Findings に採択(共著)。 |
| Jan 15, 20252025年1月15日2025年1月15日 | Fine-Grained and Multi-Dimensional Metrics for Document-Level MT accepted at NAACL 2025 (co-author).Fine-Grained and Multi-Dimensional Metrics for Document-Level MT 被 NAACL 2025 接收(共同作者)。Fine-Grained and Multi-Dimensional Metrics for Document-Level MT が NAACL 2025 に採択(共著)。 |
Selected Publications代表性论文主要論文
- NAACLFine-Grained and Multi-Dimensional Metrics for Document-Level Machine TranslationIn Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2025
Teaching & Service教学与服务教育・学会活動
Teaching教学教育 (Teaching Assistant, The Hong Kong Polytechnic University)(助教,香港理工大学)(ティーチング・アシスタント、香港理工大学)
| 2025/26 S2 | COMP5221 Software Project Management |
|---|---|
| 2025/26 S1 | COMP1002 Computational Thinking and Problem Solving |
| 2024/25 S2 | COMP1411 Introduction to Computer Systems |
| 2024/25 S1 | COMP5567 Distributed Algorithms and Protocols for Blockchains |
Reviewing审稿査読
| 2026 | ACL ARR (March and May cycles)(3 月与 5 月周期)(3 月・5 月サイクル) |
|---|---|
| 2026 | IEEE Transactions on Neural Networks and Learning Systems (TNNLS), invited受邀招待 |