Yanjun Chen

PhD Student, Department of Computing, The Hong Kong Polytechnic University.香港理工大学 计算学系 博士生。香港理工大学 計算学科 博士課程。

prof_pic.jpg

yan‑jun.chen@connect.polyu.hk

Hong Kong香港香港

CV (PDF) →简历 (PDF) →履歴書 (PDF) →

I am drawn to Environment-Centric AI: the design of environments in which intelligent agents learn, across LLMs, reinforcement learning, and embodied systems.

I am a second-year PhD student in the Department of Computing at The Hong Kong Polytechnic University, advised by Prof. Wenjie Li (Maggie) and Prof. Wei Zhang.

Research

I work on Environment-Centric AI: treating the training environment of intelligent agents as a designed object. The environment is not a given, it has pieces (reward, feedback, observation, evaluation), and those pieces can be analyzed and re-designed. Two concrete works so far:

Reward-model accuracy as environment design. Moderate reward models train better language models than highly accurate ones on relevance, factuality, and completeness.

The Accuracy Paradox in RLHF (EMNLP 2024).

Exact multi-agent RL for cooperative LLMs. Cooperative LLM histories are deterministic, so per-agent counterfactual credit is exactly computable. This delivers both a learning algorithm that outperforms every approximate multi-agent RL alternative and the first method-agnostic auditing tool for credit quality. Substrate for the longer goal.

Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).

Where I’m going

These pieces feed into a longer arc. My bet: environments themselves must scale, train, and generalize the way models have. This is the lever that lifts what AI systems can become.

With thanks to Xiaoyu Shen, whose ongoing mentorship has shaped much of how I think about research.

我关注 Environment-Centric AI: 智能体在其中学习的环境的设计,跨越大语言模型、强化学习与具身智能系统。

我是 香港理工大学 计算学系 的二年级博士生,导师为 Wenjie Li (Maggie) 教授与 Wei Zhang 教授。

研究方向

我研究 Environment-Centric AI: 将智能体的训练环境视为可设计的对象。环境不是给定的,它由若干部件构成(奖励、反馈、观测、评估),这些部件可以被分析、被重新设计。目前已展开的两项具体工作:

奖励模型准确率作为一种环境设计选择。 在相关性、事实性、完整性任务上,中等准确率的奖励模型训练出的语言模型反而优于高准确率的。

The Accuracy Paradox in RLHF (EMNLP 2024).

协作式 LLM 系统的精确多智能体强化学习。 协作式 LLM 的交互历史是确定性的,因此每个智能体的反事实贡献度可被精确计算。由此既得到一种超越所有近似多智能体 RL 方法的学习算法,也得到首个不依赖具体方法的可信度审计工具。这是更长远目标的底层基础。

Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).

后续方向

这些工作都指向更长远的目标。我的判断: 环境自身必须像模型一样可扩展、可训练、可泛化。 这才是抬升 AI 系统上限的真正杠杆。

感谢 Xiaoyu Shen 老师持续的指导,他在很多方面塑造了我做研究的方式。

私が関心を持つのは Environment-Centric AI: 知的エージェントが学習する環境そのものを設計対象とすることです。大規模言語モデル、強化学習、身体性 AI を横断します。

香港理工大学 計算学科 の博士課程 2 年生で、Wenjie Li (Maggie) 教授と Wei Zhang 教授の指導を受けています。

研究内容

私が研究しているのは Environment-Centric AI: 知的エージェントの訓練環境を「設計対象」として扱うことです。環境は所与のものではなく、複数の構成要素(報酬、フィードバック、観測、評価)から成り、それらは分析と再設計が可能です。これまでに進めた二つの具体的な研究は次の通りです:

報酬モデルの精度を環境設計として捉える。 関連性、事実性、完全性のタスクにおいて、中程度の精度の報酬モデルが高精度のものよりも優れた言語モデルを訓練します。

The Accuracy Paradox in RLHF (EMNLP 2024).

協調的 LLM のための厳密な多エージェント強化学習。 協調的 LLM の相互作用履歴は決定的であるため、各エージェントの反事実的貢献度は厳密に計算可能です。この性質から、近似的な多エージェント RL を全て凌駕する学習アルゴリズムと、信用割当の品質を測る初の手法非依存な監査ツールが得られます。長期目標への基盤となります。

Exact Is Easier: Credit Assignment for Cooperative LLM Agents (arXiv:2603.06859, in submission).

これから

これらの仕事はより長期的な目標へとつながっています。私の賭けはこうです: 環境そのものが、モデルと同じようにスケールし、訓練され、汎化される必要があります。 それこそが AI システムの到達点を引き上げる梃子になります。

Xiaoyu Shen 先生からの継続的なご指導に深く感謝いたします。私の研究との向き合い方の多くは、先生からの影響によるものです。

News近况お知らせ

May 22, 20262026年5月22日2026年5月22日 Shortlisted for PolyU Micro Fund 2025/26 Cohort 2 (HK$20,000 cash prize), with a conditional offer to the HKSTP Ideation Programme.入围 PolyU Micro Fund 2025/26 第二轮(HK$20,000 现金奖励),并获得 HKSTP Ideation Programme 的有条件录取。PolyU Micro Fund 2025/26 Cohort 2(賞金 HK$20,000)にショートリスト入り、HKSTP Ideation Programme に条件付きで内定。
May 08, 20262026年5月8日2026年5月8日 Released v2 of Exact Is Easier: Credit Assignment for Cooperative LLM Agents on arXiv:2603.06859.Exact Is Easier: Credit Assignment for Cooperative LLM Agents v2 已发布至 arXiv:2603.06859Exact Is Easier: Credit Assignment for Cooperative LLM Agents v2 を arXiv:2603.06859 で公開。
Mar 06, 20262026年3月6日2026年3月6日 First arXiv release of Exact Is Easier: Credit Assignment for Cooperative LLM Agents (in submission).Exact Is Easier: Credit Assignment for Cooperative LLM Agents 在 arXiv 首次发布(投稿中)。Exact Is Easier: Credit Assignment for Cooperative LLM Agents を arXiv に初回公開(投稿中)。
May 22, 20252025年5月22日2025年5月22日 Co-authored a comprehensive survey on latent chain-of-thought reasoning (arXiv:2505.16782).与人合作完成了一篇关于隐式思维链推理(latent chain-of-thought reasoning)的综述论文(arXiv:2505.16782)。latent chain-of-thought reasoning に関する包括的なサーベイ論文を共著として発表(arXiv:2505.16782)。
May 15, 20252025年5月15日2025年5月15日 Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning accepted at ACL 2025 Findings (co-author).Unveiling the Key Factors for Distilling Chain-of-Thought ReasoningACL 2025 Findings 接收(共同作者)。Unveiling the Key Factors for Distilling Chain-of-Thought ReasoningACL 2025 Findings に採択(共著)。
Jan 15, 20252025年1月15日2025年1月15日 Fine-Grained and Multi-Dimensional Metrics for Document-Level MT accepted at NAACL 2025 (co-author).Fine-Grained and Multi-Dimensional Metrics for Document-Level MTNAACL 2025 接收(共同作者)。Fine-Grained and Multi-Dimensional Metrics for Document-Level MTNAACL 2025 に採択(共著)。
Oct 09, 20242024年10月9日2024年10月9日 The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language Models accepted at EMNLP 2024.The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language ModelsEMNLP 2024 接收。The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language ModelsEMNLP 2024 に採択。

Selected Publications代表性论文主要論文

  1. arXiv
    Exact Is Easier: Credit Assignment for Cooperative LLM Agents
    Yanjun Chen, Yirong Sun, Hanlin Wang, and 5 more authors
    arXiv preprint arXiv:2603.06859, 2026
    In submission.
  2. EMNLP
    The Accuracy Paradox in RLHF: When Better Reward Models Don’t Yield Better Language Models
    Yanjun Chen, Dawei Zhu, Yirong Sun, and 3 more authors
    In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024
  3. arXiv
    Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning
    Xinghao Chen, Anhao Zhao, Heming Xia, and 7 more authors
    arXiv preprint arXiv:2505.16782, 2025
  4. ACL Findings
    Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning
    Xinghao Chen, Zhixin Sun, Wenjin Guo, and 6 more authors
    In Findings of the Association for Computational Linguistics (ACL Findings), 2025
  5. NAACL
    Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation
    Yirong Sun, Dawei Zhu, Yanjun Chen, and 3 more authors
    In Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2025