junmingyang's picture

junmingyang

jmyang

·

https://junming-yang.github.io/

junming-yang

AI & ML interests

LLM Alignment, VLM

Recent Activity

upvoted a paper about 13 hours ago

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

upvoted a paper 6 days ago

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

liked a model about 1 month ago

deepseek-ai/DeepSeek-V4-Pro

View all activity

Organizations

None yet

Collections 1

Papers 3

arxiv:2509.23371

arxiv:2407.11691

arxiv:2406.14544

models 6

jmyang/MetaAPO-Qwen2.5-7B

0.5B • Updated Feb 28 • 3 • 1

jmyang/Qwen2.5-7B-rm

1B • Updated Feb 28 • 1

jmyang/Qwen2.5-7B-DPO

8B • Updated Jan 6 • 1

jmyang/MetaAPO-Llama3.1-8B

0.5B • Updated Jan 2 • 1 • 2

jmyang/llama3.1-8b-rm-ultrafeedback

8B • Updated Nov 15, 2025 • 5

jmyang/llama3.1-8b-dpo-ultrafeedback

8B • Updated Nov 15, 2025

datasets 0

None public yet