[CL]《Dynamic Rewarding...

爱可可-爱生活
2024-11-15 11:14:12

[CL]《Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models》S Singla, Z Wang, T Liu, A Ashfaq... [UC San Diego] (2024) 机器学习人工智能论文