#negative-trait-transfer
#negative-trait-transfer

[ follow ]

Bad teacher bots can leave hidden marks on model students

Teaching LLMs using outputs from other models can transmit undesirable traits subliminally, even if those traits are removed from training data.

[ Load more ]