Federico Torrielli's picture

Federico Torrielli

EvilScript

·

https://federicotorrielli.github.io

AI & ML interests

AI Safety & Mechanistic interpretability

Recent Activity

upvoted a paper about 6 hours ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

upvoted a paper about 6 hours ago

BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

upvoted a paper 5 days ago

LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs

View all activity

Organizations

EvilScript 's papers 3

arxiv:2605.31170

arxiv:2605.26045

arxiv:2605.07462