Analyzing And Editing Inner Mechanisms of Backdoored Language Models-Reference-Cited by-同舟云学术

Analyzing And Editing Inner Mechanisms of Backdoored Language Models

Published:2024-06-03 Issue: Volume: Page:2362-2373
ISSN:
Container-title:The 2024 ACM Conference on Fairness, Accountability, and Transparency
language:
Short-container-title:

Author:

Lamparth Max¹^ORCID,Reuel Anka¹^ORCID

Affiliation:

1. Stanford University, USA

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3630106.3659042

Reference66 articles.

1. Gorka Abad, Servio Paguada, Oğuzhan Ersoy, Stjepan Picek, Víctor Julio Ramírez-Durán, and Aitor Urbieta. 2023. Sniper Backdoor: Single Client Targeted Backdoor Attack in Federated Learning. In 2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML) (Raleigh, NC, USA, 2023-02). IEEE, 377–391.

2. Hojjat Aghakhani, Lea Schönherr, Thorsten Eisenhofer, Dorothea Kolossa, Thorsten Holz, Christopher Kruegel, and Giovanni Vigna. 2023. Venomave: Targeted Poisoning Against Speech Recognition. In 2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML) (Raleigh, NC, USA, 2023-02). IEEE, 404–417.

3. Optuna

4. Eugene Bagdasaryan and Vitaly Shmatikov. 2021. Spinning Sequence-to-Sequence Models with Meta-Backdoors. arXiv preprint arXiv:2107.10443 (2021).

5. Clark Barrett, Brad Boyd, Ellie Burzstein, Nicholas Carlini, Brad Chen, Jihye Choi, Amrita Roy Chowdhury, Mihai Christodorescu, Anupam Datta, Soheil Feizi, Kathleen Fisher, Tatsunori Hashimoto, Dan Hendrycks, Somesh Jha, Daniel Kang, Florian Kerschbaum, Eric Mitchell, John Mitchell, Zulfikar Ramzan, Khawaja Shams, Dawn Song, Ankur Taly, and Diyi Yang. 2023. Identifying and Mitigating the Security Risks of Generative AI. arXiv preprint arXiv:2308.14840 (2023).