8-bit Transformer Inference and Fine-tuning for Edge Accelerators-Reference-Cited by-同舟云学术

8-bit Transformer Inference and Fine-tuning for Edge Accelerators

Published:2024-04-27 Issue: Volume:21 Page:5-21
ISSN:
Container-title:Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 3
language:
Short-container-title:

Author:

Yu Jeffrey¹^ORCID,Prabhu Kartik¹^ORCID,Urman Yonatan²^ORCID,Radway Robert M.²^ORCID,Han Eric²^ORCID,Raina Priyanka¹^ORCID

Affiliation:

1. Electrical Engineering, Stanford University, Stanford, CA, United States of America

2. Electrical Engineering, Stanford University, Stanford, CA, USA

Funder

SRC/DARPA JUMP 2.0 CoCoSys: Center for the Co-design of Cognitive Systems

SRC AIHW

Precourt Institute for Energy

Samsung (HLS award)

Apple Stanford EE PhD Fellowship in Integrated Systems

NSF FuSe-TG

AI Chip Center for Emerging Smart Systems (ACCESS), Hong Kong SAR

Publisher

ACM

Reference34 articles.

1. Ron Banner, Itay Hubara, Elad Hoffer, and Daniel Soudry. Scalable methods for 8-bit training of neural networks, 2018. arXiv:1805. 11046.

2. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners, 2020. arXiv:2005.14165.

3. A pseudo-softmax function for hardware-based high speed image classification

4. End-to-End Object Detection with Transformers

5. An Empirical Study of Training Self-Supervised Vision Transformers