Data-Juicer: A One-Stop Data Processing System for Large Language Models-Reference-Cited by-同舟云学术

Data-Juicer: A One-Stop Data Processing System for Large Language Models

Published:2024-06-09 Issue: Volume:202 Page:120-134
ISSN:
Container-title:Companion of the 2024 International Conference on Management of Data
language:
Short-container-title:

Author:

Chen Daoyuan¹^ORCID,Huang Yilun¹^ORCID,Ma Zhijian²^ORCID,Chen Hesen²^ORCID,Pan Xuchen²^ORCID,Ge Ce²^ORCID,Gao Dawei²^ORCID,Xie Yuexiang¹^ORCID,Liu Zhaoyang¹^ORCID,Gao Jinyang¹^ORCID,Li Yaliang¹^ORCID,Ding Bolin³^ORCID,Zhou Jingren¹^ORCID

Affiliation:

1. Alibaba Group, Hangzhou, China

2. Alibaba Group, Beijing, China

3. Alibaba Group, seattle, USA

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3626246.3653385

Reference100 articles.

1. Extended version of this paper. https://arxiv.org/abs/2309.02033.

2. Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra Cojocaru Merouane Debbah Etienne Goffinet Daniel Heslow Julien Launay Quentin Malartic Badreddine Noune Baptiste Pannier and Guilherme Penedo. 2023. Falcon-40B: an open large language model with state-of-the-art performance. (2023).

3. Apache Arrow. 2023. https://arrow.apache.org/

4. Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Benjamin Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom B. Brown, Jack Clark, Sam McCandlish, Chris Olah, and Jared Kaplan. 2021. A General Language Assistant as a Laboratory for Alignment. CoRR abs/2112.00861 (2021).

5. Stephen H. Bach Victor Sanh Zheng Xin Yong Albert Webson Colin Raffel Nihal V. Nayak Abheesht Sharma Taewoon Kim M. Saiful Bari Thibault Févry Zaid Alyafeai Manan Dey Andrea Santilli Zhiqing Sun Srulik Ben-David Canwen Xu Gunjan Chhablani Han Wang Jason Alan Fries Maged Saeed AlShaibani Shanya Sharma Urmish Thakker Khalid Almubarak Xiangru Tang Dragomir R. Radev Mike Tian-Jian Jiang and Alexander M. Rush. 2022. Prompt-Source: An Integrated Development Environment and Repository for Natural Language Prompts. In ACL (demo). 93--104.