数据并行论文 - 专知

会员服务 ·

数据并行

Staggered Batch Scheduling: Co-optimizing Time-to-First-Token and Throughput for High-Efficiency LLM Inference

Arxiv

0+阅读 · 12月18日

BS-tree: A gapped data-parallel B-tree

Arxiv

0+阅读 · 11月13日

ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training

Arxiv

0+阅读 · 10月14日

Model Parallelism With Subnetwork Data Parallelism

Arxiv

0+阅读 · 10月2日

Model Parallelism With Subnetwork Data Parallelism

Arxiv

0+阅读 · 10月1日

Zeppelin: Balancing Variable-length Workloads in Data Parallel Large Model Training

Arxiv

0+阅读 · 9月29日

Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems

Arxiv

0+阅读 · 6月21日

Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems

Arxiv

0+阅读 · 6月24日

Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training

Arxiv

0+阅读 · 4月25日

Characterization of GPU TEE Overheads in Distributed Data Parallel ML Training

Arxiv

0+阅读 · 3月27日

Efficient allocation of image recognition and LLM tasks on multi-GPU system

Arxiv

0+阅读 · 3月19日

DeFT: Mitigating Data Dependencies for Flexible Communication Scheduling in Distributed Training

Arxiv

0+阅读 · 3月21日

Efficient Long Context Fine-tuning with Chunk Flow

Arxiv

0+阅读 · 3月4日

Efficient Long Context Fine-tuning with Chunk Flow

Arxiv

0+阅读 · 3月6日

ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs

Arxiv

0+阅读 · 2月28日

参考链接

微信扫码咨询专知VIP会员