Text To Music Generation On Musiccaps

FAD

评测结果

各个模型在此基准测试上的表现结果

		Paper Title	Repository
Riffusion	13.4	MusicLM: Generating Music From Text
Mubert	9.6	MusicLM: Generating Music From Text
MeLoDy	5.41	Efficient Neural Music Generation	-
MusicGen w/ random melody (1.5B)	5.0	Simple and Controllable Music Generation
MusicLM	4.0	MusicLM: Generating Music From Text
Noise2Music spectrogram	3.840	Noise2Music: Text-conditioned Music Generation with Diffusion Models	-
MusicGen w/o melody (3.3B)	3.8	Simple and Controllable Music Generation
UniAudio	3.65	UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Stable Audio Open	3.51	Stable Audio Open
MusicGen w/o melody (1.5B)	3.4	Simple and Controllable Music Generation
AudioLDM 2-Full	3.13	AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
AudioLDM2-large	2.93	AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
TANGO-AF	2.21	Improving Text-To-Audio Models with Synthetic Captions
Noise2Music waveform	2.134	Noise2Music: Text-conditioned Music Generation with Diffusion Models	-
JEN-1	2.00	JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
ETTA	1.91	ETTA: Elucidating the Design Space of Text-to-Audio Models
OpenMusic (QA-MDT)	1.65	Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
FLUXMusic	1.43	FLUX that Plays Music
MeLFusion (image-conditioned)	1.12	MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models
Stable Audio	-	Fast Timing-Conditioned Latent Audio Diffusion

0 of 21 row(s) selected.