EMO使用一张照片和音频文件生成说唱的视频,视频长度和音频匹配,并支持任意语音、语速、图像。