Featured Abilities

Ming-omni-tts is a high-performance unified audio generation model that achieves precise control over speech attributes and enables single-channel synthesis of speech, environmental sounds, and music. Powered by a custom 12.5Hz continuous tokenizer and Patch-by-Patch compression, it delivers competitive inference efficiency (3.1Hz). Additionally, the model features robust text normalization capabilities for the accurate and natural narration of complex mathematical and chemical expressions.

- 🔊 Fine-grained Vocal Control: Enables precise control over speech rate, pitch, volume, emotion, and dialects via simple instructions. It achieves 93% accuracy for Cantonese and 46.7% for emotional control, outperforming CosyVoice3.
- 🌌 Intelligent Voice Design: Features 100+ premium built-in voices and supports zero-shot voice design through natural language descriptions. Its performance on the Instruct-TTS-Eval-zh benchmark is on par with Qwen3-TTS.
- 🎶 Immersive Unified Generation: The industry’s first autoregressive model to jointly generate speech, ambient sound, and music in a single channel. Built on a custom 12.5Hz continuous tokenizer and a DiT head architecture, it delivers a seamless, "in-the-scene" auditory experience.
- ⚡ High-efficiency Inference: Introduces a "Patch-by-Patch" compression strategy that reduces the LLM inference frame rate to 3.1Hz. This significantly cuts latency and enables podcast-style audio generation while preserving naturalness and audio detail.
- 🧪 Professional Text Normalization: The model accurately parses and narrates complex formats, including mathematical expressions and chemical equations, ensuring natural-sounding output for specialized applications.

The Introduction Video of Ming-omni-tts

Ming-omni-tts features key optimizations as follows, compared to other audio-assisted LLMs.

Description for Image 1
Image1: Unified Continuous Audio Tokenizer.
Description for Image 2
Image2: Unified Audio Language Model for Speech, Music and Sound Generation.

Performance Evaluation of Ming-omni-tts on Various Benchmark Tasks.

method

Voice Control – Support Structured and Natural Command Control

Basic attributes control: Speed、Volume and Pitch Control for Voice Generating

Input Prompt Target Text Instruction1 TTS Result Instruction2 TTS Result
导航开始,全程二十五公里,预计需要十二分钟。 语速:慢速 语速:快速
烟雨弥漫下,山环绕着水耸立着,水环绕着山流淌着。 语速慢一点 语速快一点
目前共享出行市场处于高速增长阶段。 音量:低 音量:高
北京在出行规模,城市影响力方面表现优异。 音量尽量低一点 音量尽量高一点
他们脱掉笨重的冬衣,走起路来腰杆挺直步履轻盈。 基频:低 基频:高
自动驾驶将大幅提升出行安全,效率。 基频低一点 基频高一点

Same Dialect/Cross-Dialect Control: Generating Cantonese and Sichuanese from Mandarin and Native Prompts

Instruction Input Prompt Conversion Type Target Text TTS Result
方言:广粤话 广粤话 -> 广粤话 佢系头大冇脑脑大生草种
方言:广粤话 广粤话 -> 广粤话 今个周末全场货品低至五折,数量有限,卖晒就冇?喇。
请用广粤话表达 广粤话 -> 广粤话 我觉得社会企业同个人都有责任
用广粤话说,越地道越好。 普通话 -> 广粤话 你嚟探我,我真系好感动,好耐冇见你啦!
以广粤话的口语风格来表达。 普通话 -> 广粤话 快啲啦,唔好再拖拖拉拉,大家都等紧你开会呀
方言:川渝话 川渝话 -> 川渝话 你要自己打扮,不穿咋个晓得穿起漂不漂亮嘛?看我们这新款多时尚。
方言:川渝话 川渝话 -> 川渝话 赛尔号那个时候,才出来的时候,还是他那个机制,还是特别好耍的。
请用川渝话表达 川渝话 -> 川渝话 哎,刚刚晚上想吃点啥子?煮点火锅要得。
模仿川渝话的语气来表达 普通话 -> 川渝话 你晓不晓得?你啥我都喜欢,嗯,就是有一点不喜欢装。
挑战一下用川渝话的味儿来朗读 普通话 -> 川渝话 你那哈屋头还有电脑,那时候就已经先进了。

Same Emotion/Cross-Emotion Control: Cross-Emotion Synthesis Using a Single Neutral Prompt

Instruction Input Prompt Conversion Type Target Text TTS Result
情感: 高兴 中性 -> 高兴 If these examinations are held orally, they may be known colloquially as "orals".
情感: 愤怒 中性 -> 愤怒 I’m done arguing with you. You're not worth my time!
情感: 愤怒 中性 -> 愤怒 In cities, driving speeds are set by which lane a driver is in.
情感: 悲伤 中性 -> 悲伤 Everything has changed. The promises and dreams we once had are shattered. How should I face this?
情感: 高兴 中性 -> 高兴 But it does not allow for adding new members to interfaces.
情感: 愤怒 愤怒 -> 愤怒 港湾道是每年农历新年举行的香港新春花车巡游的路线之一。
情感: 悲伤 悲伤 -> 悲伤 我觉得自己好像在黑暗中迷失了,再也找不到出口了。
情感: 高兴 中性 -> 高兴 我竟然抢到了陈奕迅的演唱会门票!太棒了!终于可以现场听一听他的歌声了!
情感: 悲伤 悲伤 -> 悲伤 我们俩从一开始就君子之交,都说好啦,背信弃义出尔反尔的是她,我告诉你这件事我是受害者。
表达时要悲伤一点。 悲伤 -> 悲伤 有些软体开发者也注意到软体度量已成为软体开发过程中的一部份。
把这件事说得高兴一点。 高兴 -> 高兴 I bought my first mountain bike with my own earnings, a Merida Warrior 500! Go me!
表达时,请务必流露出高兴的情感。 中性 -> 高兴 I ran into a teacher I hadn’t seen in years at the coffee shop today. He still remembered me, and we talked about so many fun memories.

Built-in premium sounds: Over 100 Built-in, High-Quality Timbres

Instruction Describe Target Text TTS Result
克隆一下灵小甄的说话腔调。 销售、直播带货: 声音明亮清脆,语速轻快且充满活力,语气中带有强烈的推荐感和亲和力,典型的带货主播风格。 这款产品的名字,叫变态坑爹牛肉丸。
模仿灵梦的风格。 虚拟恋人: 充满糖分的高甜少女音,语气娇憨任性,完美演绎了想要人陪伴时的撒娇状态。 认为在中文歌曲里,夹杂几句英文就很时髦。
麻烦学一下灵岩的口音 新闻、客服: 声音清晰正式且专业 届时会按照原定计划,与国防部签署相关以地换地协议。
克隆一下灵娇的说话腔调。 邻家女孩、女大学生、Vlog博主: 清甜明亮的少女音,语感轻快活泼,在讲述生活趣事时充满画面感与青春朝气,极具感染力。 总裁问,刚才皮皮鲁唱的歌是谁的词谁的曲,大手笔呀。
克隆一下妩媚妲己的说话腔调。 妩媚角色: 声音甜美清脆,语调轻盈上扬,表现性感妩媚 新娘是一位俄国公主,坐着六只驯鹿拉的雪车,从芬兰一路而来。
克隆一下灵绮木的说话腔调。 透着刻薄与傲慢的冷艳御姐音 这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如“知性女主播的声音”,它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下灵若虚的说话腔调。 老奶奶形象,声音饱含岁月的温暖与慈爱,语速舒缓,透着对生活细节的满足感,极具治愈力。 这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如“知性女主播的声音”,它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下花小呗的说话腔调。 儿童角色,声音清脆甜美,带有明显的幼态特征,语调轻快活泼 这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如“知性女主播的声音”,它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下灵浅忧的说话腔调。 小男孩,声音清脆明亮,充满元气 今天天气不错,要出去玩了。

Voice design

Zero-Shot Synthesis of Custom Vocal Identities via Natural Language Descriptions

Instruction Target Text TTS Result
性别: 女童声音. 音高: 音高尖锐,持续偏高. 语速: 语速迅捷,语气急促. 音量: 音量响亮,情绪饱满. 年龄: 学龄儿童. 清晰度: 吐字清晰,发音用力. 流畅度: 表达流畅,伴强调性重复. 口音: 标准普通话. 音色质感: 童声清亮,略显尖锐. 情绪: 激动委屈,带有抗议. 语调: 声调高昂,语势急切. 性格: 急躁率真,不甘示弱. 人家从那走过,他们就说我故意偷听,还说我是小广播,我偏要广播,偏要广播偏。
性别: 男性. 音高: 男性沉稳中低音. 语速: 语速舒缓,有自然停顿. 音量: 正常谈话音量. 年龄: 中老年男性. 清晰度: 吐字清晰,发音标准. 流畅度: 言语连贯,表达自然. 口音: 标准普通话. 音色质感: 音质温和,略显沧桑. 情绪: 饱含不舍与怀念,转为平静嘱托. 语调: 前段感叹意味,后段请求意味. 性格: 念旧重情,温和坦诚. 这就是天望娃娃送给我的我一直舍不得丢掉它,你替我上交了吧。
性别: 男性语音特征. 音高: 男性中低音域,初始疑问时音调上扬. 语速: 整体偏快,表述急切清晰. 音量: 正常交谈音量,偶有强调加重. 年龄: 青年至中年男性. 清晰度: 吐字清晰,发音标准. 流畅度: 叙述流畅,偶有为强调而设的短暂停顿. 口音: 带有北方地区特征的普通话. 音色质感: 声音较为浑厚,略带一丝沙哑质感. 情绪: 从关切疑问过渡到解释性陈述,略显急切. 语调: 初始疑问扬起,后转为肯定叙述语调. 性格: 显得坦率直接,急于说明情况. 没有欺负这孩子呢,报告团长没人欺负他,不是怎么的,他本来是给他师父小杨上门的,回来,就说鬼鬼的鬼。
性别: 女性. 音高: 女性高音,句末随情绪上扬. 语速: 语速偏缓,充满恳切感. 音量: 音量正常,激动处略有提高. 年龄: 中年女性. 清晰度: 吐字清晰,略带哭腔. 流畅度: 整体流畅,因情绪略显迟缓. 口音: 标准普通话. 音色质感: 音色略显沙哑,蕴含悲伤. 情绪: 悲伤焦虑,带有不解与恳求. 语调: 起伏较大,表达焦急质问. 性格: 情感浓烈,忧心忡忡. 我们家好容易恢复成这个样子,你明知有危险,为什么还一定要拉着杉杉?
用活泼的童声带着喜悦和兴奋不间断地讲述一个有趣的故事。 我有个大哥叫小王,能吃饭也能喝汤,别看他手里没武器啊,说话赛过歪白的机关枪。
这是一个粤语地区长辈的声音,是一种带有地域特色的创意风格。他使用粤语(广东话),年长男性声音沉厚,语速较慢。语气在说教时显得严肃,但言语间仍透露出对家人的关心。 做人呢,最紧要就係开心。
这是一个粤语地区长辈的声音,是一种带有地域特色的创意风格。他使用粤语(广东话),年长男性声音沉厚,语速较慢。语气在说教时显得严肃,但言语间仍透露出对家人的关心。 你睇你,成日挂住玩,书又唔读。
是一个粗犷豪放的东北大哥的声音,是一种极具地域辨识度的创意与特殊风格。他使用带有浓郁东北口音的普通话,中年男性声音洪亮,嗓门大。说话直来直去,语速快,语气中充满了幽默感和不拘小节的豪爽。 哎呀我的妈呀,这嘎冷的天儿,你穿这点儿?
这是一种ASMR耳语,属于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语,声音气音成分重。音量极低,紧贴麦克风,语速极慢,旨在制造触发听者颅内快感的声学刺激。 放松……现在……闭上你的眼睛……
这是一种ASMR耳语,属>于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语,声音气音成分重。音量极低,紧贴麦克风,语速极慢,旨在制造触发听者颅内快感的声学刺激。 听……这个声音……是不是……很舒服……
这是一个体育赛事激情解说员的声音,是极具感染力的创意与特殊风格。他使用高亢的普通话,中年男性声音沙哑(因长时间呐喊)。语速快如机枪,在关键时刻会瞬间爆发,语调充满了紧张、激动和不可思议的情绪。 球进了!进了进了进了!伟大的胜利!
这是一个宫斗剧中的威严皇后的声音,展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话,中年女性声音沉稳。语速雍容和缓,但每个字都掷地有声,语气表面波澜不惊,实则暗藏锋芒和久居上位的威压。 妹这话,是说给本宫听的吗?
这是一个宫斗剧中的威严皇后的声音,展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话,中年女性声音沉稳。语速雍容和缓,但每个字都掷地有声,语气表面波澜不惊,实则暗藏锋芒和久居上位的威压。 放肆!在本宫面前,岂容你如此喧哗?
这是一个古装剧中的腹黑反派的声音,充满了戏剧性的叙事张力。他使用华丽而阴柔的普通话,青年男性声音说话时语速慢条斯理,语气看似温和,却在句尾带着一丝不易察觉的冷笑和威胁,让人不寒而栗。 呵呵,看来,你还是不太明白自己的处境啊。

Podcast

Multi-person conversation

Input Speaker1 Prompt Input Speaker2 Prompt Target Text TTS Result
speaker_1: 你可以说一下,就大概说一下,可能虽然我也不知道,我看过那部电影没有。
speaker_2: 就是那个叫什么,变相一节课的嘛。
speaker_1: 嗯。
speaker_2: 一部搞笑的电影。
speaker_1: 一部搞笑的。
speaker_1: 所以你想成功的话,就推荐你看这些书。
speaker_2: 我会有时间去看一看的。
speaker_1: 要是像我看的话,我就会感觉特别的。
speaker_2: 枯燥。
speaker_1: 对枯燥无聊毕竟是古文也看不懂除非那些。
speaker_1: 知道家长在考虑什么让家长也知道孩子们在考虑什么。
speaker_2: 对。
speaker_1: 减少矛盾。
speaker_2: 对,就是感觉其实出这些电影或者电视剧,也是挺好的让彼此更加了解一下,我感觉如果是一个家长和一个小孩儿,去看电视剧的话,收获也是蛮多的。
speaker_1: 那你还有什么比较好的电影介绍给我呢。
speaker_1: 上个厕所,然后那有专门的人给你,就是你上厕所之前,专门有个人给你递纸了。
speaker_2: 对,上个厕所会出来给你递毛巾。
speaker_1: 啊对,让你去擦手这些什么的。
speaker_2: 是的。
speaker_1: 服务,服务非常周到,不过也有少数人就说,这个服务实在太久了,就是,就,就是像那种,就是那个。
speaker_1: 什么东西啊?
speaker_2: 叫那个的哪吒的那个。
speaker_1: 啊,那个哪吒,但是我没有去看一看嘛。
speaker_2: 我也没看过。
speaker_1: 我当时好像是本来是要去看的。
speaker_1: 啊,我吃过。
speaker_2: 是不是。
speaker_1: 因为我之前去过山东一次吃过人家那杂粮煎饼。
speaker_2: 反正跟咱们这儿,不一样是吧,正宗的人家那是正宗的。
speaker_1: 本地的。
speaker_1: 那就之前的妆都毁掉了。
speaker_2: 嗯,是是是。
speaker_1: 然后之后就是睫毛。
speaker_2: 哦,对,那睫毛涂睫毛膏。
speaker_1: 画睫呃涂睫毛的时候,先夹一下睫毛,夹。
speaker_1: 嗯哪三个字。
speaker_2: 足力健。
speaker_1: 哦听说过。
speaker_2: 那你给我讲讲。
speaker_1: 我听说这个足力健对老年人的脚底有好处,而且边走路都能健身是吗。
speaker_1: 就这样子,嗯,一般男生都是看什么电影啊? 推理的吗? 还是什么。
speaker_2: 也不是吧,就是看那种,嗯,具体也说不出哪种类型嘛。
speaker_1: 具体也说不出。
speaker_2: 嗯。
speaker_1: 就是都有看一点。
speaker_1: 是了,只有你,化化起妆了才能充实呢,自信心呃然后才,感觉自己的心情是美美哒的。
speaker_2: 你想化妆是,呃那就从眉毛开始说不是从打底开始说吧。
speaker_1: 嗯说,好想听呢。
speaker_2: 洁面以后就是拍水乳,水乳霜。
speaker_1: 嗯。

Music generation

Music

Instruction TTS Result
Genre: 迪斯科. Mood: 活力四射 / 精力充沛. Instrument: 电吉他. Theme: 运动. Duration: 30s
Genre: 当代古典音乐. Mood: 温暖 / 友善. Instrument: 合成拨弦. Theme: 节日. Duration: 60s.
Genre: 电子舞曲. Mood: 自信 / 坚定. Instrument: 架子鼓. Theme: 节日. Duration: 47s.
Genre: 独立民谣. Mood: 鼓舞人心 / 充满希望. Instrument: 合成铜管乐器. Theme: 节日. Duration: 63s.
Genre: 流行摇滚. Mood: 温暖 / 友善. Instrument: 低音鼓. Theme: 旅行. Duration: 76s.
Genre: 电子舞曲. Mood: 快乐. Instrument: 定音鼓. Theme: 好时光. Duration: 61s.
Genre: 流行乐. Mood: 温暖 / 友善. Instrument: 合成铜管乐器. Theme: 庆典与喜悦. Duration: 41s.
Genre: 当代古典音乐. Mood: 鼓舞人心 / 充满希望. Instrument: 合成拨弦. Theme: 庆典与喜悦. Duration: 45s.
Genre: 电子舞曲. Mood: 鼓舞人心 / 充满希望. Instrument: 电吉他. Theme: 运动. Duration: 94s.

Speech/Music Mono Generation: Single-Channel Generation of Speech and Music

Instruction Input Prompt Target Text TTS Result
Genre: 电子舞曲. Mood: 活力四射. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB. 全神贯注,跟上这强劲的节奏,冲向终点吧!
Genre: 流行摇滚. Mood: 快乐. Instrument: 电吉他. Theme: 旅行. SNR: 5.0dB. 阳光洒满公路,带上行囊,出发去远方!
Genre: 迪斯科. Mood: 兴奋. Instrument: 架子鼓. Theme: 生日. SNR: 5.0dB. 派对时刻到!让我们在鼓点中祝你生日快乐!
Genre: 电子舞曲. Mood: 兴奋. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB. 汗水在燃烧,感受这股能量,你就是最强的!
Genre: 流行摇滚. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB. 踏上未知的旅程,每一步都充满未知的惊喜!
Genre: 迪斯科. Mood: 快乐. Instrument: 电吉他. Theme: 生日. SNR: 5.0dB. 吹灭蜡烛前,先跟着旋律尽情摇摆吧!
Genre: 电子舞曲. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 生日. SNR: 5.0dB. 这是属于你的闪耀时刻,生日派对正式开始!
Genre: 流行摇滚. Mood: 兴奋. Instrument: 电吉他. Theme: 运动. SNR: 5.0dB. 超越极限,感受心跳的轰鸣,永不言弃!
Genre: 迪斯科. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB. 在霓虹闪烁的异国街头,找寻失落的快乐!
Genre: 流行摇滚. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB. 运动让生活更有趣,让我们一起快乐出发!

Sound generation

TTA

Instruction TTS Result
A motor is revving and changing gears
Thunder and a gentle rain
Continuous snoring of a person
Nature sounds with a frog croaking
A man talking as a stream of water trickles in the background

Speech/Sound Mono Generation: Single-Channel Generation of Speech and Sound

Instruction Input Prompt Target Text TTS Result
Birds chirping 副主任及以上号别就诊人次,为二百零八点二万。
Light rain 其中又有大部分百分之四十一点九认为,由该品牌影楼拍摄。
Keyboard typing 本次有害昆虫科普展,是一场专门为孩子准备的科普教育活动。
Fire engine siren 他陪舅舅到简阳一所学校,考察捐资改建事宜。
Rainstorm 请语音留言,告诉电话精灵您没有达到父母的哪些要求。