1

智能语音正在结构数字生产力

 1 year ago
source link: https://www.sino-manager.com/299313.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

智能语音正在结构数字生产力

中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。然而智能语音赛道参与者不断入局,使得竞争愈发激烈。

■ 文/卫明

2011年,Siri首次应用到iPhone4s上。通过语音识别等技术,一句“hey Siri”,让用户可以和手机设备进行天气、短信、地图查找等功能的简单交互。如今,智能语音技术已经在互联网、企业服务、政务、教育、传媒、医疗健康等行业持续创造产业经济价值。

作为人工智能中最成熟的核心技术之一,智能语音转写技术通过持续商业化落地和应用场景开发,已经成为人工智能语音产业落地的“先锋军”。通过观察智能语音转写技术和行业的发展现状和趋势,能够看到智能语音技术更多的应用可能。那么,中国智能语音转写市场快速发展的驱动力是什么?现有行业入局者又该如何在头部企业的力压下,寻找属于自己的生存空间?

两大发展驱动力

随着人工智能技术的快速发展,以及市场上迅猛增长的实时与非实时语音转写需求,中国的智能语音转写市场正在快速扩大。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写技术的持续突破、应用场景泛化、质量和效率持续提升,智能转写市场还将加速发展。预计2026年中国智能语音转写行业市场规模将达到38亿元,2021~2026年的复合年均增长率为30.7%。

中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。

转移人工转写成本。智能语音转写技术,已经让“出口成章”成为现实。在智能语音技术落地之前,过去的会议记录需求主要依赖人工尤其是专业速录师,人工转写成本较高。而智能语音转写技术兼具价格、质量和效率三大优势,无论是实时语音转写与非实时语音转写,如今国内多家厂商都能够提供长音频的语音转文字服务,且准确度和效率得到了大幅提升。在这样的技术背景下,智能语音转写服务已经不再是辅助优化人工转写的次要选择,而是成为缓解人工价格压力普遍选择。

转写场景泛化拉动丰富用户需求。智能语音转写技术拉低转写成本,不但能够满足更多有具体转写需求的小众市场,同时价格优势还能催生新的市场需求。市场上智能语音转写应用场景的泛化,也在反向丰富智能语音转写的产品形态。不仅如此,在语音识别这个大赛道里,已经走过了最艰难的算法研发阶段,目前正处于如何满足市场上细分需求并不断提升用户体验阶段,而智能语音转写行业也处于这一赛道变化中。

这里,将会从用户接受度较为成熟的在线会议、自媒体、政务会展等领域举例分析。

根据中国互联网络发展统计报告数据,截至2022年6月中国在线办公用户规模已跃升至4.7亿。近几年办公形式的变化,让更多用户逐渐养成在线协同办公习惯,许多企业已经将远程协同办公作为企业常态运营的工具。例如腾讯会议可以通过APP录制音视频,并且提供后续的转写服务。而讯飞听见能够满足日常办公会议、授课演讲、媒体采访等多种工作场景下的转写需求。

在媒体平台中,尤其是抖音和哔哩哔哩这两个以自媒体视频创造者见长的两大平台,是语音转写的一大市场。数量庞大的长短视频发布者是这两大平台拥有持续内容产出、高用户活跃度的关键,而视频发布者对视频内容的字幕转写有着很高的硬需求。一方面是国内视频附加字幕已经成为媒体行业内心照不宣的共识,另一方面则源于用户静音观看对内容的需求,以及平台方对于内容管理的审核需 求。

无论是政务会议,还是会展活动,都具备字幕上屏、多语种同传等的现场会议服务需求。落实到具体的技术水平上,讯飞听见已经代替了全国人大用了几十年的常委会会议系统。在2022年的全国两会期间,有34个地方代表团全面使用了讯飞听见。讯飞听见对将近3000个全国人大代表的两会发言进行实时转写,平均准确率达到96%,远超人工速记员。

破局与展望

市场需求加大、转写场景泛化不断拉高行业景气度,然而智能语音赛道参与者不断入局,使得竞争愈发激烈。现阶段,我国智能语音转写产品市场较为集中,讯飞听见和搜狗听写的头部效应明显。其他品牌则存在核心产品功能高度相似、产品应用场景雷同的问题,这种品牌产品差异性不足的现状不断加剧同质化,叠加智能语音赛道愈发明显的马太效应,除了头部企业之外,大部分创业企业难以盈利。

如何在同质化的赛道中,形成自己的差异化优势,已经成为行业中各企业必须思考的问题。

以科大讯飞、搜狗为代表的头部企业利用先发和技术优势,不断拓展自身产业链,构建完整生态结构。但是也有许多创业企业扎根细分行业,找到了属于自己的细分赛道。比如主要服务于字节系产品的火山引擎,其智能字幕生成服务可用于辅助视频字幕创作和外挂字幕生成,主要匹配字节系产品内容生产者的视频处理需求。还有专注语音识别转写的灵云语音,主要面向各行业C端用户,满足多场景个人转写需求的录音转文字助手等。

除此之外,位于智能语音转写第二梯队的百度智能云、阿里云、腾讯云等互联网巨头,依托品牌自有用户生态,积极向C端用户进行运营推广。整体来说,尽管市场的参与者众多,但是除了头部企业积极开展前瞻布局外,其他服务商正在现有市场中的各细分领域进行差异化竞争,努力分得属于自己的一杯羹。

除了从竞争现状中寻得差异化落脚点,入局者还需要思考语音识别技术更大的潜力空间。语音识别技术突破创新方向是什么?还有哪些产品生态是尚未开发的?

从技术来看,如何在现实复杂场景中保障语音识别的质量和效率,正在成为新的突破点。在“混合语种”“嘈杂环境”下的“多人”“交互”等因素交织的复杂语音场景下,科大讯飞已经走在前列。在国际上两年一次的高噪音复杂场景比赛中,科大讯飞通过语音识别和嘴型识别的多种模式识别,在很多领域高噪音环境下做到实用,位列全球第一。而在工业领域,科大讯飞2022年获得了DCASE全球工业声纹挑战赛冠军,机器可以听懂各种设备的运转是否正常,听懂各种产品是否噪音超标或有瑕疵。行业入局者可以基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。

从产品来看,目前智能转写技术主要是实现语音到文字的转写内容。结合艾瑞咨询发布的《2022年中国智能语音转写行业研究报告》中对于场景价值的描述,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,在沉淀文字内容基础上,自主生成优化策略,以更高阶、智能地辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK