近日,围绕工业高质量数据集建设的政策探讨与产业行动持续升温。由工业和信息化部牵头,龙头企业、行业协会深度参与,一场以工业数据筑基为目标、面向人工智能赋能的高质量行业数据集建设先行先试正在悄然铺开。其目标直指一个核心:如何将海量的工业数据提炼为精准可用的高质量数据,真正让数据资源转化为产业升级的核心资产,成为发展新质生产力的关键要素?
什么是“面向AI赋能的”高质量数据?
何为高质量数据?国家数据局指导发布的《高质量数据集建设指引》指出,高质量数据是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。
简单的定义却透露出了高质量数据的两个关键特点。其一,它是在传统数据基础上经过精炼得到的,并非数据规模竞赛,而更注重数据质量深耕;其二,人工智能是推动高质量数据集建设的核心动力,经过处理的数据必须可供人工智能模型使用。
苏州核数聚信息科技有限公司CTO胡楠以工业场景为例,进一步解释称,过去制造行业确实积累了海量数据,但那只是大数据,不等于高质量数据集,根本无法满足工业 AI 的深度赋能需求。他认为先行先试的核心任务,就是把过去的“大数据”通过深度加工,转化为能真正驱动AI的高质量数据集,让数据资源真正成为产业发展的核心资产。
胡楠向《中国电子报》记者表示,具体来看,传统的大数据采集和现在要做的高质量数据集,是两条完全不同的技术路径,有着本质区别,二者更像是原油和汽油的关系。他指出,传统大数据的技术路径是 “先收集,后挖掘统计”,是先将数据堆积起来,再通过统计分析去挖掘价值,这更像是“开采原油”,量大但杂质多。高质量数据集的路径则是“先算法,后数据”,必须先明确 AI 算法的应用场景和需求,然后为了训练这个算法,去定向、精准地收集和构建数据,由此得来的才是为算法“量身定制”的精准原料,也只有这种从“原油”中精炼出的“汽油”才能驱动引擎。
那么,如何判断一个数据是否高质量?相较传统大数据,对高质量数据的要求一方面增加了诸多新的评价指标,在准确性、完整性、一致性、时效性等基础指标之余,还关涉数据的多样性、真实性、合规性等维度,且不同行业的关注点存在细微差别。例如,工业制造领域就尤其关注数据内容的真实性、多样性和标注准确性。另一方面,特别强调数据集在模型训练和应用中的实际效果,即对模型性能的提升程度。
工业高质量数据集建设难点何在?
数据显示,截至2025年年底,全国已建成超10万个高质量数据集,总体量超过890PB,高质量数据集建设前景广阔,但在工业场景仍面临诸多现实挑战,且遍布采、集、用环节及数据标准层面。
工业制造领域的数据形态多样,主要包括时序数据、图像、图纸文档、仿真数据等。中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受《中国电子报》采访时指出,在数据“采”的环节,工业场景中的数据往往来自不同设备、不同协议、不同模态——视觉、声纹、振动、温度、时序信号等交织在一起,多模态、多源异构数据的采集与对齐难度较大,行业内还缺乏成熟的自动化采集工具和标准化接口。
在数据“集”的环节,王金桥认为,难点在于标注成本高、专业性强、长尾场景覆盖难。他特别强调,工业场景中真正有价值的往往是那些“小概率、大影响”的长尾事件,这类数据极度稀缺,靠真实采集难以满足模型训练的需求。
在数据“用”的环节,数据安全与共享的矛盾突出。工业企业普遍对数据安全高度敏感,担心核心工艺数据、产线数据外泄。在“不敢共享”的顾虑下,跨企业、跨行业的数据流通难以实现。他表示,行业需要继续探索如何在保障数据主权的前提下实现“可用不可见”。
最后,在标准建设层面,王金桥表示,行业数据集的建设仍处于“各自为战”的状态,缺乏统一的标准规范,要建立统一的数据格式、质量分级、评测体系,推动形成规模效应和复用价值。
值得注意的是,部分数据集在建设时还存在与工业场景严重脱节的问题,脱离企业生产的实际需求,即便数据质量达标,也难以适配具体工艺和真实场景,无法真正赋能AI模型、提升生产效率,并可能造成数据资源和建设成本的浪费。
针对上述问题,业内普遍认为,各方应各司其职,协同助力高质量数据集发展。鼎捷数智执行副总裁刘波表示,希望平台机构以可落地的智能工具为核心,打造全链路数据治理能力;龙头企业开放场景与数据资源,引领智能治理实践;中小企业主动拥抱轻量化智能工具,低成本实现数据质量提升。
哪些场景有望率先跑出“标杆”?
京东工业研发相关负责人向《中国电子报》记者表示,工业领域数字化转型具有“一米宽、百米深”的特点,“一米宽”即行业是由若干业务边界清晰的场景组成,“百米深” 即每个场景背后都蕴含了大量的工业知识和机理,每个场景的数字化都涉及不同的工具、软件、技能、方法,具有很强的专业性和复杂度。这也决定了工业高质量数据集建设需立足场景、深耕细作。
工业和信息化部在相关通知中明确提出“六个一批”目标,并将钢铁和汽车行业视为工业高质量数据集先行先试的重点领域。业界人士普遍认为,除此之外,还有多个领域同样具备先行先试的良好基础,且呈现出鲜明的共性特征,同样有望成为高质量数据集建设的重要突破口。
王金桥指出,数字化基础较好、痛点场景明确、数据价值密度高的行业有望率先突破,如电子信息制造业、装备制造业、生物医药与医疗器械、能源与电力及低空经济相关产业。
刘波则认为,装备制造、电子信息、工程机械、五金加工、新材料等行业可以先行,他指出,这些行业具备三大特征,第一,产业链条长、场景复杂度高、生产数据密集,企业生产过程中产生的经验数据、记录数据、参数数据等海量数据,为数据集建设提供了丰富的原始素材;第二,数字化改造起步早、设备联网率高,已形成较为丰富的数据积累与应用实践,部分龙头企业已实现 IT 与 OT 数据的初步贯通;第三,对质量管控、设备运维、供应链协同、能耗优化等智能化的需求也十分迫切,龙头企业带动效应明显。
然而,试点推广过程也需警惕短期效应,兼顾长远发展。亚信科技智能制造专项负责人刘长水指出,试点项目应警惕“盆景化”风险,防止停留在“做示范”层面。刘波也表示,先行先试中还存在多方协同难、试点经验复用难、投入产出机制不清晰等现实困难,制约着数据集规模化建设与价值释放。
从产业链全维度来看,工业高质量数据集的建设并非单一主体的获利,而能带动整个工业生态的协同发展。北京中科汇联科技股份有限公司董事长游世学认为,高质量数据集建设有利于加速工业数据标准化、价值化进程,实现数据汇聚、治理、开放与共享。
上下游企业都有望借此迎来发展机遇。刘长水表示,对数据服务企业而言,随着数据集建设的推进,数据咨询、数据治理、数据标注等专业服务需求将大幅增长;工业软件与平台厂商将迎来需求爆发,相关行动的推进将催生一系列行业数据可信互联平台、数据资源库的建设需求;大模型与工业智能体厂商垂域大模型也将受此影响加速落地;制造业企业则可能通过数据赋能实现提质、降本、增效。
作者丨陈存编辑丨吴丽琳美编丨马利亚监制丨赵晨
525