数据“炼油”难点何在？丨聚焦工业高质量数据集建设

近日，围绕工业高质量数据集建设的政策探讨与产业行动持续升温。由工业和信息化部牵头，龙头企业、行业协会深度参与，一场以工业数据筑基为目标、面向人工智能赋能的高质量行业数据集建设先行先试正在悄然铺开。其目标直指一个核心：如何将海量的工业数据提炼为精准可用的高质量数据，真正让数据资源转化为产业升级的核心资产，成为发展新质生产力的关键要素？

什么是“面向AI赋能的”高质量数据？

何为高质量数据？国家数据局指导发布的《高质量数据集建设指引》指出，高质量数据是指经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型表现的数据的集合。

简单的定义却透露出了高质量数据的两个关键特点。其一，它是在传统数据基础上经过精炼得到的，并非数据规模竞赛，而更注重数据质量深耕；其二，人工智能是推动高质量数据集建设的核心动力，经过处理的数据必须可供人工智能模型使用。

苏州核数聚信息科技有限公司CTO胡楠以工业场景为例，进一步解释称，过去制造行业确实积累了海量数据，但那只是大数据，不等于高质量数据集，根本无法满足工业 AI 的深度赋能需求。他认为先行先试的核心任务，就是把过去的“大数据”通过深度加工，转化为能真正驱动AI的高质量数据集，让数据资源真正成为产业发展的核心资产。

胡楠向《中国电子报》记者表示，具体来看，传统的大数据采集和现在要做的高质量数据集，是两条完全不同的技术路径，有着本质区别，二者更像是原油和汽油的关系。他指出，传统大数据的技术路径是 “先收集，后挖掘统计”，是先将数据堆积起来，再通过统计分析去挖掘价值，这更像是“开采原油”，量大但杂质多。高质量数据集的路径则是“先算法，后数据”，必须先明确 AI 算法的应用场景和需求，然后为了训练这个算法，去定向、精准地收集和构建数据，由此得来的才是为算法“量身定制”的精准原料，也只有这种从“原油”中精炼出的“汽油”才能驱动引擎。

那么，如何判断一个数据是否高质量？相较传统大数据，对高质量数据的要求一方面增加了诸多新的评价指标，在准确性、完整性、一致性、时效性等基础指标之余，还关涉数据的多样性、真实性、合规性等维度，且不同行业的关注点存在细微差别。例如，工业制造领域就尤其关注数据内容的真实性、多样性和标注准确性。另一方面，特别强调数据集在模型训练和应用中的实际效果，即对模型性能的提升程度。

工业高质量数据集建设难点何在？

数据显示，截至2025年年底，全国已建成超10万个高质量数据集，总体量超过890PB，高质量数据集建设前景广阔，但在工业场景仍面临诸多现实挑战，且遍布采、集、用环节及数据标准层面。

工业制造领域的数据形态多样，主要包括时序数据、图像、图纸文档、仿真数据等。中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受《中国电子报》采访时指出，在数据“采”的环节，工业场景中的数据往往来自不同设备、不同协议、不同模态——视觉、声纹、振动、温度、时序信号等交织在一起，多模态、多源异构数据的采集与对齐难度较大，行业内还缺乏成熟的自动化采集工具和标准化接口。

在数据“集”的环节，王金桥认为，难点在于标注成本高、专业性强、长尾场景覆盖难。他特别强调，工业场景中真正有价值的往往是那些“小概率、大影响”的长尾事件，这类数据极度稀缺，靠真实采集难以满足模型训练的需求。

在数据“用”的环节，数据安全与共享的矛盾突出。工业企业普遍对数据安全高度敏感，担心核心工艺数据、产线数据外泄。在“不敢共享”的顾虑下，跨企业、跨行业的数据流通难以实现。他表示，行业需要继续探索如何在保障数据主权的前提下实现“可用不可见”。

最后，在标准建设层面，王金桥表示，行业数据集的建设仍处于“各自为战”的状态，缺乏统一的标准规范，要建立统一的数据格式、质量分级、评测体系，推动形成规模效应和复用价值。

值得注意的是，部分数据集在建设时还存在与工业场景严重脱节的问题，脱离企业生产的实际需求，即便数据质量达标，也难以适配具体工艺和真实场景，无法真正赋能AI模型、提升生产效率，并可能造成数据资源和建设成本的浪费。

针对上述问题，业内普遍认为，各方应各司其职，协同助力高质量数据集发展。鼎捷数智执行副总裁刘波表示，希望平台机构以可落地的智能工具为核心，打造全链路数据治理能力；龙头企业开放场景与数据资源，引领智能治理实践；中小企业主动拥抱轻量化智能工具，低成本实现数据质量提升。

哪些场景有望率先跑出“标杆”？

京东工业研发相关负责人向《中国电子报》记者表示，工业领域数字化转型具有“一米宽、百米深”的特点，“一米宽”即行业是由若干业务边界清晰的场景组成，“百米深” 即每个场景背后都蕴含了大量的工业知识和机理，每个场景的数字化都涉及不同的工具、软件、技能、方法，具有很强的专业性和复杂度。这也决定了工业高质量数据集建设需立足场景、深耕细作。

工业和信息化部在相关通知中明确提出“六个一批”目标，并将钢铁和汽车行业视为工业高质量数据集先行先试的重点领域。业界人士普遍认为，除此之外，还有多个领域同样具备先行先试的良好基础，且呈现出鲜明的共性特征，同样有望成为高质量数据集建设的重要突破口。

王金桥指出，数字化基础较好、痛点场景明确、数据价值密度高的行业有望率先突破，如电子信息制造业、装备制造业、生物医药与医疗器械、能源与电力及低空经济相关产业。

刘波则认为，装备制造、电子信息、工程机械、五金加工、新材料等行业可以先行，他指出，这些行业具备三大特征，第一，产业链条长、场景复杂度高、生产数据密集，企业生产过程中产生的经验数据、记录数据、参数数据等海量数据，为数据集建设提供了丰富的原始素材；第二，数字化改造起步早、设备联网率高，已形成较为丰富的数据积累与应用实践，部分龙头企业已实现 IT 与 OT 数据的初步贯通；第三，对质量管控、设备运维、供应链协同、能耗优化等智能化的需求也十分迫切，龙头企业带动效应明显。

然而，试点推广过程也需警惕短期效应，兼顾长远发展。亚信科技智能制造专项负责人刘长水指出，试点项目应警惕“盆景化”风险，防止停留在“做示范”层面。刘波也表示，先行先试中还存在多方协同难、试点经验复用难、投入产出机制不清晰等现实困难，制约着数据集规模化建设与价值释放。

从产业链全维度来看，工业高质量数据集的建设并非单一主体的获利，而能带动整个工业生态的协同发展。北京中科汇联科技股份有限公司董事长游世学认为，高质量数据集建设有利于加速工业数据标准化、价值化进程，实现数据汇聚、治理、开放与共享。

上下游企业都有望借此迎来发展机遇。刘长水表示，对数据服务企业而言，随着数据集建设的推进，数据咨询、数据治理、数据标注等专业服务需求将大幅增长；工业软件与平台厂商将迎来需求爆发，相关行动的推进将催生一系列行业数据可信互联平台、数据资源库的建设需求；大模型与工业智能体厂商垂域大模型也将受此影响加速落地；制造业企业则可能通过数据赋能实现提质、降本、增效。

作者丨陈存编辑丨吴丽琳美编丨马利亚监制丨赵晨

数据“炼油”难点何在？丨聚焦工业高质量数据集建设

什么是“面向AI赋能的”高质量数据？

工业高质量数据集建设难点何在？

哪些场景有望率先跑出“标杆”？

相关推荐