编者按:工业数据是工业发展宝贵的战略资源,是推动制造业数字化、网络化、智能化发展的关键生产要素。为探索工业数据“采”“集”“用”有效路径,工业和信息化部3月印发通知,启动工业数据筑基行动,开展面向人工智能赋能的高质量行业数据集建设先行先试。《中国电子报》近日展开广泛采访,就“工业数据筑基行动”进行解读,就高质量数据集建设汇聚行业智慧,以期对工业领域高质量数据集建设贡献力量。
苏州核数聚信息科技有限公司(简称核数聚)是一家专业的人工智能数据资源及服务提供商,是国内AI数据服务领域的头部企业。日前,苏州核数聚信息科技有限公司CTO胡楠博士就相关问题接受《中国电子报》采访,现将部分精彩观点摘录如下。
如何解读工业和信息化部于近日启动工业数据筑基行动、开展先行先试的时代背景?
胡楠:为什么说这次工业数据筑基行动势在必行?今年政府工作报告首提 “打造智能经济新形态”,我们行业内的共识非常明确:工业发展要有AI,而AI离不开高质量数据。国家建设高质量数据集的部署,正是顺应了这一趋势。
这里要特别强调一个核心概念,传统的大数据采集和我们现在要做的高质量数据集,是两条完全不同的技术路径,有着本质的区别。传统大数据的技术路径是 “先收集,后挖掘统计”:它是先将数据堆积起来,再通过统计分析去挖掘价值。这更像是“开采原油”,量大但杂质多。高质量数据集的路径是“先算法,后数据”:它必须先明确 AI 算法的应用场景和需求,然后为了训练这个算法,去定向、精准地收集和构建数据。这是为算法 “量身定制” 的精准原料,是原油精炼出来的汽油,只有汽油才能驱动引擎。
过去,制造行业确实积累了海量数据,但那只是大数据,不等于高质量数据集,根本无法满足工业AI的深度赋能需求。所以,这次先行先试的核心任务,就是把过去的“大数据”通过深度加工,转化为能真正驱动AI的“高质量数据集”,让数据资源真正成为产业发展的核心资产。
该行动对行业有何意义?将给产业链哪些领域带来哪些利好?
胡楠:当前我们正处在第四次工业革命浪潮中,AI已经成为全方位提升工业生产力的核心力量,而数据恰恰是AI模型的根基所在——没有高质量数据,再先进的AI算法也无法落地。所以这次行动命名为“筑基”,非常贴切,本质就是为工业AI筑牢数据根基,让AI能真正赋能产业升级。
这次行动的意义,在于为工业数据开发利用按下了“加速键”,推动它进入标准化、规模化的新阶段。它能解决“采、集、用”全链条的痛点,推动形成统一的标准,让分散杂乱的数据变得规范、可流通、可复用,倒逼行业从“经验驱动”彻底转向“数据驱动”。
对产业链而言,利好是全方位的。从宏观来看,工业大模型、工业智能体的赋能逻辑,就像当年电脑普及赋能所有行业一样,将渗透到各个产业的全流程,推动各行业实现研发、生产、质检等环节的智能化升级,进而带动产业链上下游协同发展、共同提升。从微观的数据产业来看,这一行动将直接拉动“采集—标注—训练”全产业链的发展:一方面,将带动传感器、工业总线、机器视觉等数据采集硬件的迭代升级,激发相关领域的市场需求;另一方面,数据清洗、智能标注、算力支撑等配套服务也将迎来爆发式增长,培育一批专业数据服务主体。
“行动”提出依托重点行业企业、平台机构、先进制造业集群、中小企业数字化转型城市试点等四大类实施主体分类施策。其中,企业担当高质量数据集建设主体的话,应从哪些方面入手做好此项工作?
胡楠:应联合行业内的企业、科研机构携手参与平台优化和数据集迭代升级,强化标准引领,实现数据互通复用,共同构建“共建、共享、共益”的良性行业生态。
另一方面,要坚持需求导向、场景赋能,核心让数据集回归工业本质,紧扣工业生产的实际需求,聚焦工业大模型、工业智能体的落地应用,让每一份高质量数据都能真正服务于生产实践,切实把数据价值转化为生产力。
作为行业龙头企业,核数聚在智驾、大模型、具身智能、语音交互等领域,为这些AI模型搭建高质量数据集。诚然,工业领域的AI应用,相比这些行业确实起步稍晚,但这些领域的成功经验,完全可以复制到工业场景中,为工业高质量数据集建设提供宝贵借鉴。
除了钢铁、汽车等行业,目前国内还有哪些行业亦有先行先试的基础?
胡楠:除了钢铁、汽车,我认为装备制造、电子信息制造、新能源、生物医药这几个行业,也具备非常好的先行先试基础。
这些行业的共同特点是,数字化转型起步早,数据标准化程度相对较高,且对AI赋能的需求迫切。例如装备制造的设备运维、电子信息的研发迭代、新能源的发电优化、生物医药的药物研发,都急需高质量数据集来突破AI应用的瓶颈。
目前高质量行业数据集建设面临哪些问题和挑战?对推进工业高质量数据集建设工作有何建议?
胡楠:当前,高质量数据集建设仍面临不少突出挑战:一是标准体系尚不健全,缺乏统一的行业规范,导致不同主体、不同环节的数据难以互通互认,重复建设造成资源浪费;二是中小企业自身数据储备不足、资源有限,单靠自身力量难以完成高质量数据集建设,必须通过协同联合、资源整合,才能参与到这项工作中来;三是数据成本与价值变现的平衡难度较大,如何让企业通过数据治理产生利润,仍是行业亟待破解的难题。
我们也有几点倡议:我们愿意主动开放自身的数据治理经验和基础工具,带动中小企业一起参与;希望行业内企业摒弃“数据壁垒”思维,聚焦各自核心场景,共享数据,避免重复采集、资源浪费;大家都要立足生产实际,不搞“为建而建”的形式化数据集,每建一套数据集都要产生AI模型,都要能解决实际生产痛点、产生实际价值,让数据真正服务于生产、创造效益。
我们相信,在各方协同努力下,工业数据筑基行动一定能取得实效,为打造智能经济新形态、推动制造业高质量发展提供强大支撑。
作者丨陈存编辑丨吴丽琳美编丨马利亚监制丨赵晨
164