湖州市人民政府

WWW.HUZHOU.GOV.CN

当前位置: 首 页 > 宣贯动态

人一辈子的数据都能清清楚楚?浙江这个地方做到了

信息来源:潮新闻

发布时间:2023-03-30 10:32:34


春意渐浓,又到了每年公布中小学、幼儿园招生方案的时候。最近,在浙江嵊州,教体局正忙着统计各阶段生源数量,编制招生人数。但与多年前需要去各个幼儿园收集数据不同,如今一台电脑就能提供所有所需信息。


这要归功于一项关于公共数据档案化治理的改革试点。去年起,嵊州作为全省唯一试点,探索“个人全生命周期档案”综合智治应用,将贯穿个人生命周期的数据进行融合、治理、归档、溯源,让一生的数据有“档”可寻。目前,该应用已对嵊州71万户籍人口完成数据归集4114万条,数据治理808万条,场景建设5个。


3月23日,嵊州举行公共数据档案化治理研讨会,这项应用接受了来自全国的档案学者和数据治理专家的“检验”,其数据治理的阶段性成果得到专家学者肯定,下一步计划全省推广。


那么,为什么要对个人一生的数据进行档案化治理?怎么治?未来又能发挥什么效用?


一头热,一头冷


这两年,很多人都发现,使用的APP年底都会生成一份个人年度总结。这些,就是数据的整理的具体应用。


每个人的一生,其实都在产生数据。有数据专家认为,对这些数据的处理会涉及到两个问题,一是保存,即如何将纸质档案数据化,便于储存和查找;一是治理,怎么让数据归属和关联到我们每个人,让数据产生意义。


从古老的石刻、甲骨到纸质档案,浩如烟海的档案,不仅保存上是个难题,传播和利用也极为困难。


此时,数字化无疑成为一项重要“法宝”。2021年7月,《浙江省档案工作数字化改革方案》印发,要求加快档案资源向数字化、数据化转型。浙江在数字化改革的基础上,依托公共数据平台建立专题数据库,并依照“一数一源一标准”的原则对公共数据进行整理。


“公共数据平台就像一个水池,把与档案相关的数据放进去,经过清洗、比对和关联,建立专题数据库,相关部门需要时可以进行申请提取。”金加和向记者介绍,目前,依托平台已归集档案相关数据536.1万条,赋能省档案馆、省司法厅等18个应用,累计调用4003.9万次。


然而,一边是档案数据化“热”,一边却是数据档案化“冷”。浙江大学公共管理学院副教授章燕华指出,目前档案实践已经普遍引入了数据理念和方法,但把档案理念引入数据实践却鲜有人关注。她调查发现,近五年“数据档案化”的相关论文屈指可数。


“为什么数据经过了标准化的处理,还需要进行档案化治理?”嵊州的研讨会上,有人抛出了这一疑问。


章燕华用“机器友好”和“人类友好”的对比来解释其中区别,“‘一数一源一标准’治理后的数据,主要用于计算机系统内部处理。而档案化治理将和个人有关的数据进行匹配、关联,数据由此成为了一个连续体,可以按照人的一生来还原、建立其重要数据,意义重大。”


一头汇聚,一头治理


研讨会上,嵊州市档案馆、嵊州大数据中心重点讨论了项目所遇到的难点。要想实现数据档案化治理,技术上并非一蹴而就。


比如第一步原文识别就遇到大麻烦。技术人员在数据汇集时发现,很多年代久远的证明材料经常出现姓名印斜、字迹模糊等情况。这导致通过OCR技术识别出的字符和真实信息偏差很大,精准度不到60%。正当项目陷入僵局之时,嵊州大数据中心数据资源科科长徐成钢灵光一现:“不如先保证识别出最关键的信息身份证号,再把姓名、档案号等信息作为备选条件,同时通过现有身份系统进行比对核实?”


果然,分步测试后,数据识别的精准度达到了95%以上。


到数据汇聚这一步,直接考验当地近年来数字化成效。徐成钢向记者展示了一张Excel统计表格,仅在“出生”这一场景,就涉及到出生医学证明、户口登记、居民身份证等8项证照的信息收集,每类信息还可能关联到不同部门。还好,省里的一体化数字资源系统(IRS)可以回流数据,将相关信息与有关业务系统进行对接,充分保证了数据的全面。


出生证新生儿身份证号如何补全?不同部门的数据产生冲突怎么办?……在第三步的数据比对、校验、加工等过程,难度持续加大。面对海量数据,这些过程都要迅速完成,构建一套智能算法是关键。于是,项目专班与负责技术研发的杭州安铂数据公司一道,构建了数据校验算法3种、数据加工算法5类,用于补全关键业务字段值,并通过身份证信息,构建个人基本信息数据专题档案。


“目前对于少量缺失或异常数据,还需要进行人工查找和核对。随着算法的不断进步,相信很快这个系统就能实现全自动化。”杭州安铂数据公司总经理王青云表示。


据悉,项目组整整用了半年时间,最终完成4114万数据的汇聚与808万条数据的治理。嵊州市71万户籍人口基本每人实现了自己的电子化“一人一档”,随着项目推进,每个人以前、现在、今后产生的几乎所有公共数据,都可以以身份证为索引进行检索、调用,而不是以前那样分散“躺”在各种系统、各种表格中。


“如果将海量数据比作矿产资源,那么数据治理的过程就像金属的冶炼,通过分类分级和加工处理,将宝贵的金属材料从矿石中提取出来,满足不同用户的需求。”金加和直言,经过精细化治理的数据,才能体现数据资源的价值。


一头攻坚,一头突破


“在嵊州,像我这样在外地做生意的学生家长很多。以前给孩子报名很麻烦,不仅来回出行成本高,一旦哪个纸质证明找不到,一家人还要翻箱倒柜忙碌好久。”记者联系上了在天津做小笼包生意的二孩妈妈徐女士。她说,自家二宝报名,不再像大宝报名那样要奔波劳碌。尽管人在外地,但她登入“浙里办”应用的网上报名系统,所有信息会自动匹配,几乎能够“一键报名”。


这一变化,也是浙江数据治理进阶之路的体现。通过将个人相关的档案数据推送至“浙里办”应用中的“浙里档案”,数据壁垒被打通,百姓办事自然也更方便。目前,核心业务已拓展至中小学报名系统、电子病历系统、智慧交通系统等。


“我们除了在服务侧为老百姓提供便利,还在治理侧将应用上架‘浙政钉’,方便政府部门协同推进数据治理。”嵊州市档案馆副馆长汪伟民向记者介绍。


例如,“个人全生命周期档案”项目中的“出生驾驶舱”,就能够为嵊州卫生健康局判断婴幼儿托位数、制定鼓励生育措施等工作提供依据。此外,项目还开发完成了教育、就医、养老、身后共5个场景的大屏建设,为教体局、人力社保局等多个部门提供数据支撑。


眼下,数据档案化治理仍处于探索阶段,由于数据治理标准规范不一、数据质量参差不齐,许多改革参与者、研究者仍感到在“摸着石头过河”。但采访中,大家不约而同地都对它的“变身”充满期待:预计今年年底,应用场景将拓展至10个人生阶段,覆盖个人全生命周期;未来,还能基于模型算法构建完整的人物社会关系图谱,为化解民事纠纷、资产溯源追踪等提供支持。


向更远处看,浙江的数据治理之路将通向何方?在数据标准化、档案化的基础上,如何更进一步,推动数据资源更广阔的应用,是不少专家学者的共同关切。


研讨会上,数据专家为我们描绘了一条数据治理的“进阶之路”:“标准化让数据治理制度更加标准,档案化让数据更有价值。未来,还可以将数据资源变为数据资产,让数据可控制、可度量、可变现,探索开展数据质押、数据信托,促进数据资产化应用,培育数据要素市场,助力数字经济高质量发展。”


主办方:湖州市人民政府 地址:湖州市仁皇山路666号 政府阳光热线:0572-12345
浙公网安备 33059102000015号 浙ICP备05051884号 网站标识码:3305000015 技术支持:湖州市大数据发展管理局 技术支持电话:0572-2398817