我将从平台层面、数据层面、利用层面及影响层面来对政府数据进行分析,不同层面包 含不同衡量指标。
1.1 全国数据平台建设比例
根据 2021 年城市等级划分标准,我国一线城市 4 个、新一线城市 15 个、二线城市 30 个、三线城市 70 个、四线城市 90 个、五线城市 128 个。现就不同等级城市的数据开放平台 进行统计。对全国城市开放政府数据平台进行统计发现:一线城市(北京、上海、广州、深 圳)开放数据平台建设率为 100%;新一线城市(武汉、成都、天津等)开放数据平台建设率 为 66.67%;二线城市(珠海、济南、徐州等)开放数据平台建设率为 63.33%;三线城市(济 宁、威海、乌鲁木齐等)开放数据平台建设率为 41.43%;四线城市(日照、开封、大同等) 开放数据平台建设率为 34.44%;五线城市(萍乡、新余、随州等)开放数据平台建设率为 15.63%。

1.2 数据集数量
数据集个数是指政府数据平台中每个主题类目下的数据集总量,平台中的数据接口量 及数据应用量不属于数据集的范畴。对筛选保留下来的 86 个省市数据集数量进行统计。计算 86 个省市数据集数量的平均值,得到 平均值为 2458.582,在平均值以上的省市为 22 个,平均值以下的省市为 64 个。由此可以 看出,不同地区之间的数据集数量差距较大,前十名中有 9 个地区均属于山东省,仅有一个 贵州省不属于,而在统计中发现,我国西部地区的平台数据集数量普遍较小,西部地区需要 进一步加大平台数据开放力度。平台数据集的中位数为 784,有 47.67%的政府数据平台数据 集数量低于 784。
济宁市的数据集个数为 14992,在 86 个数据平台中排名第一,现就济宁市各个主题下 涉及到的数据集数量进行统计分析。统计中发现,济宁市开放主题设计种类较 多,共有 18 类主题,包括教育科技、文化休闲、社保就业、卫生健康等多个领域。其中社 保就业主题领域下涉及到的数据集个数为 4392,占据总数据集个数比例 24.76%,包含的数 据集数量在 1000 个以上的主题依次有综合政务、社会民生、市场监督、卫生健康、资源环 境,而气象服务类的主题数据集数量最少,为 11 个。这说明济宁市政府极为重视社会民生 领域的数据集的开放。

1.3 数据主题数量
一个数据平台中的主题 可以反映出地区政府的数据开放的内容与覆盖面,并且主题还 能反应出公众的需求面,能够体现政府与民众之间的关联。从主题种类数量上来看,宣城市的主题种类最 丰富,深圳、湖州、威海三个地区的主题均较为丰富,为 25 个,相较于 2020 年来说,这几 个地区的主题种类数量增长幅度明显。86 个平台的主题种类数量平均值为 18 个,平均数以 上的地区有 52 个,以下的地区为 34 个,占比 39.53%,其中,上饶市、娄底市的数据主题 数量甚至在 3 种以下。
在宣城市政府 开放数据平台上所开放的数据集主要以建设服务(17.51%)、安全生产(15.16%)类居多, 而在社会救助、气象服务、法律服务等最少,均小于百分之一。由此可以看出,宣城市虽然 主题数据种类多,但是各个主题之间数据集数量的差距较大,该地政府应该加强法律、气象、 交通等方面的数据建设。
1.4 数据接口数量
数据接口又称为 API(Application Programming Interface)接口,是指平台向公众 开放数据的应用程序接口,表示该平台能够以数据接口的方式来获取调用平台数据。对 86 个平台统计发现,并不是所有的政府开放数据平台都提供了数据接口,只有 69 个平台提供 了数据接口,占比为 80.32%,仍有 17 个平台没有开放数据接口,占比为 19.77%,其中包括 娄底、常德、台州、桂林,北海等政府开放数据平台,并且广西省份的各个地区均没有提供。

对开放了数据接口的 69 个平台进行统计,得到山东省的数据 接口数量远远大于其他城市,数据接口数量前十名中,有 9 个地区属于山东省,只有贵州一 个省市不属于山东,这明山东省在数据接口开放部分相比于全国来说做的较好。69 个平台 的数据接口平均数为 2617.33,只有 13 个地区的数据接口数量是在平均数以上,这说明我国政府数据开放平台在数据接口方面做的还不够好。
2.1 开放性
平台的开放性可以用机器可读进行表示,因为一个平台的数据开放程度不仅在与平台 的数据量,还在于这些数据量能否正常的阅读下载。机器可读标准为 ISO SMART(Standards Machine Applicable,Readable and Transferable,working in the system without human effort),即在没有人员参与的情况下,机器对数据可读、可解析、可用的标准。报告是在 TimBerners-Lee 提出的开放数据五星标准基础上,对机器可读进行统计分析。平台数据如果全方面开放,则应该是机器可读的形 式。用机器可读指标来衡量平台数据是否容易获取与使用,XLS、JSON、XLSX、WMS、RFT、 CSV、TXT、XML、XML、RDF 等格式,而 DOC、PDF、JPG 为机器不可识别读取的格式。

2.2 可获得性
数据的可获得性是指民众获取信息的方便性程度,可以用数据的下载格式来进行表示, 对 86 个平台的数据下载格式进行统计分析得到 86 个数据平台 的开放数据格式较多,涉及到 XLS、JSON、XML、CSV、RDF、接口、XLSX、其他、PDF 等数据 格式。其中提供 XLS、JSON、XML、CSV 下载格式的平台数量最大,覆盖率为 80%以上,这与 民众使用 office 办公软件习惯有关。其中德州、济南、威海、日照等地还提供了 RDF 格式, RDF 格式能都提供 URL 链接,有助于用户根据数据来获取原始网页信息。统计发现,各个平 台提供的数据集的下载格式较多,且大多是根据用户的下载习惯设置,能够较大程度上满足 用户需求。
2.3 可用性
数据的可用性是指政府开放平台数据多大程度上可以供用户下载使用,包括免费访问、 免费获取、非歧视性、自由传播与分享、自由利用等多项权利。对 86 个平台进行搜索发现, 这方面的规定多存在于一个网站的用户协议、免责声明、网站声明、服务条款等文件中。
3.1 数据应用
数据应用主要是指平台提供的 APP 数量,可以用来衡量平台将数据转化为实际应用的 能力,这是从平台自身的建设角度来探究平台数据利用情况。随着互联网技术的发展,平台 提供的数据应用形式也更加趋向于多元化,包括 APP、小程序、创新报告、Web 应用等多种 形式。对 86 个平台的数据应用数量进行统计,得到山东省提供的应用数量最多,其次为烟台市、济宁市、威海市、上海市等地。对山东省 的应用数量进行具体分析发现,山东省提供的应用种类丰富,其中包括移动 APP 21 个、小 程序 19 个、创新方案 30 个、分析报告 19 个及 Web 应用 23 个。在 86 个平台中,新余市、 漯河市、重庆市等 17 个地区的数据应用数量为 0。86 个平台应用平位数为 15,低于平均数 的平台有 57 个,比例为 66.27%,这说明我说政府开放平台的数据应用建设水平不一,有些地区应用建设明显不足,难以满足用户需求。
3.2 平均浏览量与下载量
(1)平均浏览量
使用浏览量可以看出用户对于平台数据集的关注程度,用最大浏览量与最小浏览量能 够看出用户对于数据的需求倾向,这是从用户的角度来对数据开放效率进行分析。对各个平 台的平均浏览量进行统计分析,得到贵港、常州、阜阳、佛山禅城、 深圳、温州、贵阳、杭州、上海、嘉兴这十个地区的平均浏览量排名最高,其中贵港市与常 州市远远大于其余平台。各个平台的平均浏览量相差较多,参差不齐,这与平台所提供的数 据种类有关。

(2)平均下载量
用户对于数据集的浏览只能代表用户对于该数据可能感兴趣,但是并不能代表用户需要使用该数据,而使用下载量可以反应出用户对某个数据的需求情况,同时也能反映出用户 使用政府数据的偏向爱好。 由于各个政府的数据开放平台的时间不一、开放方式不一所以使用总的下载量进行比较会 有失偏颇,所以本研究使用平均下载量来进行省市之间的对比可以看出,不同平台的 数据集平均下载量差距较大,在前十名中,第一名与最后一名相差三十多万,这说明各个平 台的数据集的用户使用率相差较大。
将各个地区的平均浏览量与平均下载量进行对比分析,发现深圳市的平均浏览量排名 第五,平均下载量排名第一并且遥遥领先,故对深圳市进行一次单独分析。深圳市共有数据 集 2769,并且每个数据集均提供了浏览与下载功能,其中数据被浏览次数在 10 万次以上有 253 个数据集,有三个数据集的浏览与下载次数均在一亿以上。
4.1 数据持续性
使用数据持续性能够反映出该数据自发布以来到数据更新再到数据利用一系列的持续 性影响程度。本研究使用数据集的发布时间与更新时间来反映数据集持续性。
(1)数据发布时间
本研究通过对 86 个平台的数据发布时间进行统计分析发现,平台的数据发布时间主要 是分为不提供、一年前、一年内、半年内、三月内、一月内、一周内这七种类型。发现有 11.63%的平台并没有提供数据集的发布时间,类型最多的是 一年前,占比为 23.26%,其次为半年内,占比为 20.93%,仅有 4.65%的平台数据更新方式 为一周内。与 2020 年的开放数据报告相比,平台数据更新频率有所下降。深圳、常德、萍 乡、遵义等十个地区并没有发布时间相关信息的公布,这说明我国仍有大量地区的信息公开 时间不够明确,不利于信息的及时传播与有效利用。

(2)数据更新时间
使用数据更新时间可以看出一个网站的数据新颖程度及网站信息的迭代速度。数据更 新时间也分为不提供、一年前、一年内、半年内、三月内、一月内、一周内这七种类型。 86 个平台的数据更新时间的统计中,数据集平均更新时间为一周内的比例为 40.23%,有 9.2%的平台并没有提供数据更新时间,这类地区有盐城、芜湖、常德、娄底等地 区,其中芜湖市、常德市、江门市、萍乡市四个地区不仅没有提供数据更新时间,而且也没 有提供数据发布时间。
4.2 用户评价
用户评价是最能直观反映出用户对平台数据建设的满意程度,是用户对平台数据体验 的书面表示,用户评价一般存在于平台的互动交流中。在统计中发现,86 个平台并不是所 有的平台都提供了用户评价渠道,可以看出只有 57.47%的平台提供用户互动交 流渠道,而仍然有 42.53%的平台并没有提供用户评价渠道。在 86 个平台中,上海市不仅让 用户能够评价,而且还提供了打分机制,分为可用性、及时性、满意度、准确性四个维度。 宁波、深圳、湖州、贵阳等地也提供了数据集评分与评论的方式,但是有些平台虽然有该项 渠道,但是评论数与评分数均为 0,这说明平台建设过程中对该方面宣传不够到位,并没有 让用户交流渠道发挥出真正的作用。
