非结构化数据集成是数据共享协同和价值挖掘的前提,主要包括数据分布、采集技术、采集策略和数据集成四个方面内容。
非结构化数据常见的三种数据分布文件类型是离散文件、体系文件和应用系统文件。其中离散文件的特征体现为个人拥有的大量有价值并且未整理的文档,如各类记录、邮件、参考资料、工作文件等;体系文件主要为体系化文件、合同、纸质文件、网页内容等,如企业知识、法规规范、各类单据等;应用系统文件特征体现为需要进行归档与索引构建以及长期保持利用的文件,如审批单、财务报销单、图纸、项目资料、技术资料、产品资料等。
非结构化数据采集技术主要包括业务系统适配器、集成开发平台和捕获工具。其中,业务系统适配器是指已经形成的与各种应用系统的连接器,基于这些适配器,可以实时或通过计划任务采集各种类型非结构化数据。集成开发平台包括软件开发工具包、业务组件、应用编程接口、可开发组件。捕获工具则包括打印一体机采集器、电子邮件监控、页面抓取工具、爬虫工具、虚拟打印等。
为了实现采集的有效管理,采集平台需要可视化、可配置化和可监控化,也需要对全内容进行采集,其中包括主业务文件、附属文件、关联文件、元数据、日志信息和数据权限等。
非结构化数据集成的数据采集策略从非结构化数据源头出发,将非结构化数据管理系统与业务系统深度融合,将采集策略前置到业务中去,以实现采集的时效性、准确性和内容完整性。
非结构化数据集成主要分为两方面,一是为各种应用系统提供实时的、平台型的非结构化数据统一存储服务;二是为新业务应用输出各种非结构化数据服务,从而形成数据与业务的双向融合。