一种基于数据下载合规性检测引擎的检测校验方法及装置

一种基于'下载数据'合规性检测引擎检测校验的方法及装置

技术领域 本发明涉及大数据、数据安全、数据下载领域。

背景技术 现有的数据下载合规性检测方法主要有以下两种： 1）人工核查方式，费时费力； 2）单一字段匹配，无法识别用户更隐蔽的违规作业。

现有技术缺点及申请提案要解决的技术问题 现有技术存在以下缺点： 1）用户申请报批涉敏字段与实际下载字段不一致； 2）用户存在字段拼接行为； 3）人工核查耗时且易出错。

本申请提案旨在解决上述问题，提供一种基于'下载数据'合规性检测引擎的检测校验方法及装置，以提高数据下载合规性检测的效率和准确率，避免敏感数据泄露和非法下载行为。

方案的详细阐述

1. 方案概述 本方案采用基于机器学习的检测方法，通过扫描用户申请报批字段列表、公文和下载文件表头，利用机器学习算法训练分类模型，并结合历史违规数据分析用户下载行为，识别出用户违规下载行为。

2. 方案的具体步骤纲要

第1步：扫描用户申请报批字段列表及公文，提取要下载的数据字段，再扫描需要下载的文件表头。
第2步：根据接入的数据字段分类分级规则，对第一步用户报批的文件字段和下载文件中的字段进行匹配确定敏感级别，并判断下载的文件字段是否和报批字段一致。
第3步：对下载的文件数据按照拼接规则进行拼接扫描，对数据进行单个字段匹配，多个字段数据两两组合判断。将历史违规字段整合成高危字段知识库，重点判断容易违规拼接的数据字段。
第4步：将有拼接嫌疑的文件整理汇总，作为基础训练数据，基于scikit-learn机器学习库，采用主流的Adaboost算法和层次聚类算法，根据历史样本及历史违规行为训练分类模型，筛选组合生成疑似违规字段与拼接字段模型，使用机器学习，寻找敏感字段和数据拼接规律，高效分析敏感字段，用于校验数据拼接，进行数据字段对比，输出高危违规字段。
第5步：根据历史违规数据分析用户下载异常行为，对该行为进行标注，形成决策树、因果图等知识图谱，用于完善数据合规性检测引擎，提高数据合规检测正确率。

本申请提案的关键点和预报护点

字段匹配：针对敏感数据分级的配置表，一对一、两两匹配等，进行匹配检测，形成下载文件敏感数据字段级别。
模式识别：根据历史违规数据字段及用户行为，基于机器学习，判断下载文件中的哪几个字段是高危字段，沉淀成模型数据资产。
模糊识别：模糊匹配或形成知识图谱，可以做成决策树或因果图，用于完善数据合规监测引擎，提高检测正确率。
识别方式：基于深度学习的行为识别，可以通过对用户下载行为进行分析，识别出其中的异常行为，如频繁下载同一类型的文件、下载行为与用户身份不符等，从而预防数据泄露和非法下载行为。

本次申请提案的技术有点

多种识别方式，可以更完善地杜绝用户违规下载数据，避免数据恶意流出。
用机器学习识别的方式能更好地解放人力，降本增效。
基于历史违规字段和分析用户下载行为，形成决策树、因果图等知识图谱，提高数据合规性检测引擎的正确率。

发散思维以及规避方案思考

数据合规性检测引擎是基于历史违规下载数据，利用机器学习，检测数据敏感级别，数据是否拼接发展而来的，相对于人的提数思维的多样性，该检测引擎需要持续不断的训练，来逐步提升检测效果。因此前期会有一些数据拼接误判，需要人工干预。目前的解决方案，是将这类需要人工干预的数据整理汇总，逐渐完善知识图谱，通过日积月累的训练，提升数据合规性检测引擎的正确率。

实施方案

硬件设备：服务器、存储设备、网络设备；
软件系统：数据合规性检测引擎、机器学习算法、决策树、因果图等知识图谱；
实施步骤：部署数据合规性检测引擎，建立敏感数据分级配置表，采用机器学习算法训练分类模型，形成知识图谱，对用户下载行为进行分析，识别异常行为，完善数据合规性检测引擎。

实施效果

提高数据合规性检测引擎的准确率；
降低人力成本，提高工作效率；
避免敏感数据泄露和非法下载行为，保护企业数据安全。

具体实施方案、流程和结果可参考附图及相关技术文献。