一种基于下载数据合规性检测引擎的检测校验方法及装置

技术领域 本发明属于大数据、数据安全、数据下载领域。

背景技术 目前，数据安全问题日益突出，用户在下载数据时，存在违规行为，例如用户申请报批涉敏字段与实际下载字段不一致、用户存在字段拼接行为等。现有的技术方案主要有以下两种：

人工核查方式，费时费力；
单一字段匹配，无法识别用户更隐蔽的违规作业。

发明内容 本发明旨在提供一种基于下载数据合规性检测引擎的检测校验方法及装置，以解决现有技术中存在的不足，提高数据合规性检测效率和准确率。

具体实施方式 本发明提供了一种基于下载数据合规性检测引擎的检测校验方法，包括以下步骤：

扫描用户申请报批字段列表及公文，提取要下载的数据字段，再扫描需要下载的文件表头。
根据接入的数据字段分类分级规则，对第一步用户报批的文件字段和下载文件中的字段进行匹配确定敏感级别，并判断下载的文件字段是否和报批字段一致。
对下载的文件数据按照拼接规则进行拼接扫描，对数据进行单个字段匹配，多个字段数据两两组合判断。将历史违规字段整合成高危字段知识库，重点判断容易违规拼接的数据字段。
将有拼接嫌疑的文件整理汇总，作为基础训练数据，基于 scikit-learn 机器学习库，采用主流的 Adaboost 算法和层次聚类算法，根据历史样本及历史违规行为训练分类模型，筛选组合生成疑似违规字段与拼接字段模型，使用机器学习，寻找敏感字段和数据拼接规律，高效分析敏感字段，用于校验数据拼接，进行数据字段对比，输出高危违规字段。
根据历史违规数据分析用户下载异常行为，对该行为进行标注，形成决策树、因果图等知识图谱，用于完善数据合规性检测引擎，提高数据合规检测正确率。

本申请提案的关键点和预报护点

字段匹配: 针对敏感数据分级的配置表，一对一、两两匹配等，进行匹配检测，形成下载文件敏感数据字段级别。
模式识别: 根据历史违规数据字段及用户行为，基于机器学习，判断下载文件中的哪几个字段是高危字段，沉淀成模型数据资产。
模糊识别: 模糊匹配或形成知识图谱，可以做成决策树或因果图，用于完善数据合规监测引擎，提高检测正确率。
识别方式: 基于深度学习的行为识别，可以通过对用户下载行为进行分析，识别出其中的异常行为，如频繁下载同一类型的文件、下载行为与用户身份不符等，从而预防数据泄露和非法下载行为。

本申请提案的技术优点

多种识别方式，可以更完善的杜绝用户违规下载数据，避免数据恶意流出。
用机器学习识别的方式能更好的解放人力，降本增效。
基于历史违规字段和分析用户下载行为，形成决策树、因果图等知识图谱，提高数据合规性检测引擎的正确率。

发散思维以及规避方案思考 数据合规性检测引擎是基于历史违规下载数据，利用机器学习，检测数据敏感级别，数据是否拼接发展而来的，相对于人的提数思维的多样性，该检测引擎需要持续不断的训练，来逐步提升检测效果。因此前期会有一些数据拼接误判，需要人工干预。目前的解决方案，是将这类需要人工干预的数据整理汇总，逐渐完善知识图谱，通过日积月累的训练，提升数据合规性检测引擎的正确率。

规避方案方面: 可以考虑加强数据安全保护措施，防止恶意攻击和数据泄露，同时也可以加强对用户的教育和管理，提高数据安全意识和合规意识，减少违规行为的发生。另外，可以建立数据合规性检测引擎的监督机制，对其进行定期的评估和优化，确保其持续有效地工作。最后，在申请专利时，要注意保护知识产权，避免侵权行为的发生。