PIKG 支持多种典型的医疗数据来源,涵盖经典专著、医院业务数据库以及网络医学知识库等,以全面覆盖与肺部影像学相关的各类知识。数据格式可划分为三类:非结构化、半结构化和结构化。

非结构化数据包括各种格式的文档、图像、音视频等,无固定结构,一般直接以二进制格式整体存储。本文收集的非结构化数据来自医学专著和知名医学网站,共计 108 万字和 5557KB 幻灯片。

半结构化数据是介于完全结构化和非结构化数据之间,包含相关标签以分隔语义元素和层次化的记录和字段。本文收集的半结构化数据共 17346 字,来源于医院信息系统数据库和医学网站。

结构化数据是可用关系型数据库表示和存储的数据,以二维表逻辑表达实现,具有规律性,便于查询和修改操作。本文收集的数据类型见表 3.1,其中 '非' 表示非结构化数据,'半' 表示半结构化数据。

在数据收集后,PIKG 对非结构化数据进行加工处理,转换为文本文档并进行校对、切分,以便于后续标注工作。对于半结构化和结构化数据,则可直接进行标注和应用。

PIKG 医疗数据来源及类型:全面覆盖肺部影像学知识

原文地址: https://www.cveoy.top/t/topic/n5pN 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录