AI-based diagnosis of acute aortic syndrome from noncontrast CT

论文PDF

简介

对于不同厂商和医院，所使用的 CTA 存储方式和类型不同，读取的方式也有差别。这篇文章将介绍一些基本的 CTA 处理手段，以便于从海量 CTA 数据中准备训练数据。

阶段一：物理扫描与格式校验 (Physical Discovery)

这是清洗的第一步，目的是识别硬盘上杂乱的文件哪些是真正的影像。

文件头校验 (Magic Number Check)： 忽略文件名后缀，经典的 slices 文件的后缀名为 .dcm，但是实际在存储的阶段，很多商家使用无文件名存储方式。因此，通常有两种方式来读取切片数据：
1. 采用程序读取文件偏移量 128 字节处的 DICM 标志。
  - 优点：极速：只需要读取文件的前 132 个字节，不需要加载库或解析复杂的标签。初步分拣：在处理 6620 例这种可能有杂质（Excel、PDF、临时文件）的数据集时，可以瞬间剔除非 DICOM 文件。
  - 局限性： 不完全性：极少数旧式的、不符合 PS3.10 标准的 DICOM 文件可能没有这 128 字节的导言区（直接从 Tag 开始）。这种文件虽然不标准，但依然包含医学数据。
2. pydicom.dcmread(file, stop_before_pixels=True) 方式。
  - 原理：它会解析文件的整个 Data Element 结构。stop_before_pixels=True 的作用是告诉程序：“读到像素数据（Pixel Data Tag）之前就停下”。
  - 优点： 彻底性：它不仅验证文件是否为 DICOM，还提取了 UID、层厚、间距等清洗所需的元数据；兼容性：对于那些没有 128 字节导言区但数据格式正确的文件，pydicom 通过 force=True 参数依然可以读取。
  - 局限性： 性能开销：相比只读 4 个字节，它需要解析整个字典，速度相对慢一些。
所以一般是采用第一种方式先滤除(Excel， PDF，临时文件等等)。再使用第二种方式解析dicom文件。
非影像文件分离： 自动识别并归类 .xlsx/jpg/png（临床报告）、.pdf（扫描参数表）、.txt（剂量报告）以及文件夹内的 DIRFILE（索引文件）等内容。
结构层级记录： 记录文件所在的物理路径，用于后续回溯。

阶段二：DICOM 逻辑解构 (Logical De-identification)

这一步不再看文件夹，而是通过 DICOM 标签（Tags）重构数据的“家族树”。

DICOM 标签有序号，序号被称为数据元素标签 (Data Element Tag)。每一个标签由两部分组成：(Group Number, Element Number)。

Group Number（组号）：偶数通常代表标准属性。
- 0002: 文件元信息（Meta Information）。
- 0008: 识别信息（时间、医院、厂家）。
- 0010: 患者信息。
- 0018: 采集参数（电压、厚度、核）。
- 0020: 关系/坐标信息（UID、切片位置）。
- 0028: 图像显示信息（宽高、像素间距、窗位）。
Element Number（元素号）：在该组内的具体编号。

16 进制表示：这些数字都是 16 进制的（例如 000D 代表 13）。

DICOM 标签中通常包含如下信息：

1. 身份与索引标签 (Identity & Hierarchy)

医学影像数据本质上是:

Patient
 └─ Study
     └─ Series
         └─ Instance (slice)

这些身份层级标签定义了数据在医学逻辑中的层级关系，是清洗时用于去重、聚合和建立数据库索引的关键。

(0010, 0010) Patient’s Name: 患者姓名。真实研究数据通常需 de-identification，即删除：
```
PatientName
PatientBirthDate
PatientAddress
```
这些属于 PHI（Protected Health Information）。
(0010, 0020) Patient ID: 患者唯一识别码。属于医院的内部编号，但不同医院的 Patient ID 可能重复。所以跨医院研究不能只依赖Patient ID 。
(0020, 000D) Study Instance UID: 检查唯一 ID（一次就诊产生一个）。例如 1.2.840.113619.2.55.3.604688435.783.1599123456.467 。全球唯一，每一次扫描都会生成新的 Study UID。

(0020, 000E) Series Instance UID: 最关键标签。代表一个连续的 3D 体素。这是最关键标签，因为一个 study 中会包含很多序列，比如：

Scout
Calcium score
CTA thin
CTA thick
Bone reconstruction
MPR

CTA Data Cleaning

AI-based diagnosis of acute aortic syndrome from noncontrast CT

论文PDF

简介

阶段一：物理扫描与格式校验 (Physical Discovery)

阶段二：DICOM 逻辑解构 (Logical De-identification)

1. 身份与索引标签 (Identity & Hierarchy)

(0008, 0060) Modality: 数据模态 CT/MR/XA等。

2. 几何与空间标签 (Geometry & Physics)

3. 图像显示标签 (Presentation & Gray Value)

4. 设备与技术标签 (Acquisition & Technical)

5. 校验与元信息标签 (Meta Information)

数据清洗中的“黄金原则和准确步骤”

第一阶段：硬性排除（Hard Filtering）

第二阶段：几何维度校验（Geometry Validation）

第三阶段：图像质量与算法特征（Kernel & Contrast）

阶段三：异常与冲突检测 (Conflict Detection)

阶段四：记录必要的逻辑结构参数 (Result Persistence)

阶段五：清洗结果持久化 (Result Persistence)

CATALOG

FEATURED TAGS