Cloud Healthcare API를 사용하여 의료 이미지 익명화

Last reviewed 2023-03-28 UTC

이 튜토리얼에서는 Cloud Healthcare API의 DICOM 익명화 작업을 통해 Digital Imaging and Communications in Medicine(DICOM) 데이터에서 개인 식별 정보(PII) 및 보호 건강 정보(PHI)를 삭제하거나 수정하는 방법을 보여줍니다. DICOM 데이터를 익명화하면 환자의 개인정보를 보호하고 연구, 데이터 공유, 머신러닝에 사용할 의료 데이터를 준비하는 데 도움이 됩니다.

이 가이드와 관련 개념 문서인 Cloud Healthcare API를 통해 의료 이미지의 익명화는 연구원, 데이터 과학자, IT 팀, 의료 및 생명과학 조직을 대상으로 합니다. 이 가이드는 Cloud Healthcare API를 사용하여 의료 이미지 데이터를 익명화하는 두 가지 일반적인 사용 사례를 안내합니다. 관련 개념 문서는 DICOM 데이터 익명화의 근거를 설명하고 높은 수준의 단계를 간략하게 설명합니다.

이 가이드는 Linux에 대한 기본적인 지식을 필요로 합니다. Google Cloud 및 DICOM 표준에 대한 기본적인 내용을 숙지하고 있는 것도 도움이 됩니다. 이 가이드의 모든 명령어는 Linux 터미널에서 실행됩니다.

목표

  • Cloud Healthcare API의 DICOM 익명화 작업을 통해 DICOM 저장소의 DICOM 인스턴스에서 PII 및 PHI를 삭제하거나 수정합니다.
  • Cloud Healthcare API 호출 한 번으로 PII와 PHI의 메타데이터 및 번인 텍스트를 삭제하거나 수정합니다.
  • curl 명령줄 도구나 Google Cloud CLI를 사용하여 DICOM 익명화 Cloud Healthcare API 호출을 실행합니다.

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드에서는 DICOM 이미지를 이미 DICOM 저장소로 가져왔다고 가정합니다. Google Cloud에 DICOM 저장소를 만드는 방법에 대한 상세 설명은 DICOM 저장소 만들기 및 관리를 참조하세요. DICOM 저장소에 DICOM 데이터 가져오기에 대한 상세 설명은 Cloud Storage를 사용하여 DICOM 데이터 가져오기 및 내보내기를 참조하세요.

또한 이 가이드는 다음과 같이 가정하여 진행됩니다.

  • MyProj라는 프로젝트를 사용 중입니다.
  • MyProjus-central1 Google Cloud 리전에 dataset1이라는 데이터 세트를 만들었습니다.
  • dataset1dicomstore1이라는 DICOM 저장소를 만들었습니다.

리소스 이름을 다르게 지정한 경우 이 문서에 나열된 명령어를 그에 따라 수정해야 합니다.

  1. Google Cloud Console에서 프로젝트 선택기 페이지로 이동합니다.
    프로젝트 선택기 페이지로 이동
  2. MyProj라는 Google Cloud 프로젝트를 선택합니다.
  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. Cloud Healthcare API 사용 설정

    API 사용 설정

  5. Google Cloud CLI를 설치합니다.
  6. gcloud CLI를 초기화하려면 다음 명령어를 실행합니다.

    gcloud init
  7. 셸에서 gcloud components update 명령어를 실행하여 Cloud Healthcare API 관련 기능이 포함된 gcloud CLI의 최신 버전을 사용하고 있는지 확인합니다.

IAM 서비스 계정 만들기

Healthcare 데이터 세트 관리자 역할에는 이 가이드를 진행하는 데 필요한 모든 역할이 포함됩니다.

  1. 서비스 계정을 만듭니다.

  2. Healthcare 데이터 세트 관리자 역할을 서비스 계정에 할당합니다.

  3. 서비스 계정 JSON 키를 만들고 다운로드합니다.

  4. 서비스 계정 키를 활성화합니다.

    gcloud auth activate-service-account --key-file=path-to-key-file
    

    출력은 다음과 같습니다.

    Activated service account credentials for: [key-name@project-name.iam.gserviceaccount.com]
    
    • key-name은 서비스 계정 키에 할당된 이름입니다.
    • project-name은 Google Cloud 프로젝트 이름입니다.

의료 이미지 뷰어 사용

이 튜토리얼에서는 Mach7 진단 뷰어를 의료 이미지 뷰어로 사용합니다. Mach7 웹사이트에서 뷰어의 데모 버전을 요청할 수 있습니다.

이 뷰어를 사용하려면 다음 단계를 수행하여 Healthcare DICOM 뷰어 역할을 사용자 계정에 할당합니다.

  1. Google Cloud Console에서 관리자로 IAM 페이지로 이동합니다.

    IAM 페이지로 이동

  2. 추가를 클릭합니다.

  3. 새 주 구성원 필드에 사용자 계정 또는 Gmail 주소를 입력합니다.

  4. 역할 선택 드롭다운 목록에서 Cloud Healthcare를 선택합니다.

  5. Cloud Healthcare 위에 마우스 포인터를 놓은 다음 Healthcare DICOM 뷰어 역할을 선택합니다.

  6. 저장을 클릭합니다.

뷰어를 프로덕션 용도로 사용하려면 정식 버전이 있어야 합니다.

OAuth 2.0 액세스 토큰 가져오기

Cloud Healthcare API를 사용하여 데이터를 수집하려면 이 가이드의 명령어를 실행하여 얻을 수 있는 OAuth 2.0 액세스 토큰이 필요합니다. 이 가이드에서 Cloud Healthcare API 요청의 일부 예시는 curl 명령줄 도구를 사용합니다. 이러한 예시는 gcloud auth print-access-token 명령어를 사용하여 OAuth 2.0 Bearer 토큰을 가져오고 이 토큰을 요청의 승인 헤더에 포함합니다. 이 명령어에 대한 상세 설명은 gcloud auth application-default print-access-token을 참조하세요.

이 가이드에는 DICOM 데이터에서 식별 정보를 삭제하는 두 가지 일반적인 사용 사례가 포함되어 있습니다. 두 경우 모두 솔루션은 curl 명령줄 도구나 Google Cloud CLI를 통해 제공됩니다. Cloud Healthcare API, 구성 옵션, 샘플 curl, Windows PowerShell 명령어를 사용하여 DICOM 데이터를 익명화하는 방법에 대한 자세한 내용은 DICOM 데이터 익명화를 참조하세요.

환경 변수 설정

이 단계는 두 가지 사용 사례에 모두 적용합니다.

  • 이미지가 저장된 DICOM 저장소의 위치 및 속성을 기반으로 환경 변수를 내보냅니다.

    export PROJECT_ID=MyProj
    export REGION=us-central1
    export SOURCE_DATASET_ID=dataset1
    export DICOM_STORE_ID=dicomstore1
    export DESTINATION_DATASET_ID=deid-dataset1
    

사용 사례 I: 모든 메타데이터 삭제 및 모든 번인 텍스트 수정

이 사용 사례는 DICOM 이미지에서 모든 메타데이터(유효한 DICOM 리소스에 필요한 최소 데이터 제외)를 삭제하고 모든 번인 텍스트를 수정하여 DICOM 저장소 및 DICOM 데이터를 포함하는 데이터 세트를 익명화하는 방법을 보여줍니다. 다음 함수를 실행할 수 있습니다.

  • POST 요청을 만들고 대상 데이터 세트 및 액세스 토큰의 이름을 제공합니다.
  • 모든 메타데이터를 삭제하고 유효한 DICOM 리소스를 포함하도록 최소한의 keepList 태그 집합을 만듭니다.
  • image.text_redaction_modeREDACT_ALL_TEXT로 설정된 DeidentifyConfig 객체를 만들어 DICOM 이미지에서 모든 민감한 번인 텍스트를 수정합니다.

다음과 같이 하나의 curl 명령어로 이러한 함수를 모두 실행할 수 있습니다.

curl -X POST \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    -H "Content-Type: application/json; charset=utf-8" \
    --data "{
      'destinationDataset': 'projects/$PROJECT_ID/locations/$REGION/datasets/$DESTINATION_DATASET_ID',
      'config': {
        'dicom': {'keepList': {
           'tags': [
              'StudyInstanceUID',
              'SOPInstanceUID',
              'TransferSyntaxUID',
              'PixelData',
              'Columns',
              'NumberOfFrames',
              'PixelRepresentation',
              'MediaStorageSOPClassUID',
              'MediaStorageSOPInstanceUID',
              'Rows',
              'SamplesPerPixel',
              'BitsAllocated',
              'HighBit',
              'PhotometricInterpretation',
              'BitsStored' ] }
                 },
        'image': {
          'textRedactionMode': 'REDACT_ALL_TEXT'
        }
      }
    }" "https://healthcare.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID:deidentify"

또는 MINIMAL_KEEP_LIST_PROFILE 태그 필터 프로필을 사용하여 태그 이름을 모른 채 또는 태그 이름을 지정하지 않고도 동일한 익명화 작업을 완료할 수 있습니다. 아래 예시를 참조하세요.

curl -X POST \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    -H "Content-Type: application/json; charset=utf-8" \
    --data "{
      'destinationDataset': 'projects/$PROJECT_ID/locations/$REGION/datasets/$DESTINATION_DATASET_ID',
      'config': {

'dicom':{'filterProfile':'MINIMAL_KEEP_LIST_PROFILE'},

        'image': {
          'textRedactionMode': 'REDACT_ALL_TEXT'
        }
      }
    }" "https://healthcare.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID:deidentify"

앞의 모든 명령어에서 요청이 성공하면 서버는 JSON 형식의 응답을 반환합니다. 예를 들면 다음과 같습니다.

{
  "name": "projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/OPERATION_NAME"
}

응답에 작업 이름이 포함됩니다. 이 작업 이름을 작업 get 메서드와 함께 사용하면 작업 상태를 추적할 수 있습니다.

curl -X GET \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    -H "Content-Type: application/json; charset=utf-8" \
"https://healthcare.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME"

요청이 성공하면 서버는 JSON 형식의 응답을 반환합니다. 익명화 프로세스가 완료되면 응답에 "done": true가 포함됩니다.

{
  "name": "projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.healthcare.v1.OperationMetadata",
    "apiMethodName": "google.cloud.healthcare.v1.dataset.DatasetService.DeidentifyDataset",
    "createTime": "2018-01-01T00:00:00Z",
    "endTime": "2018-01-01T00:00:00Z"
  },
  "done": true,
  "response": {
    "@type": "...",
    "successStoreCount": "SUCCESS_STORE_COUNT"
  }
}

또한 Google Cloud에 Google Cloud CLI를 사용하여 익명화 API를 포함한 모든 버전의 Cloud Healthcare API를 실행할 수도 있습니다. 사용 가능한 명령어의 전체 목록을 보려면 Cloud Healthcare API gcloud 문서를 참조하거나 다음 명령어를 실행하세요.

gcloud healthcare --help

다음 샘플에서는 gcloud CLI를 사용하여 DICOM 이미지에서 모든 메타데이터를 제거하고 모든 번인 텍스트를 수정하기 위해 DICOM 저장소와 DICOM 데이터가 포함된 데이터 세트를 익명화하는 방법을 보여줍니다.

gcloud healthcare datasets deidentify $SOURCE_DATASET_ID \
--location $REGION \
--dicom-filter-tags=StudyInstanceUID,SOPInstanceUID,TransferSyntaxUID,PixelData,Columns,NumberOfFrames,PixelRepresentation,MediaStorageSOPClassUID,MediaStorageSOPInstanceUID,Rows,SamplesPerPixel,BitsAllocated,HighBit,PhotometricInterpretation,BitsStored \
--text-redaction-mode all \
--destination-dataset projects/$PROJECT_ID/locations/$REGION/datasets/$DESTINATION_DATASET_ID \
--async

요청이 성공하면 서버는 다음과 같은 응답을 반환합니다.

Request issued for: [$SOURCE_DATASET_ID]
Check operation [OPERATION NAME] for status.
name: projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME

작업 상태를 확인하려면 다음 명령어를 실행합니다.

gcloud healthcare operations describe --dataset $SOURCE_DATASET_ID OPERATION_NAME

요청이 성공하면 서버는 다음과 같은 응답을 반환합니다. 익명화 프로세스가 완료되면 응답에 "done": true가 포함됩니다.

done: true
metadata:
  '@type': type.googleapis.com/google.cloud.healthcare.v1.OperationMetadata
  apiMethodName: google.cloud.healthcare.v1.dataset.DatasetService.DeidentifyDataset
  "createTime": "2018-01-01T00:00:00Z",
  "endTime": "2018-01-01T00:00:00Z"
name: "projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME"
response:
  '@type': type.googleapis.com/google.cloud.healthcare.v1.dataset.DeidentifySummary
  successResourceCount: 'SUCCESS_RESOURCE_COUNT'
  successStoreCount: 'SUCCESS_STORE_COUNT'

사용 사례 II: 메타데이터 및 민감한 번인 텍스트 수정

이 사용 사례는 일부 메타데이터를 삭제하고, 다른 메타데이터를 수정하고, 이미지에 연결된 민감한 번인 텍스트를 수정하기 위해 filterProfile 태그 필터링 메서드를 사용하여 DICOM 저장소 및 DICOM 데이터가 포함된 데이터 세트를 익명화하는 방법을 보여줍니다. 목표는 PERSON_NAME 값을 수정하고, PHONE_NUMBER 값을 별표로 바꾸고, DATEDATE_OF_BIRTH를 원래 값의 100일 범위의 날짜 값으로 수정하는 것입니다.

이 사용 사례에서 제공된 암호화 키인 U2FsdGVkX19bS2oZsdbK9X5zi2utBn22uY+I2Vo0zOU=는 다음 명령어를 사용하여 생성된 AES 암호화 256비트 base64 인코딩 키입니다. 메시지가 표시되면 명령어에 빈 비밀번호가 제공됩니다.

 echo -n "test" | openssl enc -e -aes-256-ofb -a -salt

다음 함수를 실행할 수 있습니다.

  • POST 요청을 만들고 대상 데이터 세트 및 액세스 토큰의 이름을 제공합니다.
  • 정보 유형과 기본 변환이 적절히 조합된 DEIDENTIFY_TAG_CONTENT 태그 필터를 사용하여 DICOM 태그에서 일부 메타데이터를 삭제하고 다른 메타데이터는 수정합니다.
  • image.text_redaction_mode를 REDACT_SENSITIVE_TEXT로 설정하여 DICOM 이미지에서 번인 텍스트를 수정합니다.

다음과 같이 하나의 curl 명령어로 이러한 함수를 모두 실행할 수 있습니다.

curl -X POST \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    -H "Content-Type: application/json; charset=utf-8" \
    --data "{
      'destinationDataset': 'projects/$PROJECT_ID/locations/$REGION/datasets/$DESTINATION_DATASET_ID',
      'config':{
    'dicom':{'filterProfile':'DEIDENTIFY_TAG_CONTENTS'},
    'text':{
        'transformations':[
            {'infoTypes':['PERSON_NAME'], 'redactConfig':{}},
            {'infoTypes':['PHONE_NUMBER'], 'characterMaskConfig':{'maskingCharacter':''}},
            {'infoTypes':['DATE', 'DATE_OF_BIRTH'], 'dateShiftConfig':{'cryptoKey':'U2FsdGVkX19bS2oZsdbK9X5zi2utBn22uY+I2Vo0zOU='}}]},
    'image':{'textRedactionMode':'REDACT_SENSITIVE_TEXT'}}}" \
"https://healthcare.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID:deidentify"

요청이 성공하면 서버는 JSON 형식의 응답을 반환합니다. 예를 들면 다음과 같습니다.

{
  "name": "projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/OPERATION_NAME"
}

응답에 작업 이름이 포함됩니다. 작업 get 메서드를 사용하여 작업 상태를 추적할 수 있습니다.

curl -X GET \
    -H "Authorization: Bearer "$(gcloud auth print-access-token) \
    -H "Content-Type: application/json; charset=utf-8" \
"https://healthcare.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME"

요청이 성공하면 서버는 다음과 같은 JSON 형식의 응답을 반환합니다.

{
  "name": "projects/$PROJECT_ID/locations/$REGION/datasets/$SOURCE_DATASET_ID/operations/OPERATION_NAME",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.healthcare.v1.OperationMetadata",
    "apiMethodName": "google.cloud.healthcare.v1.dataset.DatasetService.DeidentifyDataset",
    "createTime": "2018-01-01T00:00:00Z",
    "endTime": "2018-01-01T00:00:00Z"
  },
  "done": true,
  "response": {
    "@type": "...",
    "successStoreCount": "SUCCESS_STORE_COUNT"
  }
}

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

프로젝트 삭제

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

개별 리소스 삭제

  • 대상 데이터 세트를 삭제합니다. 필요한 경우 --location 매개변수를 추가하고 데이터 세트의 리전을 지정합니다.

    gcloud healthcare datasets delete $DESTINATION_DATASET_ID
    

다음 단계