打开主菜单

求真百科

一體化醫學語言系統

一体化医学语言系统

圖片來自slideserve

一体化医学语言系统英语Unified Medical Language SystemUMLS),又称为统一医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。

目录

介紹

UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换;同时,UMLS也被看作是生物医学概念所构成的一部广泛全面的叙词表本体。UMLS还进一步提供有若干适用于自然语言处理的工具。UMLS主要旨在供医学信息学领域的信息系统开发人员使用。[1]

UMLS由下列组件构成:

美国国立医学图书馆(英文:National Library of Medicine,NLM)设计了并负责维护着UMLS。UMLS每季度更新一次,且可以免费使用。该项目最初是由Donald Lindberg医学士于1986年发起的(Donald Lindberg后来担任了国立医学图书馆馆长)。[2]

目的和应用

目前,研究人员所能获得和使用的生物医学资源数量庞大。当对医学文献进行搜索的时候,检索到的文档数量巨大于是就成了一个问题。UMLS旨在通过促进那些能够理解生物医学语言的计算机系统的开发工作,来加强对于这些文献的获得和使用。这一目标是通过攻克两大障碍来实现的:“不同机读型来源和不同人员表达相同概念时所采用的形形色色的方式”与“有益的信息在许多互不相同的数据库和系统之间的分发和传播”。

UMLS可用于设计信息检索病历系统,促进不同系统之间的通讯交流,或者用于开发能够解析生物医学文献的系统。对于许多此类应用而言,将不得不以某种自定义形式来使用UMLS;比如,排除某些与当前应用并不相关的源词表国立医学图书馆本身则正在将UMLS用于自己的PubMedClinicalTrials.gov临床试验系统。

UMLS用户必须签署“UMLS协议”并且就自己的使用情况填报简要的年度报告。学术用户可以将UMLS免费用于科学研究工作。就其中所收录的某些源词表而言,商业或生产方面的用途则要求签署版权协议

超级叙词表

超级叙词表 Metathesaurus 构成的是UMLS的基础。Metathesaurus 之中收录有100多万个生物医学概念和500多万个概念名称,而所有这些都源自UMLS所收录的100多部受控词表和分类系统,如ICD-9-CMICD-10MeSHSNOMED CTLOINC世界卫生组织药物不良反应术语集(WHO Adverse Drug Reaction Terminology,WHO-ART)、英国临床术语(UK Clinical Terms,又称为Read Codes)、RxNORM基因本体(英文:Gene Ontology,GO)和OMIM(参见完整的源词表列表)。

Metathesaurus是按照概念来组织编排的。每个概念分别都拥有若干用来定义其含义的具体属性,并且分别与各个源词表之中相应的概念名称相链接。而且,不同概念之间还表达有众多的关系;比如,“is a”(是一种...)之类用于表示子类关系层级结构关系、用于表示亚单位关系的“is part of”(是...的组成部分)以及“is caused by”(由...引起)之类的关联关系或“in the literature often occurs close to”(在文献之中常常出现在...附近)(后者源自Medline)。

源词表的适用范围决定着Metathesaurus的适用范围。不同的词表对于同一概念采用的是不同的名称,或者它们对于不同的概念采用的是相同的名称,这些情况都会忠实地体现在Metathesaurus之中。Metathesaurus之中保留了所有来自源词表的层级结构信息。Metathesaurus概念尚可链接到该数据库之外的资源,如基因序列数据库

Metathesaurus本身是通过自动化处理源词表的机读型版本,并随后在编辑和审核方面进行人工干预而产生的。Metathesaurus的分发形式为一种SQL关系数据库,且可以通过一种Java面向对象应用编程接口(API)来加以访问。

语义网络

Metathesaurus之中的每个概念都指定有至少一种“语义类型(Semantic type)”(即一种类别)。某些“语义关系”可以存在于多种语义类型的成员之间。语义网络正是这些语义类型和语义关系所构成的一种网络式目录。这是一种相当宽泛的分类;目前,其中共计有135种语义类型和54种语义关系。

主要的语义类型包括生物解剖学结构生物学功能化学物质事件有形对象(物理对象;英文:physical objects)以及概念

语义类型之间的链接为语义网络提供的是结构,显示了分组与概念之间的重要关系。语义类型之间的基本链接是“isa”链接,又可称为类属关系。依靠这种关系建立起来的是一种由类型构成的层级结构,使我们能够找出最为特殊的语义类型,从而将其赋予某个Metathesaurus概念。语义网络同时还备有5种主要类型的非层级结构关系,或者称为关联关系;它们分别是“physically related to”(物理上与...相关)、“spatially related to”(空间上与...相关)、“temporally related to”(时间上与...相关)、“functionally related to”(功能上与...相关)以及“conceptually related to”(概念上与...相关)。

语义类型的有关信息包括标识符定义、示例、关于上级语义类型的层级结构信息以及关联关系。语义网络之中关联关系的强度非常弱。它们所采集的顶多是某些-某些型关系(some-some relationships);也就是说,此类关系记录的事实就是,前一类型的某些实例可能与后一类型的某些实例之间具有显著的这种关系。换句话说,它们所记录的事实就是,相应的关系断言具有实际意义(尽管对于所有情况来说,这种断言并不一定都成立)。

參考文獻

  1. Unified Medical Language System, 1996 
  2. Ellison D, Humphreys BL, Mitchell J. Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient. Journal of the American Medical Informatics Association. July 2010, 17 (4): 481–5. PMC 2995660. PMID 20595319. doi:10.1136/jamia.2010.005728.