基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜框架構(gòu)建研究
打開文本圖片集
摘要:隨著人工智能技術(shù)的飛速發(fā)展,構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜成為智慧醫(yī)療的研究熱點(diǎn)。同時(shí)抑郁癥、強(qiáng)迫癥等心理疾病的發(fā)病率逐年呈現(xiàn)低齡化趨勢(shì),已經(jīng)成為亟待解決的嚴(yán)重的公共衛(wèi)生問題。本文闡述一種基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜構(gòu)建方法,選取3個(gè)不同源頭數(shù)據(jù)動(dòng)態(tài)整合構(gòu)建心理健康知識(shí)語(yǔ)料庫(kù)增加可信度。通過信息抽取、知識(shí)融合、知識(shí)存儲(chǔ)等步驟最終實(shí)現(xiàn)心理健康知識(shí)圖譜可視化。
關(guān)鍵詞:知識(shí)圖譜;心理健康;多源數(shù)據(jù)融合;可視化
中圖分類號(hào):TP391.5 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:With the rapid development of artificial intelligence technology,building a Knowledge Graph in the medical field has become a research hotspot in wisdom medical. At the same time,the incidence rate of depression,obsessive-compulsive disorder and other psychological diseases is showing a trend of younger age year by year,which has become a serious public health problem to be solved urgently. This paper describes a method of constructing mental health Knowledge Graph based on multi-source data fusion,and selects three different sources of data to dynamically integrate and construct a mental health knowledge corpus to increase credibility. Through Information extraction,knowledge fusion,knowledge storage and other steps,the Knowledge Graph of mental health is finally visualized.
Key words:Knowledge Graph;Mental Health;Multisource Data Fusion;Visualization
引言
近年來,隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域的大數(shù)據(jù)語(yǔ)料庫(kù)自動(dòng)構(gòu)建和非結(jié)構(gòu)化數(shù)據(jù)處理。2012年,谷歌公司首次提出了知識(shí)圖譜(Knowledge Graph,簡(jiǎn)稱KG)的概念。此后知識(shí)圖譜日益成為大數(shù)據(jù)領(lǐng)域研究的熱門話題,國(guó)外已陸續(xù)出現(xiàn)了面向醫(yī)療健康領(lǐng)域的知識(shí)圖譜。目前構(gòu)建完成的醫(yī)療領(lǐng)域的知識(shí)圖譜普遍具有數(shù)據(jù)量巨大、研發(fā)投入高、信息量全等優(yōu)勢(shì),但部分知識(shí)圖譜在實(shí)際應(yīng)用過程中存在數(shù)據(jù)源單一,說服力不高,操作繁瑣等缺點(diǎn)。同時(shí)目前國(guó)內(nèi)針對(duì)心理健康知識(shí)領(lǐng)域的精細(xì)圖譜比較匱乏。本文嘗試?yán)米匀徽Z(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)構(gòu)建基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜,旨在能夠?qū)崿F(xiàn)對(duì)人們進(jìn)行心理健康知識(shí)普適性教育,同時(shí)可以幫助心理疾病患者及家屬實(shí)現(xiàn)自我診斷和病情監(jiān)測(cè)和輔助醫(yī)生臨床做出決策等。
1 研究背景
1.1 心理疾病
常見的心理疾病主要包括抑郁癥、焦慮癥、恐懼癥、強(qiáng)迫癥等。近些年,由于社會(huì)競(jìng)爭(zhēng)激烈導(dǎo)致人們生活壓力的增大和受新冠疫情的影響,全世界各地各種心理疾病的發(fā)病率呈現(xiàn)直線上升趨勢(shì)。以抑郁癥為例,據(jù)2020年世界衛(wèi)生組織(WHO)披露數(shù)據(jù)顯示,抑郁癥已成為世界第二大疾?。▋H次于癌癥),全球有超過3.5億人患抑郁癥,近十年來患者增速約18%,每年大約有100萬人因?yàn)橐钟舭Y自殺。同時(shí)抑郁癥等心理疾病的發(fā)病率逐年呈現(xiàn)低齡化趨勢(shì),已經(jīng)成為亟待解決的嚴(yán)重的公共衛(wèi)生問題。
而與之對(duì)應(yīng)的是目前多數(shù)人們對(duì)心理健康知識(shí)知之甚少,主要表現(xiàn)在:(1)對(duì)“心理健康”問題存在羞恥感,認(rèn)為心理有問題的人就是精神不正常表現(xiàn)。(2)缺乏心理疾病常識(shí),無法根據(jù)臨床表現(xiàn)正確分辨自身及他人罹患的心理疾病類型。(3)忽視心理疾病帶來的危害,普遍認(rèn)為心理疾病并不需要專業(yè)的治療,僅靠自我排解就能解決問題,最終導(dǎo)致病情惡化甚至危及生命。
1.2 知識(shí)圖譜
知識(shí)圖譜是現(xiàn)實(shí)世界中根據(jù)實(shí)體間關(guān)系相互連接起來所形成的一種網(wǎng)絡(luò)結(jié)構(gòu),用于呈現(xiàn)各類實(shí)體以及實(shí)體間的關(guān)聯(lián)關(guān)系。利用將自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)將半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)整合成知識(shí)圖譜可以幫助機(jī)器完成某一知識(shí)領(lǐng)域大數(shù)據(jù)的快速分析和簡(jiǎn)化表示,最終實(shí)現(xiàn)智慧搜索與智能交互。目前知識(shí)圖譜已經(jīng)廣泛應(yīng)用在銀行、保險(xiǎn)、證券、醫(yī)療、物流等領(lǐng)域。構(gòu)建完整的知識(shí)圖譜主要包含數(shù)據(jù)獲取(原始語(yǔ)料庫(kù)構(gòu)建)、信息抽取、知識(shí)融合和知識(shí)存儲(chǔ)和可視化等步驟。
由于心理疾病在臨床上存在癥狀多、復(fù)雜性高、易誤診和類型鑒別困難等特點(diǎn),所以構(gòu)建心理健康知識(shí)圖譜如果僅采用單一數(shù)據(jù)源的話不具備較強(qiáng)說服力和有效力。本文構(gòu)建的心理健康知識(shí)圖譜原始語(yǔ)料庫(kù)數(shù)據(jù)來源除了包括醫(yī)學(xué)權(quán)威書籍、科研論文外,還從浩瀚的互聯(lián)網(wǎng)中獲取有價(jià)值的相關(guān)數(shù)據(jù)信息。采用多源數(shù)據(jù)融合方式進(jìn)行數(shù)據(jù)獲取,對(duì)心理健康知識(shí)圖譜構(gòu)建及可視化研究具備重要啟發(fā)意義。
2 心理健康知識(shí)圖譜構(gòu)建過程
2.1知識(shí)圖譜構(gòu)建體系架構(gòu)
心理健康知識(shí)圖譜構(gòu)建體系架構(gòu)如圖1所示,主要包含多源數(shù)據(jù)語(yǔ)料庫(kù)構(gòu)建、信息抽取、知識(shí)融合、知識(shí)存儲(chǔ)及可視化這幾個(gè)步驟。關(guān)鍵核心技術(shù)是通過信息抽取、知識(shí)融合等技術(shù)從歸一化后的多源數(shù)據(jù)語(yǔ)料庫(kù)中抽取其中的實(shí)體、屬性等關(guān)鍵知識(shí)及其關(guān)系,最終以三元組的形式存儲(chǔ)于圖數(shù)據(jù)庫(kù)中。
2.2多源數(shù)據(jù)語(yǔ)料庫(kù)構(gòu)建
多源數(shù)據(jù)語(yǔ)料庫(kù)構(gòu)建也叫做知識(shí)獲取/數(shù)據(jù)獲取階段,是后續(xù)完成構(gòu)建心理健康知識(shí)圖譜的基礎(chǔ)。顯然選擇采用多源數(shù)據(jù)構(gòu)建的語(yǔ)料庫(kù)顯然比單一數(shù)據(jù)源可靠、準(zhǔn)確。所以本文選取3個(gè)不同源頭數(shù)據(jù)來整合構(gòu)建心理健康知識(shí)語(yǔ)料庫(kù),數(shù)據(jù)具體來源包括(a)醫(yī)學(xué)權(quán)威書籍。(b)醫(yī)學(xué)科研論文。(c)互聯(lián)網(wǎng)數(shù)據(jù)資源。
其中醫(yī)學(xué)權(quán)威書籍選用張明教授主編的《臨床心理學(xué)》(科學(xué)出版社出版,ISBN:9787030256256)作為處理書籍。該書籍內(nèi)容權(quán)威可靠、表述規(guī)范,重點(diǎn)處理書中第4章節(jié)《心理障礙的分類及其表現(xiàn)》內(nèi)容。該章節(jié)詳細(xì)闡述了常見的心理疾病的分類及表現(xiàn)特征,包括抑郁癥、焦慮癥、強(qiáng)迫癥、恐慌障礙等。作為公開出版的書籍無疑是具備較強(qiáng)的權(quán)威性和可靠公信力。
根據(jù)CNKI檢索“心理疾病”、“心理健康知識(shí)”等關(guān)鍵詞顯示,CNKI收錄的知識(shí)圖譜相關(guān)中英文學(xué)術(shù)期刊文獻(xiàn)已經(jīng)達(dá)到了1.1萬篇。選取醫(yī)學(xué)權(quán)威領(lǐng)域的北大核心期刊論文50篇作為“醫(yī)學(xué)科研論文”數(shù)據(jù)源。醫(yī)學(xué)科研論文同樣作為公開發(fā)表的資料經(jīng)過嚴(yán)格審核檢驗(yàn),同公開出版的書籍一樣具備較強(qiáng)的可信度。本文將這“醫(yī)學(xué)權(quán)威書籍”和“醫(yī)學(xué)科研論文”這兩個(gè)數(shù)據(jù)來源作為心理健康知識(shí)語(yǔ)料庫(kù)的主干來源。
浩瀚的互聯(lián)網(wǎng)同樣存在心理健康知識(shí)相關(guān)的海量數(shù)據(jù)資源,比如常見的百度百科、百度知道等有針對(duì)心理疾病知識(shí)的科普和問答,同時(shí)國(guó)內(nèi)領(lǐng)先的互聯(lián)網(wǎng)醫(yī)療平臺(tái)比如好大夫在線、妙手醫(yī)生等網(wǎng)站存在大量的真實(shí)心理疾病患者診療問答數(shù)據(jù)、科普文章等。我們借助目前成熟的網(wǎng)絡(luò)爬蟲技術(shù)動(dòng)態(tài)獲取互聯(lián)網(wǎng)上已存在的大量心理健康知識(shí)相關(guān)數(shù)據(jù),但是通過互聯(lián)網(wǎng)獲取的海量數(shù)據(jù)資源,相比較于(a)(b)兩種數(shù)據(jù)源可能存在不精準(zhǔn)、垃圾數(shù)據(jù)多等問題。所以,互聯(lián)網(wǎng)數(shù)據(jù)資源可以作為心理健康知識(shí)語(yǔ)料庫(kù)的動(dòng)態(tài)補(bǔ)充數(shù)據(jù)。
2.3 信息抽取
由于前期構(gòu)建的情感障礙癥知識(shí)語(yǔ)料庫(kù)由于數(shù)據(jù)來源不一、數(shù)據(jù)不規(guī)則,初步得到的大部分?jǐn)?shù)據(jù)并不是結(jié)構(gòu)化數(shù)據(jù),而是大量純文本非結(jié)構(gòu)化數(shù)據(jù)集。所以在信息抽取階段采用基于最大熵馬爾可夫模型和卷積神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言處理算法(MEMM-CNN)從半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取出可用的知識(shí)單元,完成實(shí)體抽取、實(shí)體標(biāo)注、關(guān)系抽取和屬性抽取等過程。
其中實(shí)體抽取是從原始文本數(shù)據(jù)集中提取出命名實(shí)體,比如心理疾病類型、臨床癥狀、治療對(duì)策等。實(shí)體標(biāo)注是自動(dòng)標(biāo)注實(shí)體有效性、完整性、出現(xiàn)頻次等附加信息。通過實(shí)體抽取和實(shí)體標(biāo)注這兩個(gè)步驟形成心理健康知識(shí)實(shí)體庫(kù)。關(guān)系抽取是進(jìn)一步提取心理健康知識(shí)實(shí)體庫(kù)中各個(gè)實(shí)體的關(guān)聯(lián)關(guān)系,通過將多種零散的實(shí)體連接起來,從而形成關(guān)聯(lián)的網(wǎng)狀知識(shí)結(jié)構(gòu)。屬性抽取是抽取實(shí)體的屬性信息構(gòu)造實(shí)體的屬性列表,比如治療抑郁癥藥物的注意事項(xiàng)、不良反應(yīng)和禁忌等。通過進(jìn)一步的關(guān)系抽取和屬性抽取最終形成三元組關(guān)系表,從而完成信息抽取過程。
2.4 知識(shí)融合
前期構(gòu)建的情感障礙癥知識(shí)語(yǔ)料庫(kù)的數(shù)據(jù)來源有3個(gè),所以在數(shù)據(jù)源整合過程中不可避免的會(huì)出現(xiàn)數(shù)據(jù)知識(shí)重復(fù)、冗余、歧義、關(guān)聯(lián)性沖突等問題,尤其是從互聯(lián)網(wǎng)上爬取的數(shù)據(jù)文本甚至充斥著部分錯(cuò)誤信息。需要從實(shí)體對(duì)齊、實(shí)體連接、實(shí)體對(duì)齊、關(guān)系推演等方面進(jìn)行知識(shí)融合,完成多源數(shù)據(jù)整合、加工、消歧、推理驗(yàn)證、更新等操作。
(1)屬性對(duì)齊
由于數(shù)據(jù)來源的多樣性,數(shù)據(jù)存在知識(shí)重復(fù)、心理健康知識(shí)之間的聯(lián)系不夠、多元指代等問題。屬性對(duì)齊首先判斷多源異構(gòu)數(shù)據(jù)中的實(shí)體是否指向真實(shí)世界同一對(duì)象。
(2)實(shí)體連接
實(shí)體連接是指實(shí)體對(duì)象連接到知識(shí)庫(kù)中對(duì)應(yīng)的正確對(duì)象的操作。實(shí)體鏈接的基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象。
(3)實(shí)體對(duì)齊
實(shí)體對(duì)齊主要用于消除實(shí)體沖突、實(shí)體命名多元指代問等問題。例如常用來治理抑郁癥的藥物鹽酸帕羅西汀片,其別名和通用名還包括賽樂特、樂友、舒坦羅、Paroxetine等,但其實(shí)都是指代同一種藥物,這時(shí)候就需要實(shí)體對(duì)齊消除實(shí)體名稱指代沖突。
(3)關(guān)系推演
關(guān)系推演是將從最新的數(shù)據(jù)文本中獲取的實(shí)體關(guān)系及時(shí)填充到構(gòu)建的知識(shí)庫(kù)中,有助于提高心理健康知識(shí)庫(kù)的時(shí)效性。通過完成屬性對(duì)齊、實(shí)體連接、實(shí)體對(duì)齊、關(guān)系推演等步驟實(shí)現(xiàn)知識(shí)融合過程。
2.5 知識(shí)存儲(chǔ)及可視化
通過借鑒中文醫(yī)學(xué)知識(shí)圖譜CMe KG2.0知識(shí)存儲(chǔ)方式,采用開源圖形數(shù)據(jù)庫(kù)Neo4j作為底層的存儲(chǔ)結(jié)構(gòu)。Neo4j 是由 Java 和 Scala 語(yǔ)言寫成 NoSql 數(shù)據(jù)庫(kù),也是目前使用較多的圖形數(shù)據(jù)庫(kù)。通過 Neo4j可以直觀呈現(xiàn)實(shí)體間的各種關(guān)系,能夠最終實(shí)現(xiàn)心理健康知識(shí)圖譜可視化。
經(jīng)過上述技術(shù),共得到1025條三元關(guān)系組,部分知識(shí)圖譜如圖2所示。圖中每個(gè)圓圈代表1個(gè)實(shí)體,各個(gè)實(shí)體之間以關(guān)系形式連接。其中關(guān)系包括癥狀、治療、不良反應(yīng)、易混淆等。
3 結(jié)語(yǔ)
本文提出了一種基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜構(gòu)建方法,并詳細(xì)闡述了多源數(shù)據(jù)語(yǔ)料庫(kù)構(gòu)建、信息抽取、知識(shí)融合、知識(shí)存儲(chǔ)及可視化等步驟。構(gòu)建的心理健康知識(shí)圖譜不僅能夠?qū)θ藗冞M(jìn)行心理健康知識(shí)普適性教育,同時(shí)可以幫助心理疾病患者及家屬實(shí)現(xiàn)自我診斷和病情監(jiān)測(cè),以及輔助醫(yī)生臨床做出決策,具備較強(qiáng)的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]段宏. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展(03).
[2]趙雪嬌.婦產(chǎn)科知識(shí)圖譜構(gòu)建研究與實(shí)現(xiàn)[J].中國(guó)數(shù)字醫(yī)學(xué),2019,14(1):3.DOI:CNKI:SUN:YISZ.0.2019-01-003.
[3]昝紅英,竇華溢,賈玉祥,等.基于多來源文本的中文醫(yī)學(xué)知識(shí)圖譜的構(gòu)建[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2020,52(2):7.DOI:10.13705/j.issn.1671-6841.2019383.
[4]韓普,馬健,張嘉明,等.基于多數(shù)據(jù)源融合的醫(yī)療知識(shí)圖譜框架構(gòu)建研究[J].現(xiàn)代情報(bào),2019,39(6):10.DOI:10.3969/j.issn.1008-0821.2019.06.009.
[5]劉桂鋒,郭科遠(yuǎn),包翔.基于多源數(shù)據(jù)融合的新冠肺炎病例活動(dòng)知識(shí)圖譜構(gòu)建與知識(shí)發(fā)現(xiàn)研究[J].情報(bào)工程,2023,9(1):16.
[6]Liran J,Wang Y,Jiang J,et al. Evaluating Individual Genome Similarity with a Topic Model[J]. Bioinformatics,2020.
[7]Yang B,Liao Y M .Research on enterprise risk knowledge graph based on multi-source data fusion[J].Neural Computing and Applications,2021:1-14.DOI:10.1007/s00521-021-05985-w.
作者簡(jiǎn)介:汪洋(1991-),男,河南信陽(yáng)人,碩士,講師,主要研究方向:人工智能、軟件技術(shù)。
雷開(2002-),男,四川內(nèi)江人,瀘州職業(yè)技術(shù)學(xué)院2021級(jí)在讀學(xué)生,主要研究方向:數(shù)據(jù)分析、智能算法。
※基金項(xiàng)目:2021年瀘州市科技計(jì)劃項(xiàng)目《多源數(shù)據(jù)融合情感障礙癥知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)研究》(課題編號(hào):2021-JYJ-96);數(shù)據(jù)智能分析與處理瀘州市重點(diǎn)實(shí)驗(yàn)室2022年開放基金課題《基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜構(gòu)建與應(yīng)用研究》(課題編號(hào):SZ202207)。
(作者單位:1.瀘州職業(yè)技術(shù)學(xué)院;2.數(shù)據(jù)智能分析與處理瀘州市重點(diǎn)實(shí)驗(yàn)室)
相關(guān)知識(shí)
健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)體系框架研究
面向醫(yī)療健康數(shù)據(jù)的知識(shí)圖譜研究與應(yīng)用
精準(zhǔn)健康管理視角下高血壓健康干預(yù)知識(shí)圖譜的構(gòu)建
健康飲食領(lǐng)域知識(shí)圖譜構(gòu)建及推薦系統(tǒng)研究
健康飲食領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用研究
基于感知大數(shù)據(jù)的高效實(shí)時(shí)心理健康智能識(shí)別系統(tǒng)研究
醫(yī)療健康腳本語(yǔ)言框架研究
知識(shí)中臺(tái)框架下的臨床決策支持知識(shí)庫(kù)構(gòu)建方法(上)
我國(guó)環(huán)境與健康管理政策框架研究
“知識(shí)圖譜在健康醫(yī)療大數(shù)據(jù)中的應(yīng)用”專題論壇
網(wǎng)址: 基于多源數(shù)據(jù)融合的心理健康知識(shí)圖譜框架構(gòu)建研究 http://m.u1s5d6.cn/newsview1530480.html
推薦資訊
- 1發(fā)朋友圈對(duì)老公徹底失望的心情 12775
- 2BMI體重指數(shù)計(jì)算公式是什么 11235
- 3補(bǔ)腎吃什么 補(bǔ)腎最佳食物推薦 11199
- 4性生活姿勢(shì)有哪些 盤點(diǎn)夫妻性 10425
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎(chǔ)代謝率(BMR)計(jì)算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7826