膀胱資料庫
⑴ sql查詢,如何去除重復的記錄
首先,先說明一個問題。這樣的結果出現,說明系統設計是有問題的。
其次
刪除重復數據,你要提供你是什麼資料庫。
不同資料庫會有不同的解決方案。
關鍵字Distinct 去除重復,如下列SQL,去除Test相同的記錄;
1. select distinct Test from Table
2. 如果是要刪除表中存在的重復記錄,那就邏輯處理,如下:
3. select Test from Table group by Test having count(test)>1
4. 先查詢存在重復的數據,後面根據條件刪除
還有一個更簡單的方法可以嘗試一下:
select aid, count(distinct uid) from 表名 group by aid
這是sqlserver 的寫法。
如圖一在數據表中有兩個膀胱沖洗重復的記錄。
⑵ 「數據集」醫學圖像數據集與競賽大全
智能醫療有很多的發展方向,例如醫學影像處理、診斷預測、疾病控制、 健康 管理、康復機器人、語音識別病歷電子化等。當前人工智慧技術新的發力點中的醫學圖像在疾病的預測和自動化診斷方面有非常大的意義,本篇即針對醫學影像中的病例分析,降噪,分割,檢索等領域來介紹一些常用的數據集。
1.1 病例分析數據集
1.1.1 ABIDE
發布於2013年,這是一個對自閉症內在大腦結構的大規模評估數據集,包括539名患有ASD和573名正常個體的功能MRI圖像。
1.1.2 OASIS
OASIS,全稱為Open Access Series of Imaging Studies,已經發布了第3代版本,第一次發布於2007年,是一項旨在使科學界免費提供大腦核磁共振數據集的項目。它有兩個數據集可用,下面是第1版的主要內容。
(1) 橫截面數據集:年輕,中老年,非痴呆和痴呆老年人的橫斷面MRI數據。該組由416名年齡在18歲至96歲的受試者組成的橫截面資料庫組成。對於每位受試者,單獨獲得3或4個單獨的T1加權MRI掃描包括掃描會話。受試者都是右撇子,包括男性和女性。100名60歲以上的受試者已經臨床診斷為輕度至中度阿爾茨海默病。
(2) 縱向集數據集:非痴呆和痴呆老年人的縱向磁共振成像數據。該集合包括150名年齡在60至96歲的受試者的縱向集合。每位受試者在兩次或多次訪視中進行掃描,間隔至少一年,總共進行373次成像。對於每個受試者,包括在單次掃描期間獲得的3或4次單獨的T1加權MRI掃描。受試者都是右撇子,包括男性和女性。在整個研究中,72名受試者被描述為未被證實。包括的受試者中有64人在初次就診時表現為痴呆症,並在隨後的掃描中仍然如此,其中包括51名輕度至中度阿爾茨海默病患者。另外14名受試者在初次就診時表現為未衰退,隨後在隨後的訪視中表現為痴呆症。
1.1.3 DDSM
發布於2000年,這是一個用於篩選乳腺攝影的數字資料庫,是乳腺攝影圖像分析研究社區使用的資源。該項目的主要支持來自美國陸軍醫學研究和裝備司令部的乳腺癌研究計劃。DDSM項目是由馬薩諸塞州綜合醫院(D. Kopans,R. Moore),南佛羅里達大學(K. Bowyer)和桑迪亞國家實驗室(P. Kegelmeyer)共同參與的合作項目。資料庫的主要目的是促進計算機演算法開發方面的良好研究,以幫助篩選。資料庫的次要目的可能包括開發演算法以幫助診斷和開發教學或培訓輔助工具。該資料庫包含約2,500項研究。每項研究包括每個乳房的兩幅圖像,以及一些相關的患者信息(研究時間,ACR乳房密度評分,異常微妙評級,異常ACR關鍵字描述)和圖像信息(掃描儀,空間解析度等)。包含可疑區域的圖像具有關於可疑區域的位置和類型的像素級「地面真實」信息。
1.1.4 MIAS
MIAS全稱為MiniMammographic Database,是乳腺圖像資料庫。
乳腺MG數據(Breast Mammography)有個專門的database,可以查看很多數據集,鏈接地址為:
1.1.5 MURA
發布於2018年2月,吳恩達團隊開源了 MURA 資料庫,MURA 是目前最大的 X 光片資料庫之一。該資料庫中包含了源自14982項病例的40895張肌肉骨骼X光片。1萬多項病例里有9067例正常的上級肌肉骨骼和5915例上肢異常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每個病例包含一個或多個圖像,均由放射科醫師手動標記。全球有超過17億人都有肌肉骨骼性的疾病,因此訓練這個數據集,並基於深度學習檢測骨骼疾病,進行自動異常定位,通過組織器官的X光片來確定機體的 健康 狀況,進而對患者的病情進行診斷,可以幫助緩解放射科醫生的疲勞。
參考2018年論文:MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.
1.1.6 ChestX-ray14
參考論文:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning
ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120個單獨標注的14種不同肺部疾病(肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結節、腫塊和疝氣)的正面胸部 X 光片。研究人員對數據採用NLP方法對圖像進行標注。利用深度學習的技術早期發現並識別胸透照片中肺炎等疾病對增加患者恢復和生存的最佳機會至關重要。
1.1.7 LIDC-IDRI
LIDC-IDRI數據集是由美國國家癌症研究所(National Cancer Institute)發起收集的,目的是為了研究高危人群早期肺結節檢測。該數據集中,共收錄了1018個研究實例。對於每個實例中的圖像,都由4位經驗豐富的胸部放射科醫師進行兩階段的診斷標注。該數據集由胸部醫學圖像文件(如CT、X光片)和對應的診斷結果病變標注組成。
1.1.8 LUNA16
發布於2016年,是肺部腫瘤檢測最常用的數據集之一,它包含888個CT圖像,1084個腫瘤,圖像質量和腫瘤大小的范圍比較理想。數據分為10個subsets,subset包含89/88個CT scan。
LUNA16的CT圖像取自LIDC/IDRI數據集,選取了三個以上放射科醫師意見一致的annotation,並且去掉了小於3mm的腫瘤,所以數據集里不含有小於3mm的腫瘤,便於訓練。
1.1.9 NSCLC
發布於2018年,來自斯坦福大學。數據集來自211名受試者的非小細胞肺癌(NSCLC)隊列的獨特放射基因組數據集。該數據集包括計算機斷層掃描(CT),正電子發射斷層掃描(PET)/ CT圖像。創建該數據集是為了便於發現基因組和醫學圖像特徵之間的基礎關系,以及預測醫學圖像生物標記的開發和評估。
1.1.10 DeepLesion
DeepLesion由美國國立衛生研究院臨床中心(NIHCC)的團隊開發,是迄今規模最大的多類別、病灶級別標注臨床醫療CT圖像開放數據集。在該資料庫中圖像包括多種病變類型,目前包括4427個患者的32,735 張CT圖像及病變信息,同時也包括腎臟病變,骨病變,肺結節和淋巴結腫大。DeepLesion多類別病變數據集可以用來開發自動化放射診斷的CADx系統。
1.1.11 ADNI
ANDI涉及到的數據集包括如下幾部分Clinical Data(臨床數據)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正電子發射計算機斷層掃描)、Gennetic Data(遺傳數據)、Biospecimen Data(生物樣本數據)。
1.2 醫學降噪數據集
1.2.1 BrainWeb數據集
發布於1997年,這是一個模擬數據集,用於醫學圖像降噪。研究者可以截取不同斷層的正常腦部模擬圖像,包括T1,T2,PD3種斷層,設置斷層的厚度,疊加高斯雜訊或者醫學圖像中常見的萊斯雜訊,最終會得到181×217大小的雜訊圖像。
1.3 醫學分割數據集
1.3.1 DRIVE數據集
發布於2003年,這是一個用於血管分割的數字視網膜圖像數據集,它由40張照片組成,其中7張顯示出輕度早期糖尿病視網膜病變跡象。
1.3.2 SCR數據集
發布於2000年,胸部X光片的分割,胸部X光片中解剖結構的自動分割對於這些圖像中的計算機輔助診斷非常重要。SCR資料庫的建立是為了便於比較研究肺野,心臟和鎖骨在標準的後胸前X線片上的分割。
本著合作科學進步的精神,我們可以自由共享SCR資料庫,並致力於在這些分割任務上維護各種演算法結果的公共存儲庫。在這些頁面上,可以在下載資料庫和上載結果時找到說明,並且可以檢查各種方法的基準結果。
1.3.3 醫學圖像分析benchmark
在網址https://grand-challenge.org/challenges/提供了時間跨度超過10年的醫學圖像資料。
1.3.4 Ardiac MRI
ardiac MRI 是心臟病患者心房醫療影像數據,以及其左心室的心內膜和外膜的圖像標注。包括33位患者案例,每個受試者的序列由沿著長的20幀和8-15個切片組成,共7980張圖像。
1.3.5 NIH
發布於2017年,這是一個胸部X射線數據集,包含30,805個患者,14個疾病圖像標簽(其中每個圖像可以具有多個標簽),112,820個正面X射線圖像,標簽是使用自然語言處理從相關的放射學報告中自動提取。十四種常見的胸部病變包括肺不張,鞏固,浸潤,氣胸,水腫,肺氣腫,纖維化,積液,肺炎,胸膜增厚,心臟擴大,結節,腫塊和疝。由於許多原因,原始放射學報告(與這些胸部X射線研究相關)並不是公開分享的。所以文本挖掘的疾病標簽預計准確度 > 90%,這個數據集適合做半監督的學習。
1.4 List of Open Access
在List of Open Access Medical Imaging Datasets網站上可以看到更多的相關方向的數據集。
2.1 VISCERAL
VISCERAL 是Visual Concept Extraction Challenge in Radiology的縮寫,是放射學中的視覺概念提取挑戰賽。他們提供幾種不同成像模式(例如CT和MR)的幾種解剖結構(例如腎,肺,膀胱等)的放射學數據以及一個雲計算實例。
2.2 Grand Challenges
提供了醫學圖像分析領域內所有挑戰的概述,下面舉的例子是2019年的醫學圖像方面將要舉辦的競賽。
2.3 Dream Challenges
這個挑戰賽中包括有數字乳腺攝影夢想挑戰;ICGC-TCGA DREAM體細胞突變稱為RNA挑戰(SMC-RNA)等等。
最後提供給對醫學影像處理感興趣的童鞋一個超級贊的github鏈接如下:
這是Github上哈佛 beamandrew機器學習和醫學影像研究者貢獻的數據集,包括了醫學影像數據、競賽數據、來自電子 健康 記錄的數據、醫療數據、UCI數據集、生物醫學文獻等。