作為科學(xué)信息解決方案專業(yè)機構(gòu),美國化學(xué)文摘社(CAS)正與全球研究機構(gòu)合作,應(yīng)對COVID-19帶來的復(fù)雜而又快速變化的挑戰(zhàn)。作為美國化學(xué)會(ACS)的分支機構(gòu),CAS致力于踐行美國化學(xué)會的使命,持續(xù)開發(fā)、開放提供一系列資源(包括數(shù)據(jù)、工具、專業(yè)咨詢等)共同抗擊COVID-19。
CAS就其獨特的權(quán)威大數(shù)據(jù)進行挖掘整理,揭示數(shù)據(jù)間的關(guān)聯(lián),現(xiàn)發(fā)布開放獲取“CAS COVID-19抗病毒候選化合物構(gòu)效關(guān)系數(shù)據(jù)集”(CAS COVID-19 Antiviral Candidate SAR Dataset)。
點擊下載:

此數(shù)據(jù)集來源為報道COVID-19蛋白、病毒和疾病靶點的文獻、專利和其他公共資源,之前CAS在這些資源中提煉出9千多個物質(zhì)構(gòu)成了“CAS COVID-19抗病毒候選化合物數(shù)據(jù)集”,此次提供的29萬條構(gòu)效關(guān)系(SAR)數(shù)據(jù)正是基于這些物質(zhì)。研究人員無需支付費用即可利用這些數(shù)據(jù)進行研究、數(shù)據(jù)挖掘、機器學(xué)習(xí)和數(shù)據(jù)分析。
本數(shù)據(jù)集采用.CSV格式,包含超過29萬條構(gòu)效關(guān)系數(shù)據(jù),包括IC50、EC50和其他數(shù)值。能夠便捷地將CSV文件導(dǎo)入到電子表格工具,如Microsoft Excel。數(shù)據(jù)按列排列:cas_rn、蛋白質(zhì)、治療用途、活性類型、活性值、活性單位、來源等。對于數(shù)據(jù)科學(xué)工具,例如可考慮使用Python編程語言的免費軟件SciKit-Learn、pandas library dataframes等,將數(shù)據(jù)集部署到機器學(xué)習(xí)中。
歡迎廣大師生使用!