后綴為cel的芯片文件,對應(yīng)的芯片平臺為Affymetrix, 針對這一平臺的數(shù)據(jù),可以通過R包affy來讀取,讀取時我們需要以下兩種文件 1. 后綴為cel的探針熒光信號強度文件 2. 后綴為cdf的探針布局文件 cel文件是芯片掃描之后的原始數(shù)據(jù)文件,而cdf文件是每個芯片平臺對應(yīng)的文件,cdf格式的詳細解釋可以參考如下鏈接 https://media./support/developer/powertools/changelog/gcos-agcc/cdf.html 部分內(nèi)容截圖如下 針對一些常用芯片, bionconductor annotation收錄了對應(yīng)的cdf注釋信息,鏈接如下 http://master./packages/release/data/annotation/ 在讀取數(shù)據(jù)的過程中,affy會根據(jù)芯片平臺自動化地從annotation中下載對應(yīng)的cdf包,對于那些cdf文件沒有收錄在annotation中的芯片,就只能通過makecdfenv包手動創(chuàng)建對應(yīng)的注釋包了。 使用affy包讀取cel文件的代碼如下
核心就是ReadAffy函數(shù),只需要提供cel文件所在文件夾的路徑即可。 原始信號讀取之后,我們需要將原始的探針水平的信號強度轉(zhuǎn)變?yōu)榛蛩降谋磉_量,需要經(jīng)過以下步驟 1. 讀取探針水平的數(shù)據(jù) 2. 背景校正 3. 歸一化 4. 探針特異性的背景校正,比如減去陰性對照的熒光強度 5. summary, 將一組探針的表達量合并為一個表達值水平 所有這些都通過一個函數(shù)expresso來執(zhí)行,該函數(shù)非常靈活,包含了以下多個參數(shù) 1. bgcorrect.method 2. normalize.method 3. pmcorrect.method 4. summary.method 針對每一步驟都提供了很多的方法可供選擇,展示如下
在expresso函數(shù)的基礎(chǔ)上,封裝了兩個常見處理函數(shù) 1.mas5 2.rma 本質(zhì)是固定了各種參數(shù)的值,從讀取原始數(shù)據(jù),到得到探針表達量的完整代碼如下
|
|