一共23w條數(shù)據(jù),是之前通過自然語言分析處理過的數(shù)據(jù),附一張截圖: 要實現(xiàn)對news主體的讀取,并且找到其中含有的股票名稱,只要發(fā)現(xiàn),就將這支股票和對應(yīng)的日期、score寫入數(shù)據(jù)庫。 顯然,幾十萬條數(shù)據(jù)要是一條條讀寫,然后在本機上操作,耗時太久,可行性極低。所以,如何有效并行的讀取內(nèi)容,并且進行操作,最后再寫入數(shù)據(jù)庫呢? 并行讀取和寫入
實現(xiàn)的時候,如果不在進程里面創(chuàng)建新的connection,就會發(fā)生沖突,每個進程拿到權(quán)限后,會被下個進程釋放,所以匯報出來NoneType Error的錯誤。
此時,對應(yīng)進程里面先后出現(xiàn)讀入的conn(保存消息后關(guān)閉)和寫入的conn。每個進程對應(yīng)的表的index就是 主循環(huán)中的num對max_process取余(100->4,101->5),這樣每個進程只對一個表進行操作了。 部分代碼實現(xiàn) |
|