統(tǒng)計(jì)一個(gè)大文本行數(shù)的幾種方法以及效率統(tǒng)計(jì)（一）

ruiruiruiruichen 2013-08-28

展開全文

統(tǒng)計(jì)一個(gè)大文本行數(shù)的幾種方法以及效率統(tǒng)計(jì)（一）

最近在和一個(gè)朋友的交流中，遇到這么一個(gè)問題，如何能較快對(duì)一個(gè)較大的文本文件（1G或更大）的文本行數(shù)進(jìn)行統(tǒng)計(jì)。如果不考慮效率，要統(tǒng)計(jì)一個(gè)文本的行數(shù)其實(shí)一點(diǎn)也不難，但是如果需要在較快的時(shí)間內(nèi)做完，恐怕就得考慮實(shí)現(xiàn)方法了。

為此，自己嘗試了幾種方法，在這里把這幾種方法拿出來(lái)和大家討論一下。

首先是生成測(cè)試數(shù)據(jù)的代碼：

const int COL_NUM = 30;

const int LINE_NUM = 10000000;

const string FILE_NAME = @"d:\test.csv";

/// <summary>

/// 創(chuàng)建一個(gè)一千萬(wàn)行的文本文件，大小約為900M。

/// </summary>

static void CreateTestCSVFile()

{

string rowValue = string.Join(string.Empty,

Enumerable.Range(1, COL_NUM).Select(i => i.ToString("00") + ","));

using (StreamWriter sw = new StreamWriter(FILE_NAME, false, Encoding.ASCII))

{

for (int i = 0; i < LINE_NUM; i++)

{

sw.WriteLine(rowValue);

}

.NET4.0 + StreamReader + ReadLine()

原理很簡(jiǎn)單，使用StreamReader的ReadLine方法，每執(zhí)行一次，行數(shù)加一。代碼如下：

/// <summary>

/// StreamReader + ReadLine()

/// </summary>

static void CalculateLine_ReadLine()

{

long lineCount = 0;

using (StreamReader sr = new StreamReader(FILE_NAME, false))

{

while (!sr.EndOfStream)

{

sr.ReadLine();

lineCount++;

}

Console.WriteLine("line count: {0}", lineCount);

}

測(cè)試結(jié)果如下：

對(duì)于以上這種方法，平均每次執(zhí)行時(shí)間為55s左右，執(zhí)行效率明顯不盡如人意。

如果我們同樣采用流，不過(guò)使用分塊的方式，將文件內(nèi)容一塊一塊讀進(jìn)內(nèi)存，在解析每塊內(nèi)容的行數(shù)，最后相加。這樣做的效率如何呢？

.NET4.0 + StreamReader + ReadBlock()

/// <summary>

/// StreamReader + ReadBlock()

/// </summary>

static void CalculateLine_ReadBlock(int oneBlockSize)

{

long lineCount = 0;

char[] oneBlock = new char[oneBlockSize];

using (StreamReader sr = new StreamReader(FILE_NAME, false))

{

long streamLen = sr.BaseStream.Length;

while (!sr.EndOfStream)

{

long leftLength = streamLen - sr.BaseStream.Position - 1;

if (leftLength >= oneBlockSize)

{

sr.ReadBlock(oneBlock, 0, oneBlock.Length);

lineCount += oneBlock.Count(c => c == '\r');

}

else

{

lineCount += sr.ReadToEnd().Count(c => c == '\r');

}

Console.WriteLine("line count: {0}", lineCount);

}

static void Main(string[] args)

{

int[] oneBlockArray = new[] { 1, 10, 20, 50, };

foreach (int oneBlockSize in oneBlockArray)

{

CodeTimerF2.CodeTimer.Time(string.Format("StreamReader + ReadBolck() [Block Size: {0}MB]", oneBlockSize),

1, () => CalculateLine_ReadBlock(oneBlockSize * 1024 * 1024));

}

Console.ReadKey();

}

運(yùn)行結(jié)果如圖：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： ruiruiruiruic... > 《開發(fā)》

舉報(bào)/認(rèn)領(lǐng)