解決網爬工具爬取頁面信息出現亂碼的問題

問題:

網爬工具中自動搜集頁面信息時,有的頁面出現了出現亂碼現象

原因:

讀取頁面信息是使用了錯誤的編碼類型。C#.NET從現在的類中獲取得來的編碼信息有時是錯誤的,本人認爲對不是Asp.Net的應用程序,它讀過來的編碼信息都是錯誤的。

解決:

思路:必須先在運行時獲取得該頁面的編碼,再去讀取頁面的內容,這樣得來的頁面內容才不會出現亂碼現象。

方法:

1:使用ASCII編碼去讀取頁面內容。

2:使用正則表達式從讀取的頁面內容中篩選出頁面的編碼信息。上個步驟獲取的頁面信息可能會有亂碼。但Html標志是正確的,所有可以從HTML標志中得到編碼的信息。

3.用正確的編碼類型去讀取頁面信息。

假如哪位有更好的方法,請多賜教啊!

下面附上代碼:

代碼演示

using System;

using System.Collections.Generic;

using System.Text;

using System.Net;

using System.Web;

using System.IO;

using System.Text.RegularEXPressions;

namespace charset

{

class Program

{

static void Main(string[] args)

{

string url = "http://www.gdqy.edu.cn";

GetCharset1(url);

GetChartset2(url);

Console.Read();

}

// 通過HttpWebResponse直接獲取頁面編碼

static void GetCharset1(string url)

{

try

{

WebRequest webRequest = WebRequest.Create(url);

HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

string charset = webResponse.CharacterSet;

string contentEncoding = webResponse.ContentEncoding;

string contentType = webResponse.ContentType;

Console.WriteLine("context type:{0}", contentType);

Console.WriteLine("charset:{0}", charset);

Console.WriteLine("content encoding:{0}", contentEncoding);

//測試或取頁面是否出現亂碼

//Console.WriteLine(getHTML(url,charset));

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

}

catch(WebException ex)

{

Console.WriteLine(ex.Message);

}

}

//使用正則表達式獲取頁面編碼

static void GetChartset2(string url)

{

try

{

string html = getHTML(url,Encoding.ASCII.EncodingName);

Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");

string enconding = null;

if (reg_charset.IsMatch(html))

{

enconding = reg_charset.Match(html).Groups["charset"].Value;

Console.WriteLine("charset:{0}",enconding);

}

else

{

enconding = Encoding.Default.EncodingName;

}

//測試或取頁面是否出現亂碼

//Console.WriteLine(getHTML(url,enconding));

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

}

catch(WebException ex)

{

Console.WriteLine(ex.Message);

}

}

//讀取頁面內容方法

static string getHTML(string url,string encodingName)

{

try

{

WebRequest webRequest = WebRequest.Create(url);

WebResponse webResponse = webRequest.GetResponse();

Stream stream = webResponse.GetResponseStream();

StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));

string html = sr.ReadToEnd();

return html;

}

catch (UriFormatException ex)

{

Console.WriteLine(ex.Message);

return null;

}

catch (WebException ex)

{

Console.WriteLine(ex.Message);

return null;

}

}

}

}

http://www.gdqy.edu.cn頁面的使用的編碼格式是:gb2312

第一個方法顯示的內容是:

context type:text/html

charset:ISO-8859-1

content encoding:

第二個方法顯示的內容是:

charset:gb2312

所以第一個方法獲取的信息是錯誤的,第二個方法是對的。

爲什麽第一個方法獲取的的編碼格式是:ISO-8859-1呢?

我用Reflector反射工具獲取了CharacterSet屬性的源代碼,從中不難看出其原因。假如能獲取出ContentType屬性的源代碼就不以看出其出錯的原因了,但是搞了許久都沒找出,假如那位那補上,那就太感謝了。

下面我附上Reflector反射工具獲取了CharacterSet屬性的源代碼,有愛好的朋友看一看。

CharacterSet源碼

public string CharacterSet

{

get

{

this.CheckDisposed();

string text1 = this.m_HttpResponseHeaders.ContentType;

if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))

{

this.m_CharacterSet = string.Empty;

string text2 = text1.ToLower(CultureInfo.InvariantCulture);

if (text2.Trim().StartsWith("text/"))

{

this.m_CharacterSet = "ISO-8859-1";

}

int num1 = text2.IndexOf(";");

if (num1 > 0)

{

while ((num1 = text2.IndexOf("charset", num1)) >= 0)

{

num1 += 7;

if ((text2[num1 - 8] == ';') (text2[num1 - 8] == ' '))

{

while ((num1 < text2.Length) && (text2[num1] == ' '))

{

num1++;

}

if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))

{

num1++;

int num2 = text2.IndexOf(';', num1);

if (num2 > num1)

{

this.m_CharacterSet = text1.Substring(num1, num2).Trim();

break;

}

this.m_CharacterSet = text1.Substring(num1).Trim();

break;

}

}

}

}

}

return this.m_CharacterSet;

}

http://www.cnblogs.com/xuanfeng/archive/2007/01/21/626296.html

 
解決網爬工具爬取頁面信息出現亂碼的問題
問題: 網爬工具中自動搜集頁面信息時,有的頁面出現了出現亂碼現象原因: 讀取頁面信息是使用了錯誤的編碼類型。C#.NET從現在的類中獲取得來的編碼信息有時是錯誤的,本人認爲對不是ASP.NET的應用程序,它讀過來...查看完整版>>解決網爬工具爬取頁面信息出現亂碼的問題
 
用ConvertZ解決mp3播放時的歌曲信息亂碼問題
wuzh558兄在寶典中發表了名爲《三步解決mp3播放時的歌曲名亂碼》的帖子,非常實用。我在這裏再推薦給機油們一個解決這一問題的方法,希望對大家有所幫助。 此方法需要用到電腦端軟件ConvertZ(內碼翻譯),下載地...查看完整版>>用ConvertZ解決mp3播放時的歌曲信息亂碼問題
 
關于解決6230播放MP3時出現亂碼的問題
關于6230用音樂播放器播放MP3時出現亂碼的這一問題,好多機友都在論壇上發表過解決辦法,但總感覺比較麻煩,如要用到一些軟件。我經過多次實踐,終于有了一個徹底的解決辦法。其實解決這個問題有個最簡單的方法:就是...查看完整版>>關于解決6230播放MP3時出現亂碼的問題
 
JSP頁面顯示亂碼問題的解決
  大家在JSP的開發過程中,經常出現中文亂碼的問題,可能一至困擾著您,我現在把我在JSP開發中遇到的中文亂碼的問題及解決辦法寫出來供大家參考。   一、JSP頁面顯示亂碼   下面的顯示頁面(display.jsp)就出現...查看完整版>>JSP頁面顯示亂碼問題的解決
 
Eclipse工具下開發Struts解決亂碼的問題
主要有三個問題: 1,struts中資源文件中如果value爲中文,顯示亂碼 解決辦法:使用eclipse插件Properties Editor 2,在文本域裏輸入中文顯示亂碼 解決辦法:使用servlet過濾器filter 最簡單的可以借用tomcat下面的f...查看完整版>>Eclipse工具下開發Struts解決亂碼的問題