<C#爬蟲>解決標點符號是HTML字元符號

c# #爬蟲

justinzxc87 2019-02-08 02:40:47 ‧ 2382 瀏覽

分享至

請問使用HtmlAgilityPack爬蟲寫入word

有些網站抓下來標點符號是HTML字元符號

目前暫時是用replace()

請問有其他比較好的方式嗎

謝謝

小魚 iT邦大師 1 級 ‧ 2019-02-09 00:23:17 檢舉

如果是要讓網頁顯示出來C#應該是有函式可以用,
如果是要資料庫也記標點符號就只能用replace了.

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 個回答

暐翰

iT邦大師 1 級 ‧ 2019-02-09 00:23:55

最佳解答

有些網站抓下來標點符號是HTML字元符號
目前暫時是用replace()
請問有其他比較好的方式嗎

回答:

假如你指的字元符號應該是HTMLEncoding後的字串,可以使用System.Web.HttpUtility.HtmlDecode解碼回來,舉例:

void Main()
{
	var encodeResult = System.Web.HttpUtility.HtmlEncode("alert('Hello ITHelp')"); //result : "alert('Hello ITHelp')"
	var decodeResult = System.Web.HttpUtility.HtmlDecode(encodeResult); //Result : "alert('Hello ITHelp')"
}

或者格式是Unicode,可以使用System.Text.RegularExpressions.Regex.Unescape(字串)解碼,舉例:

void Main()
{
	var endcodingString = @"\u4f60\u597d\u002c\u0049\u0054\u90a6\u5e6b\u5fd9\u0021";
	var decodeString = System.Text.RegularExpressions.Regex.Unescape(endcodingString);//"你好,IT邦幫忙!"
}