compiled/RegExpFilter.cpp - Issue 29333474: Issue 4125 - [emscripten] Convert filter classes to C++

Delta Between Two Patch Sets: compiled/RegExpFilter.cpp

Issue 29333474: Issue 4125 - [emscripten] Convert filter classes to C++ (Closed)

Left Patch Set: Almost complete implementation, missing CSS property filters Created Jan. 20, 2016, 12:04 p.m.

Right Patch Set: Addressed comments from Patch Set 28 Created March 21, 2017, 10:04 a.m.

Left:
Right:

Use n/p to move between diff chunks; N/P to move between comments.

Jump to:

Left: Side by side diff | Download
Right: Side by side diff | Download

LEFT	RIGHT
1 #include <climits>	1 #include <climits>

2 #include <unordered_map>

3	2

4 #include <emscripten.h>	3 #include <emscripten.h>

5	4

6 #include "RegExpFilter.h"	5 #include "RegExpFilter.h"

7 #include "WhiteListFilter.h"

8 #include "InvalidFilter.h"

9 #include "StringScanner.h"	6 #include "StringScanner.h"

	7 #include "StringMap.h"

10	8

11 namespace	9 namespace

12 {	10 {

13 enum	11 enum

14 {	12 {

15 TYPE_OTHER = 0x1,	13 TYPE_OTHER = 0x1,

16 TYPE_SCRIPT = 0x2,	14 TYPE_SCRIPT = 0x2,

17 TYPE_IMAGE = 0x4,	15 TYPE_IMAGE = 0x4,

18 TYPE_STYLESHEET = 0x8,	16 TYPE_STYLESHEET = 0x8,

19 TYPE_OBJECT = 0x10,	17 TYPE_OBJECT = 0x10,

20 TYPE_SUBDOCUMENT = 0x20,	18 TYPE_SUBDOCUMENT = 0x20,

21 TYPE_DOCUMENT = 0x40,	19 TYPE_DOCUMENT = 0x40,

22 TYPE_PING = 0x400,	20 TYPE_PING = 0x400,

23 TYPE_XMLHTTPREQUEST = 0x800,	21 TYPE_XMLHTTPREQUEST = 0x800,

24 TYPE_OBJECT_SUBREQUEST = 0x1000,	22 TYPE_OBJECT_SUBREQUEST = 0x1000,

25 TYPE_MEDIA = 0x4000,	23 TYPE_MEDIA = 0x4000,

26 TYPE_FONT = 0x8000,	24 TYPE_FONT = 0x8000,

27 TYPE_POPUP = 0x8000000,	25 TYPE_POPUP = 0x8000000,

28 TYPE_GENERICBLOCK = 0x10000000,	26 TYPE_GENERICBLOCK = 0x10000000,

29 TYPE_GENERICHIDE = 0x20000000,	27 TYPE_GENERICHIDE = 0x20000000,

30 TYPE_ELEMHIDE = 0x40000000,	28 TYPE_ELEMHIDE = 0x40000000,

31 };	29 };

32	30

33 std::unordered_map<std::u16string,int> typeMap({	31 StringMap<int> typeMap {

34 {u"OTHER", TYPE_OTHER},	32 {u"other"_str, TYPE_OTHER},

35 {u"SCRIPT", TYPE_SCRIPT},	33 {u"script"_str, TYPE_SCRIPT},

36 {u"IMAGE", TYPE_IMAGE},	34 {u"image"_str, TYPE_IMAGE},

37 {u"STYLESHEET", TYPE_STYLESHEET},	35 {u"stylesheet"_str, TYPE_STYLESHEET},

38 {u"OBJECT", TYPE_OBJECT},	36 {u"object"_str, TYPE_OBJECT},

39 {u"SUBDOCUMENT", TYPE_SUBDOCUMENT},	37 {u"subdocument"_str, TYPE_SUBDOCUMENT},

40 {u"DOCUMENT", TYPE_DOCUMENT},	38 {u"document"_str, TYPE_DOCUMENT},

41 {u"XBL", TYPE_OTHER}, // Backwards compat	39 {u"xbl"_str, TYPE_OTHER}, // Backwards compat

42 {u"PING", TYPE_PING},	40 {u"ping"_str, TYPE_PING},

43 {u"XMLHTTPREQUEST", TYPE_XMLHTTPREQUEST},	41 {u"xmlhttprequest"_str, TYPE_XMLHTTPREQUEST},

44 {u"OBJECT_SUBREQUEST", TYPE_OBJECT_SUBREQUEST},	42 {u"object-subrequest"_str, TYPE_OBJECT_SUBREQUEST},

45 {u"DTD", TYPE_OTHER}, // Backwards compat	43 {u"dtd"_str, TYPE_OTHER}, // Backwards compat

46 {u"MEDIA", TYPE_MEDIA},	44 {u"media"_str, TYPE_MEDIA},

47 {u"FONT", TYPE_FONT},	45 {u"font"_str, TYPE_FONT},

48 {u"BACKGROUND", TYPE_IMAGE}, // Backwards compat	46 {u"background"_str, TYPE_IMAGE}, // Backwards compat

49	47

50 {u"POPUP", TYPE_POPUP},	48 {u"popup"_str, TYPE_POPUP},

51 {u"GENERICBLOCK", TYPE_GENERICBLOCK},	49 {u"genericblock"_str, TYPE_GENERICBLOCK},

52 {u"GENERICHIDE", TYPE_GENERICHIDE},	50 {u"generichide"_str, TYPE_GENERICHIDE},

53 {u"ELEMHIDE", TYPE_ELEMHIDE},	51 {u"elemhide"_str, TYPE_ELEMHIDE},

54 });	52 };

55	53

56 int defaultTypeMask = INT_MAX & ~(TYPE_DOCUMENT \| TYPE_ELEMHIDE \| TYPE_POPUP \|	54 const int defaultTypeMask = INT_MAX & ~(TYPE_DOCUMENT \| TYPE_ELEMHIDE \|

57 TYPE_GENERICBLOCK \| TYPE_GENERICHIDE);	55 TYPE_POPUP \| TYPE_GENERICBLOCK \| TYPE_GENERICHIDE);

58	56

59 int GenerateRegExp(const std::u16string& source, bool matchCase)	57 int GenerateRegExp(const String& regexp, bool matchCase)

60 {	58 {

61 // Note: This doesn't remove trailing wildcards, otherwise the result should	59 return EM_ASM_INT(return regexps.create($0, $1), &regexp, matchCase);

62 // be identical to Filter.toRegExp().	60 }

63 std::u16string result;	61

64 char16_t prevChar = u'*';	62 void NormalizeWhitespace(DependentString& text)

65 for (size_t i = 0, l = source.length(); i < l; ++i)	63 {

66 {	64 // We want to remove all spaces but bail out early in the common scenario

67 char16_t currChar = source[i];	65 // that the string contains no spaces.

68 switch (currChar)	66

	67 // Look for the first space

	68 String::size_type len = text.length();

	69 String::size_type pos;

	70 for (pos = 0; pos < len; pos++)

	71 if (text[pos] == ' ')

	72 break;

	73

	74 if (pos >= len)

	75 return;

	76

	77 // Found spaces, move characters to remove them

	78 String::size_type delta = 1;

	79 for (pos = pos + 1; pos < len; pos++)

	80 {

	81 if (text[pos] == ' ')

	82 delta++;

	83 else

	84 text[pos - delta] = text[pos];

	85 }

	86 text.reset(text, 0, len - delta);

	87 }

	88

	89 void ParseOption(String& text, DependentString& error, RegExpFilterData& data,

	90 int optionStart, int optionEnd, int valueStart, int valueEnd)

	91 {

	92 if (optionEnd <= optionStart)

	93 return;

	94

	95 bool reverse = false;

	96 if (text[optionStart] == u'~')

	97 {

	98 reverse = true;

	99 optionStart++;

	100 }

	101

	102 DependentString name(text, optionStart, optionEnd - optionStart);

	103 for (size_t i = 0; i < name.length(); ++i)

	104 {

	105 char16_t currChar = name[i];

	106 if (currChar >= u'A' && currChar <= u'Z')

	107 name[i] = currChar + u'a' - u'A';

	108 else if (currChar == u'_')

	109 name[i] = u'-';

	110 }

	111

	112 auto it = typeMap.find(name);

	113 if (it)

	114 {

	115 if (data.mContentType < 0)

	116 data.mContentType = reverse ? defaultTypeMask : 0;

	117 if (reverse)

	118 data.mContentType &= ~it->second;

	119 else

	120 data.mContentType \|= it->second;

	121 }

	122 else if (name.equals(u"domain"_str))

	123 {

	124 if (valueStart >= 0 && valueEnd > valueStart)

69 {	125 {

70 case u'*':	126 data.mDomainsStart = valueStart;

71 if (prevChar != u'*')	127 data.mDomainsEnd = valueEnd;

72 result += u".*";	128 DependentString(text, valueStart, valueEnd - valueStart).toLower();

	129 }

	130 }

	131 else if (name.equals(u"sitekey"_str))

	132 {

	133 if (valueStart >= 0 && valueEnd > valueStart)

	134 {

	135 data.mSitekeysStart = valueStart;

	136 data.mSitekeysEnd = valueEnd;

	137 }

	138 }

	139 else if (name.equals(u"match-case"_str))

	140 data.mMatchCase = !reverse;

	141 else if (name.equals(u"third-party"_str))

	142 data.mThirdParty = reverse ? TrippleState::NO : TrippleState::YES;

	143 else if (name.equals(u"collapse"_str))

	144 data.mCollapse = reverse ? TrippleState::NO : TrippleState::YES;

	145 else

	146 error.reset(u"filter_unknown_option"_str);

	147 }

	148

	149 void ParseOptions(String& text, DependentString& error, RegExpFilterData& data ,

	150 String::size_type optionsStart)

	151 {

	152 data.mMatchCase = false;

	153 data.mThirdParty = TrippleState::ANY;

	154 data.mCollapse = TrippleState::ANY;

	155 data.mDomainsStart = String::npos;

	156 data.mSitekeysStart = String::npos;

	157 if (optionsStart >= text.length())

	158 {

	159 data.mContentType = defaultTypeMask;

	160 return;

	161 }

	162

	163 data.mContentType = -1;

	164

	165 int optionStart = data.mPatternEnd + 1;

	166 int optionEnd = -1;

	167 int valueStart = -1;

	168

	169 StringScanner scanner(text, optionStart, u',');

	170 bool done = false;

	171 while (!done)

	172 {

	173 done = scanner.done();

	174 switch (scanner.next())

	175 {

	176 case u'=':

	177 if (optionEnd < 0)

	178 {

	179 optionEnd = scanner.position();

	180 valueStart = optionEnd + 1;

	181 }

73 break;	182 break;

74 case u'^':	183 case u',':

75 result += u"(?:[\\x00-\\x24\\x26-\\x2C\\x2F\\x3A-\\x40\\x5B-\\x5E\\x60 \\x7B-\\x7F]\|$)";	184 if (optionEnd < 0)

	185 optionEnd = scanner.position();

	186 ParseOption(text, error, data, optionStart, optionEnd, valueStart,

	187 scanner.position());

	188 if (!error.empty())

	189 return;

	190

	191 optionStart = scanner.position() + 1;

	192 optionEnd = -1;

	193 valueStart = -1;

76 break;	194 break;

77 case u'\|':	195 }

78 if (i == 0)	196 }

	197

	198 if (data.mContentType < 0)

	199 data.mContentType = defaultTypeMask;

	200 }

	201 }

	202

	203 RegExpFilter::RegExpFilter(Type type, const String& text, const RegExpFilterData & data)

	204 : ActiveFilter(type, text, true), mData(data)

	205 {

	206 }

	207

	208 RegExpFilter::~RegExpFilter()

	209 {

	210 if (mData.HasRegExp())

	211 EM_ASM_ARGS(regexps.delete($0), mData.mRegexpId);

	212 }

	213

	214 Filter::Type RegExpFilter::Parse(DependentString& text, DependentString& error,

	215 RegExpFilterData& data)

	216 {

	217 NormalizeWhitespace(text);

	218

	219 Filter::Type type = Type::BLOCKING;

	220

	221 data.mPatternStart = 0;

	222 if (text.length() >= 2 && text[0] == u'@' && text[1] == u'@')

	223 {

	224 type = Type::WHITELIST;

	225 data.mPatternStart = 2;

	226 }

	227

	228 data.mPatternEnd = text.find(u'$', data.mPatternStart);

	229 if (data.mPatternEnd == text.npos)

	230 data.mPatternEnd = text.length();

	231

	232 ParseOptions(text, error, data, data.mPatternEnd + 1);

	233 if (!error.empty())

	234 return Type::INVALID;

	235

	236 if (data.mPatternEnd - data.mPatternStart >= 2 &&

	237 text[data.mPatternStart] == u'/' &&

	238 text[data.mPatternEnd - 1] == u'/')

	239 {

	240 data.SetRegExp(GenerateRegExp(DependentString(text, data.mPatternStart + 1,

	241 data.mPatternEnd - data.mPatternStart - 2), data.mMatchCase));

	242 if (data.mRegexpId == -1)

	243 {

	244 error.reset(u"filter_invalid_regexp"_str);

	245 return Type::INVALID;

	246 }

	247 }

	248

	249 return type;

	250 }

	251

	252 void RegExpFilter::ParseSitekeys(const String& sitekeys) const

	253 {

	254 StringScanner scanner(sitekeys, 0, u'\|');

	255 size_t start = 0;

	256 bool done = false;

	257 while (!done)

	258 {

	259 done = scanner.done();

	260 if (scanner.next() == u'\|')

	261 {

	262 if (scanner.position() > start)

	263 AddSitekey(DependentString(sitekeys, start, scanner.position() - start)) ;

	264 start = scanner.position() + 1;

	265 }

	266 }

	267 }

	268

	269 void RegExpFilter::InitJSTypes()

	270 {

	271 EM_ASM(exports.RegExpFilter.typeMap = {};);

	272 for (auto it = typeMap.begin(); it != typeMap.end(); ++it)

	273 EM_ASM_ARGS(exports.RegExpFilter.typeMap[readString($0).replace("-", "_").to UpperCase()] = $1, &(it->first), it->second);

	274 }

	275

	276 OwnedString RegExpFilter::RegExpFromSource(const String& source)

	277 {

	278 /* TODO: this is very inefficient */

	279

	280 // Note: This doesn't remove trailing wildcards, otherwise the result should

	281 // be identical to Filter.toRegExp().

	282 OwnedString result;

	283 String::value_type prevChar = u'*';

	284 for (String::size_type i = 0; i < source.length(); ++i)

	285 {

	286 String::value_type currChar = source[i];

	287 switch (currChar)

	288 {

	289 case u'*':

	290 if (prevChar != u'*')

	291 result.append(u".*"_str);

	292 break;

	293 case u'^':

	294 result.append(u"(?:[\\x00-\\x24\\x26-\\x2C\\x2F\\x3A-\\x40\\x5B-\\x5E\\x 60\\x7B-\\x7F]\|$)"_str);

	295 break;

	296 case u'\|':

	297 if (i == 0)

	298 {

	299 // Anchor at expression start, maybe extended anchor?

	300 if (i + 1 < source.length() && source[i + 1] == u'\|')

79 {	301 {

80 // Anchor at expression start, maybe extended anchor?	302 result.append(u"^[\\w\\-]+:\\/+(?!\\/)(?:[^\\/]+\\.)?"_str);

81 if (i + 1 < l && source[i + 1] == u'\|')	303 ++i;

82 {

83 result += u"^[\\w\\-]+:\\/+(?!\\/)(?:[^\\/]+\\.)?";

84 ++i;

85 }

86 else

87 result += u"^";

88 }

89 else if (i == l - 1)

90 {

91 // Anchor at expression end, ignore if following separator placehold er

92 if (prevChar != u'^')

93 result += u"$";

94 }	304 }

95 else	305 else

96 {	306 result.append(u'^');

97 // Not actually an anchor, escape it	307 }

98 result += u"\\\|";	308 else if (i == source.length() - 1)

99 }

100 break;

101 default:

102 if ((currChar >= u'a' && currChar <= u'z') \|\|

103 (currChar >= u'A' && currChar <= u'Z') \|\|

104 (currChar >= u'0' && currChar <= u'9') \|\|

105 currChar >= 128)

106 {

107 result += currChar;

108 }

109 else

110 {

111 result += u"\\";

112 result.append(1, currChar);

113 }

114 }

115 prevChar = currChar;

116 }

117 return EM_ASM_INT(return regexps.create($0, $1), &result, matchCase);

118 }

119 }

120

121 RegExpFilter::RegExpFilter(const std::u16string& text,

122 const std::u16string& pattern, const std::u16string& options)

123 : ActiveFilter(text, true), regexpId(0), contentType(-1), matchCase(false),

124 thirdParty(TrippleState::ANY)

125 {

126 int optionStart = 0;

127 int optionEnd = -1;

128 int valueStart = -1;

129 StringScanner scanner(options + u",");

130 while (!scanner.done())

131 {

132 switch (scanner.next())

133 {

134 case u'=':

135 if (optionEnd < 0)

136 {	309 {

137 optionEnd = scanner.position();	310 // Anchor at expression end, ignore if following separator placeholder

138 valueStart = optionEnd + 1;	311 if (prevChar != u'^')

	312 result.append(u'$');

	313 }

	314 else

	315 {

	316 // Not actually an anchor, escape it

	317 result.append(u"\\\|"_str);

139 }	318 }

140 break;	319 break;

141 case u',':	320 default:

142 if (optionEnd < 0)	321 if (!(currChar >= u'a' && currChar <= u'z') &&

143 optionEnd = scanner.position();	322 !(currChar >= u'A' && currChar <= u'Z') &&

144 ProcessOption(options, optionStart, optionEnd, valueStart, scanner.posit ion());	323 !(currChar >= u'0' && currChar <= u'9') &&

145 optionStart = scanner.position() + 1;	324 currChar < 128)

146 optionEnd = -1;

147 valueStart = -1;

148 break;

149 }

150 }

151 if (contentType < 0)

152 contentType = defaultTypeMask;

153

154 size_t len = pattern.length();

155 if (len >= 2 && pattern[0] == u'/' && pattern[len - 1] == u'/')

156 {

157 std::u16string param = pattern.substr(1, len - 2);

158 regexpId = EM_ASM_INT(return regexps.create($0, $1), &param, matchCase);

159

160 std::u16string* error = reinterpret_cast<std::u16string*>(EM_ASM_INT(return regexps.getError($0), regexpId));

161 if (error)

162 {

163 EM_ASM_ARGS(regexps.delete($0), regexpId);

164 throw std::u16string(*error);

165 }

166 }

167 else

168 regexpSource = pattern;

169 }

170

171 RegExpFilter::~RegExpFilter()

172 {

173 if (regexpId)

174 EM_ASM_ARGS(regexps.delete($0), regexpId);

175 }

176

177 void RegExpFilter::ProcessOption(const std::u16string& options,

178 int optionStart, int optionEnd, int valueStart, int valueEnd)

179 {

180 if (optionEnd <= optionStart)

181 return;

182

183 bool reverse = false;

184 if (options[optionStart] == u'~')

185 {

186 reverse = true;

187 optionStart++;

188 }

189

190 std::u16string name(options.substr(optionStart, optionEnd - optionStart));

191 for (size_t i = 0, l = name.length(); i < l; ++i)

192 {

193 char16_t currChar = name[i];

194 if (currChar >= u'a' && currChar <= u'z')

195 name[i] = currChar + u'A' - u'a';

196 else if (currChar == u'-')

197 name[i] = u'_';

198 }

199

200 auto it = typeMap.find(name);

201 if (it != typeMap.end())

202 {

203 if (contentType < 0)

204 contentType = reverse ? defaultTypeMask : 0;

205 if (reverse)

206 contentType &= ~it->second;

207 else

208 contentType \|= it->second;

209 }

210 else if (!name.compare(u"DOMAIN"))

211 {

212 if (valueStart >= 0 && valueEnd > valueStart)

213 ParseDomains(options.substr(valueStart, valueEnd - valueStart), u'\|');

214 }

215 else if (!name.compare(u"SITEKEY"))

216 {

217 if (valueStart >= 0 && valueEnd > valueStart)

218 {

219 StringScanner scanner(options.substr(valueStart, valueEnd - valueStart) + u"\|");

220 size_t start = 0;

221 while (!scanner.done())

222 {

223 if (scanner.next() == u'\|')

224 {	325 {

225 if (scanner.position() > start)	326 result.append(u'\\');

226 sitekeys.insert(options.substr(valueStart + start, scanner.position( ) - start));

227 start = scanner.position() + 1;

228 }	327 }

229 }	328 result.append(currChar);

230 }	329 }

231 }	330 prevChar = currChar;

232 else if (!name.compare(u"MATCH_CASE"))	331 }

233 matchCase = !reverse;	332 return result;

234 else if (!name.compare(u"THIRD_PARTY"))	333 }

235 thirdParty = reverse ? TrippleState::NO : TrippleState::YES;	334

236 else if (!name.compare(u"COLLAPSE"))	335 RegExpFilter::DomainMap* RegExpFilter::GetDomains() const

237 collapse = reverse ? TrippleState::NO : TrippleState::YES;	336 {

238 else	337 if (!mData.DomainsParsingDone())

239 throw std::u16string(u"Unknown option " + name);	338 {

240 }	339 ParseDomains(mData.GetDomainsSource(mText), u'\|');

241	340 mData.SetDomainsParsingDone();

242 Filter* RegExpFilter::Create(const std::u16string& text)	341 }

243 {	342 return ActiveFilter::GetDomains();

244 bool blocking = true;	343 }

245 size_t patternStart = 0;	344

246 if (!text.compare(0, 2, u"@@"))	345 RegExpFilter::SitekeySet* RegExpFilter::GetSitekeys() const

247 {	346 {

248 blocking = false;	347 if (!mData.SitekeyParsingDone())

249 patternStart = 2;	348 {

250 }	349 ParseSitekeys(mData.GetSitekeysSource(mText));

251	350 mData.SetSitekeysParsingDone();

252 size_t patternEnd = text.find(u'$', patternStart);	351 }

253 size_t patternLength = (patternEnd != std::u16string::npos ?	352 return ActiveFilter::GetSitekeys();

254 patternEnd - patternStart : patternEnd);	353 }

255 std::u16string pattern(text.substr(patternStart, patternLength));	354

256 std::u16string options(patternEnd != std::u16string::npos ?	355 bool RegExpFilter::Matches(const String& location, int typeMask,

257 text.substr(patternEnd + 1) : u"");	356 DependentString& docDomain, bool thirdParty, const String& sitekey) const

258	357 {

259 try	358 if (!(mData.mContentType & typeMask) \|\|

260 {	359 (mData.mThirdParty == TrippleState::YES && !thirdParty) \|\|

261 if (blocking)	360 (mData.mThirdParty == TrippleState::NO && thirdParty) \|\|

262 return new RegExpFilter(text, pattern, options);

263 else

264 return new WhiteListFilter(text, pattern, options);

265 }

266 catch (const std::u16string& reason)

267 {

268 return new InvalidFilter(text, reason);

269 }

270 }

271

272 void RegExpFilter::InitJSTypes()

273 {

274 for (auto it = typeMap.begin(); it != typeMap.end(); ++it)

275 EM_ASM_ARGS(Module.RegExpFilter_typeMap[getStringData($0)] = $1, &(it->first ), it->second);

276 }

277

278 Filter::Type RegExpFilter::GetType() const

279 {

280 return Type::BLOCKING;

281 }

282

283 bool RegExpFilter::Matches(const std::u16string& location, int typeMask,

284 const std::u16string& docDomain, bool thirdParty,

285 const std::u16string& sitekey)

286 {

287 if (!(this->contentType & typeMask) \|\|

288 (this->thirdParty == TrippleState::YES && !thirdParty) \|\|

289 (this->thirdParty == TrippleState::NO && thirdParty) \|\|

290 !IsActiveOnDomain(docDomain, sitekey))	361 !IsActiveOnDomain(docDomain, sitekey))

291 {	362 {

292 return false;	363 return false;

293 }	364 }

294	365

295 if (!regexpId)	366 if (!mData.RegExpParsingDone())

296 {	367 {

297 regexpId = GenerateRegExp(regexpSource, matchCase);	368 const OwnedString pattern(mData.GetRegExpSource(mText));

298 regexpSource.resize(0);	369 mData.SetRegExp(GenerateRegExp(RegExpFromSource(pattern), mData.mMatchCase)) ;

299 }	370 }

300 return EM_ASM_INT(return regexps.test($0, $1), regexpId, &location);	371 return EM_ASM_INT(return regexps.test($0, $1), mData.mRegexpId, &location);

301 }	372 }

LEFT	RIGHT