8
|
1 |
locale=en:
|
|
2 |
Analyzer "
|
|
3 |
locale_switch {
|
|
4 |
case 'en': stdtokens>stdfilter>lowercase>stop(en);
|
|
5 |
case 'th': stdtokens>stdfilter>lowercase>thai>stop(en);
|
|
6 |
case 'ca': stdtokens>stdfilter>lowercase>accent;
|
|
7 |
default: stdtokens>stdfilter>lowercase;
|
|
8 |
}":
|
|
9 |
File !:\data\cpixunittestcorpus\stem\en\1.txt tokenized:
|
|
10 |
'i' 'am' 'happy'
|
|
11 |
File !:\data\cpixunittestcorpus\stem\en\2.txt tokenized:
|
|
12 |
'oh' 'happiness'
|
|
13 |
File !:\data\cpixunittestcorpus\stem\en\3.txt tokenized:
|
|
14 |
'nothing' 'important' 'here' 'so' 'don't' 'even' 'look' 'because' 'you' 'shall' 'find' 'nothing' 'whatsoever'
|
|
15 |
File !:\data\cpixunittestcorpus\stem\en\4.txt tokenized:
|
|
16 |
'what' 'happening' 'here'
|
|
17 |
File !:\data\cpixunittestcorpus\stem\fi\1.txt tokenized:
|
|
18 |
'juon' 'nyt' 'teetä'
|
|
19 |
File !:\data\cpixunittestcorpus\stem\fi\2.txt tokenized:
|
|
20 |
'tee' 'näin'
|
|
21 |
File !:\data\cpixunittestcorpus\loc\th\1.txt tokenized:
|
24
|
22 |
'ปรากฏการณ์ฝนดาวตก' '7' '-18พ' 'ยนี้' 'นายวรวิทย์' 'ตันวุฒิบัณฑิต' 'ปราชญ์ภูมิปัญญาท้องถิ่นด้านดาราศาสตร์ไทยกล่าวว่า' '17' '-18' 'พฤศจิกายน' '2552'
|
8
|
23 |
File !:\data\cpixunittestcorpus\loc\th\2.txt tokenized:
|
|
24 |
'จะมีปรากฏการณ์ดาราศาสตร์ครั้งสำคัญที่ชาวไทยเคยประทับใจมาแล้วเมื่อปี' '2541' '-2544' 'คือในคืนวันที่' '17' 'ต่อเนื่องวันที่' '18' 'พฤศจิกายน' '2552'
|
|
25 |
|
|
26 |
|
|
27 |
locale=th:
|
|
28 |
Analyzer "
|
|
29 |
locale_switch {
|
|
30 |
case 'en': stdtokens>stdfilter>lowercase>stop(en);
|
|
31 |
case 'th': stdtokens>stdfilter>lowercase>thai>stop(en);
|
|
32 |
case 'ca': stdtokens>stdfilter>lowercase>accent;
|
|
33 |
default: stdtokens>stdfilter>lowercase;
|
|
34 |
}":
|
|
35 |
File !:\data\cpixunittestcorpus\stem\en\1.txt tokenized:
|
|
36 |
'i' 'am' 'happy'
|
|
37 |
File !:\data\cpixunittestcorpus\stem\en\2.txt tokenized:
|
|
38 |
'oh' 'happiness'
|
|
39 |
File !:\data\cpixunittestcorpus\stem\en\3.txt tokenized:
|
|
40 |
'nothing' 'important' 'here' 'so' 'don't' 'even' 'look' 'because' 'you' 'shall' 'find' 'nothing' 'whatsoever'
|
|
41 |
File !:\data\cpixunittestcorpus\stem\en\4.txt tokenized:
|
|
42 |
'what' 'happening' 'here'
|
|
43 |
File !:\data\cpixunittestcorpus\stem\fi\1.txt tokenized:
|
|
44 |
'juon' 'nyt' 'teetä'
|
|
45 |
File !:\data\cpixunittestcorpus\stem\fi\2.txt tokenized:
|
|
46 |
'tee' 'näin'
|
|
47 |
File !:\data\cpixunittestcorpus\loc\th\1.txt tokenized:
|
24
|
48 |
'ปรากฏการณ์' 'ฝน' 'ดาวตก' '7' '-18พ' 'ยนี' '้' 'นาย' 'วรวิท' 'ย์' 'ตัน' 'วุฒิ' 'บัณฑิต' 'ปราชญ์' 'ภูมิปัญญา' 'ท้อง' 'ถิ่น' 'ด้าน' 'ดาราศาสตร์' 'ไทย' 'กล่าว' 'ว่า' '17' '-18' 'พฤศจิกายน' '2552'
|
8
|
49 |
File !:\data\cpixunittestcorpus\loc\th\2.txt tokenized:
|
|
50 |
'จะ' 'มี' 'ปรากฏการณ์' 'ดาราศาสตร์' 'ครั้ง' 'สำคัญ' 'ที่' 'ชาว' 'ไทย' 'เคย' 'ประทับ' 'ใจมา' 'แล้ว' 'เมื่อ' 'ปี' '2541' '-2544' 'คือ' 'ใน' 'คืน' 'วัน' 'ที่' '17' 'ต่อ' 'เนื่อง' 'วัน' 'ที่' '18' 'พฤศจิกายน' '2552'
|
|
51 |
|
|
52 |
|
|
53 |
locale=ca:
|
|
54 |
Analyzer "
|
|
55 |
locale_switch {
|
|
56 |
case 'en': stdtokens>stdfilter>lowercase>stop(en);
|
|
57 |
case 'th': stdtokens>stdfilter>lowercase>thai>stop(en);
|
|
58 |
case 'ca': stdtokens>stdfilter>lowercase>accent;
|
|
59 |
default: stdtokens>stdfilter>lowercase;
|
|
60 |
}":
|
|
61 |
File !:\data\cpixunittestcorpus\stem\en\1.txt tokenized:
|
|
62 |
'i' 'am' 'happy'
|
|
63 |
File !:\data\cpixunittestcorpus\stem\en\2.txt tokenized:
|
|
64 |
'oh' 'happiness'
|
|
65 |
File !:\data\cpixunittestcorpus\stem\en\3.txt tokenized:
|
|
66 |
'nothing' 'important' 'in' 'here' 'so' 'don't' 'even' 'look' 'because' 'you' 'shall' 'find' 'nothing' 'whatsoever'
|
|
67 |
File !:\data\cpixunittestcorpus\stem\en\4.txt tokenized:
|
|
68 |
'what' 'is' 'happening' 'here'
|
|
69 |
File !:\data\cpixunittestcorpus\stem\fi\1.txt tokenized:
|
|
70 |
'juon' 'nyt' 'teeta'
|
|
71 |
File !:\data\cpixunittestcorpus\stem\fi\2.txt tokenized:
|
|
72 |
'tee' 'nain'
|
|
73 |
File !:\data\cpixunittestcorpus\loc\th\1.txt tokenized:
|
24
|
74 |
'ปรากฏการณ์ฝนดาวตก' '7' '-18พ' 'ยนี้' 'นายวรวิทย์' 'ตันวุฒิบัณฑิต' 'ปราชญ์ภูมิปัญญาท้องถิ่นด้านดาราศาสตร์ไทยกล่าวว่า' '17' '-18' 'พฤศจิกายน' '2552'
|
8
|
75 |
File !:\data\cpixunittestcorpus\loc\th\2.txt tokenized:
|
|
76 |
'จะมีปรากฏการณ์ดาราศาสตร์ครั้งสำคัญที่ชาวไทยเคยประทับใจมาแล้วเมื่อปี' '2541' '-2544' 'คือในคืนวันที่' '17' 'ต่อเนื่องวันที่' '18' 'พฤศจิกายน' '2552'
|
|
77 |
|
|
78 |
|
|
79 |
default locale:
|
|
80 |
Analyzer "
|
|
81 |
locale_switch {
|
|
82 |
case 'en': stdtokens>stdfilter>lowercase>stop(en);
|
|
83 |
case 'th': stdtokens>stdfilter>lowercase>thai>stop(en);
|
|
84 |
case 'ca': stdtokens>stdfilter>lowercase>accent;
|
|
85 |
default: stdtokens>stdfilter>lowercase;
|
|
86 |
}":
|
|
87 |
File !:\data\cpixunittestcorpus\stem\en\1.txt tokenized:
|
|
88 |
'i' 'am' 'happy'
|
|
89 |
File !:\data\cpixunittestcorpus\stem\en\2.txt tokenized:
|
|
90 |
'oh' 'happiness'
|
|
91 |
File !:\data\cpixunittestcorpus\stem\en\3.txt tokenized:
|
|
92 |
'nothing' 'important' 'in' 'here' 'so' 'don't' 'even' 'look' 'because' 'you' 'shall' 'find' 'nothing' 'whatsoever'
|
|
93 |
File !:\data\cpixunittestcorpus\stem\en\4.txt tokenized:
|
|
94 |
'what' 'is' 'happening' 'here'
|
|
95 |
File !:\data\cpixunittestcorpus\stem\fi\1.txt tokenized:
|
|
96 |
'juon' 'nyt' 'teetä'
|
|
97 |
File !:\data\cpixunittestcorpus\stem\fi\2.txt tokenized:
|
|
98 |
'tee' 'näin'
|
|
99 |
File !:\data\cpixunittestcorpus\loc\th\1.txt tokenized:
|
24
|
100 |
'ปรากฏการณ์ฝนดาวตก' '7' '-18พ' 'ยนี้' 'นายวรวิทย์' 'ตันวุฒิบัณฑิต' 'ปราชญ์ภูมิปัญญาท้องถิ่นด้านดาราศาสตร์ไทยกล่าวว่า' '17' '-18' 'พฤศจิกายน' '2552'
|
8
|
101 |
File !:\data\cpixunittestcorpus\loc\th\2.txt tokenized:
|
|
102 |
'จะมีปรากฏการณ์ดาราศาสตร์ครั้งสำคัญที่ชาวไทยเคยประทับใจมาแล้วเมื่อปี' '2541' '-2544' 'คือในคืนวันที่' '17' 'ต่อเนื่องวันที่' '18' 'พฤศจิกายน' '2552'
|
|
103 |
|