stopwords does't work #95

wukonggeo · 2024-12-25T03:14:05Z

wukonggeo
Dec 25, 2024

text = ["黄山为三山五岳中三山之一，五岳归来不看山,黄山归来不看岳。", "华山是一个很好旅游景点，人们常常去爬华山。"]
tids = bm25s.tokenize(text, stopwords="zh")
print(tids)
------log------
Tokenized(ids=[[0, 1, 2], [3, 4]], vocab={'黄山为三山五岳中三山之一': 0, '五岳归来不看山': 1, '黄山归来不看岳': 2, '华山是一个很好旅游景点': 3, '人们常常去爬华山': 4})

tids = bm25s.tokenize(text, stopwords=["是", "好"])
print(tids)
------log------
Tokenized(ids=[[0, 1, 2], [3, 4]], vocab={'黄山为三山五岳中三山之一': 0, '五岳归来不看山': 1, '黄山归来不看岳': 2, '华山是一个很好旅游景点': 3, '人们常常去爬华山': 4})

Stopwords does't work.

xhluca · 2024-12-27T20:45:31Z

xhluca
Dec 27, 2024
Maintainer

The tokenizer currently does not parse Chinese. I think stop words might work for Chinese but you need a custom splitter like jieba; I have not tried yet. If you have a working example please share here!

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

stopwords does't work #95

{{title}}

Replies: 1 comment

{{title}}

Select a reply

stopwords does't work #95

wukonggeo Dec 25, 2024

tids = bm25s.tokenize(text, stopwords=["是", "好"]) print(tids) ------log------ Tokenized(ids=[[0, 1, 2], [3, 4]], vocab={'黄山为三山五岳中三山之一': 0, '五岳归来不看山': 1, '黄山归来不看岳': 2, '华山是一个很好旅游景点': 3, '人们常常去爬华山': 4})

Replies: 1 comment

xhluca Dec 27, 2024 Maintainer

wukonggeo
Dec 25, 2024

tids = bm25s.tokenize(text, stopwords=["是", "好"])
print(tids)
------log------
Tokenized(ids=[[0, 1, 2], [3, 4]], vocab={'黄山为三山五岳中三山之一': 0, '五岳归来不看山': 1, '黄山归来不看岳': 2, '华山是一个很好旅游景点': 3, '人们常常去爬华山': 4})

xhluca
Dec 27, 2024
Maintainer