Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Категории несловарных слов #873

Open
victorbocharov opened this issue Jun 22, 2020 · 9 comments
Open

Категории несловарных слов #873

victorbocharov opened this issue Jun 22, 2020 · 9 comments
Assignees

Comments

@victorbocharov
Copy link
Contributor

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335

Категории:

  1. ADJF Anum
  • ^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917

Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.

  1. Даты
  • ^[0123]?\d.[0123]\d.[12]\d\d\d$
  • ^[0123]?\d-[0123]\d-[12]\d\d\d$
  • ^[0123]?\d.[0123]\d.\d\d$
  • ^[0123]?\d-[0123]\d-\d\d$
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221
  1. Время
  • ^[012]\d:[012]\d:[012]\d$
  • ^[012]\d:[012]\d$
  1. Счёт (результат спортивного соревнования)
  • ^\d$:\d+$
  1. ADJF
  • ^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания
  1. 18-летие / 18-летье
  • ^\d+-лет[ьи].+$
  1. URL
  • ^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
  • ^www.[\w\d]+[\w\d.-]+[\w\d]+
  1. e-mail
  • ^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит
  1. ISBN
  • ^\d+-\d+-\d+-[\dX]$
  • ^(978|979)-\d+-\d+-\d+-[\dX]$
  1. β-блокаторов / α-гликозидазы
  • ^\p{Greek}-[А-Яёа-яё]+$
@grandsbor
Copy link
Member

grandsbor commented Jun 22, 2020

18-летие / 18-летье

По-моему, это словарные слова. Как "1-й".

@grandsbor
Copy link
Member

Добавил DATE и TIME.

grandsbor added a commit that referenced this issue Jul 8, 2020
grandsbor added a commit that referenced this issue Jul 8, 2020
@grandsbor
Copy link
Member

grandsbor commented Jul 8, 2020

Предлагаю добавить в SYMB:

  • токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,
  • иероглифы.

@victorbocharov
Copy link
Contributor Author

Предлагаю добавить в SYMB:

* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,

* иероглифы.

так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).

@grandsbor
Copy link
Member

Предлагай свой вариант :)

@victorbocharov
Copy link
Contributor Author

victorbocharov commented Jul 10, 2020

Предлагаю на том же уровне, что POST (т.е. без родителя) завести

  • помету FRGN
  • его дочерние пометы:
    • LATN (её, кажется, в списке граммем нет),
    • HANI - иероглифы
    • GREK
    • ARAB
    • HERB
    • ... (можно и далее вдохновляться https://en.wikipedia.org/wiki/ISO_15924 , если потребуется)

@victorbocharov
Copy link
Contributor Author

Смесь греческого и латиницы у нас выглядит вот так:

      7 1986U2R/ζ
      2 hν
      1 Nρ 
      1 mEξ
      1 mEη
      1 ehν
      1 3Rhν

У меня пока нет идей, как с ними поступить.

@svbichineva
Copy link

Может, создать MIXD для смешения разных символов?

@grandsbor
Copy link
Member

Сделал HANI и GREK.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants