Меню Рубрики

1000 существительных русского языка

1000 существительных русского языка

БлогNot. Все существительные русского языка в простом формате

Все существительные русского языка в простом формате

Готового файла в нужном мне простейшем и удобном формате (простой текст, одно слово — одна строка) не нашёл, пришлось сделать самому.

Для начала я взял «все» слова русского языка с указанием части речи, числа, рода и падежа, то есть, морфологический словарь русского языка по Хагену, вот отсюда (hagen-morph.rar). Развёрнутый файл .txt будет более 200 Мб, так что поосторожней с «Блокнотиками», если его скачаете 🙂

Потом я простенько отобрал оттуда существительные по формальному указанию файла словаря, вот код на PHP:

Предполагается, что развёрнутый словарь «лежит» под именем 1.txt в папке скрипта, а вывод писался в файл 2.txt .

Символы конца строк — CR/LF, то есть, в формате для Windows. Скрипт может выполняться до 10 секунд, но из-за нехватки памяти «зависать» не должен, так как не пытается засунуть весь файл в оперативку, а читает его построчно.

«Вытащить» только единственное число существительных пришлось вторым маленьким кодом:

Качество отбора «единственного числа» здесь невысоко, скрипт выполнялся на локальном хосте «Денвер».

Можете исключить из получившегося второго словаря что-то ещё, это легко сделать даже с помощью функций startsWith и endsWith из приведённого кода. Например, вот так можно вывести все слова, заканчивающиеся на «ые»:

В реальности исключать такие слова не стоит, ведь окончание «ие» или «ые» может означать не совсем «множественное число», а что-то вроде «русские как нация«, группа «Младшенькие» или отряд «Куриные».

В файлах, разумеется, нет имён, географических названий и т.п. Буквы «ё» тоже нигде нет, как и в исходном словаре.

Скачать файлы .txt в архиве .zip (перекодированы в кодировку utf-8 Юникода!)

Более 125 тысяч русских существительных в именительном падеже (единственное и множественное число, мужской и женский род) (413 Кб)

Более 67 тысяч русских существительных в именительном падеже (единственное число, мужской и женский род) (260 Кб)

Источник статьи: http://blog.kislenko.net/show.php?id=1678

1000 существительных русского языка

Комментарии

Словарь, имхо, достаточно бесполезный, т.к. слова, встречающиеся в русском языке с совершенно разной частотой, в данном словаре встречаются с одинаковой.

Частотный словарь русского языка, например, говорит, что слова быть, что, тот (входящие в топ-10 по частоте) встречаются более 10к раз на миллион слов корпуса, а слова берлин и хоббит 31 и 28 раз соответственно. В данном словаре, повторюсь, они встречаются одинаково часто.

Переборыч, пожалуйста, в воскресную задачу дня включай более полезные словари!

Источник статьи: http://klavogonki.ru/vocs/203/

База данных русских слов — существительные

Здесь представлены две выборки из общей базы морфологии слов русского языка. Одна выборка включает в себя существительные вместе со словоформами, а другая — только существительные в именительном падеже ед. числа.

Скачать SQL скрипт можно с github. Переходим, жмем download.

words-russian-nouns.sql.gz — база существительных без морфологии, таблица nouns.

words-russian-nouns-morf.sql.gz — база существительных с морфологией, таблица nouns_morf.

Описание таблицы nouns

Содержит 65500 существительных в именительном падеже, ед. числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’) — только именительный падеж или NULL для слов, которые не имеют падежных форм. Последние — это в своём большинстве заимствованные иностранные слова.
  • soul, boolean — признак одушевленности.

Описание таблицы nouns_morf

Содержит 767,694 словоформ существительных русского языка, в том числе во множественном числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’,’зват’,’парт’,’мест’, ’счет’) — 10 падежей. Кроме шести хорошо известных из школьного курса: именительного, родительного, дательного, винительного, творительного и предложного, есть ещё 4 падежа — звательный, счетный падеж (счетная форма), партитив и местный пажеж — локатив.
  • soul, boolean — признак одушевленности.

Данная запись опубликована в 13.03.2017 21:38 и размещена в На первой полосе. Вы можете перейти в конец страницы и оставить ваш комментарий.

Мало букафф? Читайте есчо !

Частицы в русском языке, скачать как SQL дамп

Список частиц извлечен из полной базы морфологии слов русского языка. Никаких изменений в морфологии частицы не предполагают, потому получился простой список. SQL скрипт размещен на github. Переходим, ищем words-russian-particles, жмем download. .

Источник статьи: http://shra.ru/2017/03/baza-dannykh-russkikh-slov-sushhestvitelnye/

1000 существительных русского языка

Самое длинное слово русского языка — Решение проблемы того, какое слово в русском языке является самым длинным (и даже ответ на вопрос о том, имеет ли вообще эта проблема решение), зависит от нескольких факторов. Содержание 1 Критерии 2 Условия выбора 2.1 Форма слов … Википедия

Национальный корпус русского языка — URL: http://ruscorpora.ru/ Коммерческий: нет Тип сайта: образовательный/научный проект Реги … Википедия

Частотный словарь — (или частотный список) набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов… … Википедия

Русский язык — У этого термина существуют и другие значения, см. Русский язык (значения). Русский язык Произношение: ˈruskʲɪj jɪˈzɨk … Википедия

Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле: где Freqx частотность слова «x», Qx количество словоупотреблений слова «x», Qall общее количество словоупотреблений. В… … Википедия

НКРЯ — Национальный корпус русского языка общедоступный для поиска электронный онлайновый корпус русских текстов. Открыт 29 апреля 2004 в Интернете по адресу http://ruscorpora.ru/. Содержание 1 Составители 2 Состав корпуса … Википедия

словарь лингвистический — Словарь, в котором дается разъяснение значения и употребления слов (в отличие от энциклопедического словаря, сообщающего сведения о соответствующих реалиях предметах, явлениях, событиях). Диалектный (областной) словарь. Словарь, содержащий… … Словарь лингвистических терминов

Медицина — I Медицина Медицина система научных знаний и практической деятельности, целями которой являются укрепление и сохранение здоровья, продление жизни людей, предупреждение и лечение болезней человека. Для выполнения этих задач М. изучает строение и… … Медицинская энциклопедия

Источник статьи: http://dic.academic.ru/dic.nsf/ruwiki/269629

Самые частые слова русского языка

Задумывались ли вы над тем, какие слова в русском языке мы используем чаще всего? Кажется, что подсчитать это ничуть не проще, чем выяснить количество песчинок на пляже и звезд во вселенной.

Но неугомонные ученые умудряются проводить даже такие исследования. Вполне ожидаемо самыми частыми оказались служебные слова — предлоги, союзы. А также местоимения. Если нужны примеры, то можем сказать, что самым частым словом является союз «и». На втором месте предлог «в». На третьем — союз «но».

Но! Это слишком предсказуемо, а потому не так интересно. Гораздо любопытнее, какие существительные попали в разряд самых частотных. Приведем здесь топ-10 рекордсменов.

Но для начала немного расскажем о методике, которую применили лингвисты. Для определения наиболее используемых слов ими был задействован «Национальный корпус русского языка». Что за корпус такой? О, это осуществление вековой мечты отечественных языковедов и литературоведов!

По сути, корпус это электронное хранилище большинства произведений, созданных на русском языке. Романы, пьесы, стихи, мемуары, письма, публицистика, газетные статьи. И даже текстовые расшифровки публичных докладов и устных бесед (в тех случаях, когда были доступны аудиозаписи).

В «Национальном корпусе русского языка» на сегодняшний день собрано 342 тысячи текстов. Электронный анализ этих текстов позволил составить рейтинг самых употребляемых слов русского языка.

Итак, давайте заглянем в категорию «Существительные» и узнаем, какие слова там находятся на первых десяти позициях.

Мы добрались почти до самой вершины. Как вы думаете, какое существительное оказалось самым популярным? Угадать очень трудно, хотя возможно, даже символично, что именно это слово оказалось на первом месте.

Напишите нам в комментариях, какие слова в приведенном списке вы не ожидали встретить!

Ваши лайки и подписка на канал помогут выходу новых статей!

Источник статьи: http://zen.yandex.ru/media/litinteres/samye-chastye-slova-russkogo-iazyka-5c42d3804d404000adabab62


0 0 голоса
Article Rating
Подписаться
Уведомить о
guest

0 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии