BRITISH ENGLISH lessons by Anton Brejestovski

Hoping this blog will help you a bit if you're learning English...

Previous Entry Share Next Entry
Взяли мы тут 27000 английских книг. Разделили их на слова. Получилось 16 миллиардов букв.
Anton
brejestovski

Взяли мы тут 27000 английских книг. Разделили их на слова. Получилось 16 миллиардов букв. А потом стали делать разные интересные штуки с этими словами. А заоодно обнаружили кучу занятной информации.

Вот, например:

Десять самых часто встречающихся слов:

1 - the (с большим отрывом - 125 миллионов раз)

2 - and (59 миллионов раз)
3 - to
4 - of
5 - he (шовинизм: слово "she" - на 14 месте)
6 - was
7 - in
8 - it
9 - not
10 - you (26 миллионов раз)


Как видите, ни одного существительного или прилагательного.

А знаете, когда в этом списке появляется первое существительное? Оно лишь на 68 месте. А какое? Оказывается, самое часто употребительное существительное английского языка - TIME.


А первое прилагательное и того ниже - на 110 месте. Это слово GOOD.

И что в этом удивительного? )

удивительно то, что столько английских книг не существует

а где слово 'a'?

А правда, где "а"?
Или за слова принимались последовательности длиной не меньше двух букв?

Наверно, как мелодия - должно быть хотя бы две ноты :)

нужен совет специалиста

Простите, что не по теме...Позвольте роботу спросить:

"the whispers in the morning of lovers sleeping tight"
слова из популярной песни...
Это семантическая ошибка ( так как спящие не могут шептаться?

Если бы они проснулись и это было бы очевидно, конструкция фразы была бы иной??

Edited at 2015-10-24 09:56 pm (UTC)

sleeping означает не только спать, но и заниматься любовью

Интересно, а в русском как?

Если делить по словарю Даля, получится нецензурная пословица из 27 букв.


ничего не поняла

разделили на слова, получили буквы, а "потом стали делать разные интересные штуки с этими словами"


всё это делается программно
разобрали по словам все эти книги, получили статистическую выборку
а потом разной сложности запросами получают разную информацию

а как выглядят топ-10 существительных, прилагательных и глаголов по отдельности?

Все это было уже сделано 100 лет назад, причем многократно.
Выпускаются и печатаются даже целые частотные словари (frequency dictionaries).







Существительные

Глаголы

Прилагательные

Занятная информация))

занятно. есть и словарь частотности словоупотребления. как то лет 10 назад изучал одну темку, сравнивал слова родина в русском языке и родина (homeland) в английском сейчас уже не помню но в русском это слово имело значительно более высокую частотность словоупотребления

А потому что homeland - это не Родина в русском понимании, а буквально, "земля, где дом". Родина в русском понимании не имеет земельной подоплеки вообще. Это дух. Тут американские индейцы с их миром духов ближе к русским. Их Дух Предков имеет схожее значение.

Это ерунда. Если считать подобным образом, в английском будет только один бессмысленный мусор. Есть генераторы случайных предложений типа dadadodo. Я как-то баловался одно время. Правда, чего внятного, он вряд ли напишет, а то, чего напишет, особо не разберешь. Тогда я свой генератор придумал, который пишет слова в столбик, и предложения можно читать по горизонтали, вертикали и диагонали. Результата один и тот же - бессмысленный набор слов. Так что на своем опыте, я могу сказать, что лучший способ учить английский - это читать классиков - Диккенса или Джека Лондона. Марк Твен - тяжеловат для восприятия. У него много специфических диалектизмов. Так вот классический английский - это совсем другой язык.

Глубокоуважаемый знаток,

Может ознакомитесь, что пишут по сабджекту случайные люди, которые такому видному специалисту как вы даже в подметки не годятся?

Не люблю английский...

звук ущербных людей без зубов после чумы

ха, выучить одни артикли, и говори:)

Один кабалист вот тоже тетраграмон так требушил ... Вызвал в конце концов четырех буквенного Иегову. А тот даром что гневливый, да ещё не в духе оказался.

Выложите полный результат анализа ))

как он может его выложить, если это анализ - вовсе не он и не "мы" делапи

это сделали ребята из Гугль, пару лет назад

Интересно. Продолжайте.

не совсем понял к чему этот вброс )

Эллочка была мастером красноречия.

Ду уж. Примитивный и ущербный. В нем и число слов намного меньше.

К тати, возьмите серию книг английских типа " учусь читать". В издании 56 года, переизданном сто раз с тех пор, называемом " Key words with Peter and Jane" первыми идут именно предлоги, как самые высокочастотные. Me, I, can, do, like- для составления предложений.

Надо упразднить артикль.
Это существенно сэкономит бумагу.

+1 если надо есть слово this

he was in it not you

Офигеть, не прошло и ста лет, как титаны мысли заново изобрели частотный словарь. Сенсация, шок.

Вполне логично. Английский - язык аналитического строя, изобилующий связками, местоимениями и предлогами. А ещё определителями, типа артиклей, притяжательных и указательных местоимений. Поэтому их очень много. А вовсе не потому, что язык бедный, как утверждают некоторые "эксперты".

А где ваш частотный словарь скачать можно?

Есть Гугловский сервис (Google Ngram Viewer), который позволяет оценивать частоту встречаемости слов в зависимости от года издания книг. На материале русских книг тоже работает.

Я вот для некоторых слов строила графики, забавная статистика получается. Например, слово "любовь" сто лет назад в русской литературе встречалась почти в два раза чаще, чем наше время. А вот слово "ненависть" почти на таком же уровне.

?

Log in

No account? Create an account