BRITISH ENGLISH lessons by Anton Brejestovski

Hoping this blog will help you a bit if you're learning English...

Previous Entry Share Next Entry
Взяли мы тут 27000 английских книг. Разделили их на слова. Получилось 16 миллиардов букв.
Anton
brejestovski

Взяли мы тут 27000 английских книг. Разделили их на слова. Получилось 16 миллиардов букв. А потом стали делать разные интересные штуки с этими словами. А заоодно обнаружили кучу занятной информации.

Вот, например:

Десять самых часто встречающихся слов:

1 - the (с большим отрывом - 125 миллионов раз)

2 - and (59 миллионов раз)
3 - to
4 - of
5 - he (шовинизм: слово "she" - на 14 месте)
6 - was
7 - in
8 - it
9 - not
10 - you (26 миллионов раз)


Как видите, ни одного существительного или прилагательного.

А знаете, когда в этом списке появляется первое существительное? Оно лишь на 68 месте. А какое? Оказывается, самое часто употребительное существительное английского языка - TIME.


А первое прилагательное и того ниже - на 110 месте. Это слово GOOD.

И что в этом удивительного? )

удивительно то, что столько английских книг не существует

а где слово 'a'?

А правда, где "а"?
Или за слова принимались последовательности длиной не меньше двух букв?

Наверно, как мелодия - должно быть хотя бы две ноты :)

нужен совет специалиста

Простите, что не по теме...Позвольте роботу спросить:

"the whispers in the morning of lovers sleeping tight"
слова из популярной песни...
Это семантическая ошибка ( так как спящие не могут шептаться?

Если бы они проснулись и это было бы очевидно, конструкция фразы была бы иной??

Edited at 2015-10-24 09:56 pm (UTC)

sleeping означает не только спать, но и заниматься любовью

Интересно, а в русском как?

Если делить по словарю Даля, получится нецензурная пословица из 27 букв.

всё это делается программно
разобрали по словам все эти книги, получили статистическую выборку
а потом разной сложности запросами получают разную информацию

а как выглядят топ-10 существительных, прилагательных и глаголов по отдельности?

Все это было уже сделано 100 лет назад, причем многократно.
Выпускаются и печатаются даже целые частотные словари (frequency dictionaries).







Существительные

Глаголы

Прилагательные

Занятная информация))

занятно. есть и словарь частотности словоупотребления. как то лет 10 назад изучал одну темку, сравнивал слова родина в русском языке и родина (homeland) в английском сейчас уже не помню но в русском это слово имело значительно более высокую частотность словоупотребления

А потому что homeland - это не Родина в русском понимании, а буквально, "земля, где дом". Родина в русском понимании не имеет земельной подоплеки вообще. Это дух. Тут американские индейцы с их миром духов ближе к русским. Их Дух Предков имеет схожее значение.

Это ерунда. Если считать подобным образом, в английском будет только один бессмысленный мусор. Есть генераторы случайных предложений типа dadadodo. Я как-то баловался одно время. Правда, чего внятного, он вряд ли напишет, а то, чего напишет, особо не разберешь. Тогда я свой генератор придумал, который пишет слова в столбик, и предложения можно читать по горизонтали, вертикали и диагонали. Результата один и тот же - бессмысленный набор слов. Так что на своем опыте, я могу сказать, что лучший способ учить английский - это читать классиков - Диккенса или Джека Лондона. Марк Твен - тяжеловат для восприятия. У него много специфических диалектизмов. Так вот классический английский - это совсем другой язык.

Глубокоуважаемый знаток,

Может ознакомитесь, что пишут по сабджекту случайные люди, которые такому видному специалисту как вы даже в подметки не годятся?

Не люблю английский...

звук ущербных людей без зубов после чумы

ха, выучить одни артикли, и говори:)

Один кабалист вот тоже тетраграмон так требушил ... Вызвал в конце концов четырех буквенного Иегову. А тот даром что гневливый, да ещё не в духе оказался.

Выложите полный результат анализа ))

как он может его выложить, если это анализ - вовсе не он и не "мы" делапи

это сделали ребята из Гугль, пару лет назад

?

Log in

No account? Create an account