Компьютеры Windows Интернет

Кластеризация и визуализация текстовой информации. Кластеризация и визуализация текстовой информации Визуализация информации в текстовых документах

САМОЕ ГЛАВНОЕ

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).

Всевозможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный - когда порядок следования пунктов в нём не важен. По структуре различают одноуровневые и многоуровневые списки.

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов и строк. Представленная в таблице информация наглядна, компактна и легкообозрима.


В современных текстовых процессорах предусмотрены возможности включения, обработки и создания графических объектов.

Вопросы и задания

1. С какой целью разработчики включают в текстовые документы списки, таблицы, графические изображения?

2. Для чего используются списки? Приведите примеры.

3. Сравните нумерованные и маркированные списки. Что у них общего? В чём различие?

4. Какой список называется многоуровневым? Приведите пример такого списка?

5. Какая информация может быть организована в табличной форме? Какие преимущества обеспечивает табличное представле ние информации?

6. Каких правил следует придерживаться при оформлении таблиц?

7. Какие графические объекты могут быть включены в текстовый документ?

8. Перечислите основные возможности текстовых процессоров по работе с графическими объектами.

Инструменты распознавания текстов

И компьютерного перевода

Ключевые слова;

Программы распознавания документов

Компьютерные словари

Программы-переводчики

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.

4.5.1. Программы оптического

Распознавания документов

Очень часто возникает необходимость ввести в компьютер несколь ко страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую ин формацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьюте ра текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.



Вычислим общее количество символов в романе: 590 48 53 1 500 960 (симв.).

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500960: 150 10000 (мин.). А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является АВВУУ FineReader. Упрощённо работу с подобными программами можно представить так:

1. Бумажный носитель помещается под крышку сканера.


В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, табли цы, картинки и т. п. Строки разбиваются на слова, а слова - на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр. хранящи мися в её памяти. Программа рассматривает различные вариан ты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распоанапный текст.

З. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить АВВУУ FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).

Рис. 4.20. Оптическое распознавание документов

4.5.2. Компьютерные словари

И программы-переводчики

Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.

В обычном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка.

Компьютерны е словари (русско-английские и англо-русские, русс ко-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельны е программы, бывают встроены в текстовые процессоры, существуют в оп-йпе-режиме в сети Интернет.

Www Сервис Яндекс-словари (http://slovari.yandex.ru/) обеспечивает перевод слов с семи иностранных языков на русский и обратно. Вы можете получить полную информацио о правильном произношении и написании иностранных слов, синонимах и примерах использования.

Компьютерные словари ВЫПоЛНЯЮт перевод отдельных слов и сло восочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка - правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.

С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.

Сервис Переводчик текста (http://www.translate.ru/[)efault.aspxnext) предназначен для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. В нём поддерживаются английский, русский, немецкий, французский, испанский, португальский, итальянский и литовский языки; обеспечивается 26 направлений перевода (англо-русский и русско-английский; немецко-русский и русско-немецкий; французско-русский и русско-французский и т. д.).

Распознавание текстов и компьютерный перевод

САМОЕ ГЛАВНОЕ

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков. Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.

Вопросы и задания

1. В каких случаях программы распознавания текста экономят время и силы человека?

2. Сколько времени потребуется для ввода в память компьютера текста романа Л. Дюма «Три мушкетёра» с помощью сканера и программы АВВУУ FineReader, если известно, что на сканирование одной страницы уходит З с, на смену страницы в сканере - 5 с, на распознавание страницы - 2 с?

З. Найдите в Интернете информацию о технологии сканирующего листания. В чём её суть?

4. Какие, по вашему мнению, основные преимущества компьютерных словарей перед обычными словарями в форме книг?

5. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художествен ных произведений?

6. С помощью имеющейся в вашем распоряжении программы-переводчика переведите на знакомый вам иностранный язык фразу: «Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией». Полученный результат с помощью той же программы переведите на русский язык. Сравните текст исходной фразы и конечный результат. Дайте свои комментарии.

Оценка количественных параметров

Текстовых документов

Ключевые слова:

Кодовая таблица

Восьмиразрядный двоичный код

Информационный объём текста

Практическая работа по теме «Визуализация информации в текстовых документах».

Дан текст:

Самые известные космонавты.

Прошло уже 55 лет с того дня, как первый человек поднялся в космос. С тех пор там побывало более 500 человек, из них - более 50 женщин. На орбите нашей планете побывали представители 36 стран.

Юрий Гагарин (1934-1968). 12 апреля 1961 года с Байконура стартовал космический корабль Восток-1 с первым в истории космонавтом на борту. На орбите Гагарин делал простейшие эксперименты - ел, пил, делал заметки. Космонавт выполнил 1 оборот вокруг Земли, что заняло 108 минут. День же исторического полета стал праздноваться, как День космонавтики. 12 апреля 1961 года навсегда изменило жизнь человечества и самого Гагарина. Он стал живым символом.

Валентина Терешкова (род.1937). Первые успешные полеты советских космонавтов зародили мысль у главного конструктора Сергея Королева запустить в космос и женщину. С 1962 года по всей стране отбирали претенденток. Из пяти подготовленных кандидатов была выбрана именно Терешкова, в том числе благодаря и своему рабочему происхождению. Свой первый полет женщина-космонавт совершила 16 июня 1963 года на корабле Восток-6. Пребывание в космосе заняло трое суток.

Алексей Леонов (род. 1934). В списке советских космонавтов у него №11. Славу Леонову принес его полет в космос в статусе второго пилота на космическом корабле «Восход-2» 18-19 марта 1961 года. Космонавт совершил первый в истории выход в открытый космос, который продлился 12 минут 9 секунд. Во время тех исторических мгновений Леонов проявил исключительное хладнокровие - ведь его скафандр разбух, что мешало выходить в космос. Приземлился корабль в глухой тайге, космонавты двое суток провели на морозе.

Нил Армстронг (род. 1930). 20 июля Нил Армстронг и пилот Эдвин Олдрин посадили свой лунный модуль в районе Моря Спокойствия. Пребывание на поверхности Луны заняло 21,5 час. Астронавты совершили также выход на лунную поверхность, длительностью 2,5 часа. Первым человеком, ступившим туда, стал именно Нил Армстронг. Встав на поверхность, космонавт произнес историческую фразу: «Это лишь один маленький шаг для человека, но огромный скачок для всего человечества.»

Сергей Крикалев (род.1958). Два человека - Джерри Росс и Франклин Чанг-Диаз побывали в космосе 7 раз. Но рекорд по времени, проведенному на орбите, принадлежит советскому и российскому космонавту. Он стартовал в небо 6 раз, проведя в космосе в общей сложности 803 дня. Свой последний полет космонавт совершил в 2005 году, прожив на МКС полгода.

Валерий Поляков (род. 1942). Профессия Полякова - врач, он стал доктором медицинских наук и профессором. В истории СССР и России Поляков стал космонавтом №66. Именно ему принадлежит рекорд наиболее длительного пребывания в космосе. На орбите Земли Поляков пробыл 437 суток 18 часов, в течение 1994-1995 годов. А свой первый полет космонавт совершил еще в 1988 году, находясь над Землей с 29 августа 1988 года по 27 апреля 1989 года. Тот полет продлился 240 суток, за что Валерий Поляков получил звание Героя Советского Союза. Всего Поляков провел в космосе 678 суток.

Согласно тексту составить:

    Нумерованный список людей побывавших в космосе, согласно дате их полета (от самого раннего);

    Проиллюстрировать текст картинками (Рабочий стол- папка Космос);

    По тексту составить таблицу типа:

4) Из папки «Оценка» выберите картинку и оцените свою практическую работу, вставив изображение под выполненной работой.

6-8 классы.

Ключевые понятия:

  • визуализация информации в текстовых документах;
  • форматирование символов, абзацев, страниц;
  • колонтитулы;
  • нумерованные списки, маркированные списки, многоуровневые списки;
  • таблица;
  • графические изображения в тексте;
  • формат файла текстового документа.

Для проведения урока необходимы:

ноутбук (2–3 шт. на группу из 5–7 учащихся), фотоаппарат (1–2 шт. на группу из 5–7 учащихся), USB-шнур для копирования фотографий на компьютер, можно использовать мобильные телефоны или планшеты учащихся с функцией фотографирования, возможно использование Bluetooth.

Место проведения урока:

двор школы или ближайшего жилого дома (желательно с детской площадкой, зелёными насаждениями и иными объектами, которые могут стать предметами для описания).

Памятные даты:

День города – ежегодный общегородской праздник. Отмечается в Москве в первую субботу сентября . В этот день по всему городу проходят народные гуляния и концерты. Традиционные места основных торжеств: Тверская улица, Красная площадь, Васильевский спуск, Поклонная гора и Воробьёвы горы. Завершает День города праздничный салют.

Форма проведения урока:

практическая работа на местности. Данный урок можно провести в урочное время в рамках расписания, так как он не требует затрат времени на дорогу.

Дополнительно: при проведении данного урока обучающихся следует познакомить с геоинформационным порталом «Наш город» http://gorod.mos.ru/ .

Галерея изображений:

Свободное описание урока:

  • Урок является заключительным уроком при изучении темы «Обработка текстовой информации».
  • Учащиеся разрабатывают буклет (листовку) на две страницы о школе и его пришкольной территории или о близлежащем жилом доме и его дворе.
  • Это практическая работа, выполняемая на местности. Для выполнения данной работы учащиеся делятся на две группы, каждая из которых выполняет свою часть работы.
  • Описываемая территория должна содержать достаточное количество объектов, которые можно было бы разделить на 2 разные категории (по количеству групп). Например, описание школы (дома) и инфраструктуры – одна категория, которую описывает одна группа. Вторая категория объектов – объекты, имеющиеся на школьном дворе (во дворе дома): детские и спортивные площадки, малые архитектурные формы и т.д., которую описывает вторая группа.
  • Буклет (листовка) должна включать структурные элементы текстового редактора (процессора), которые были изучены на уроках.
  • Состав структурных элементов определяется учителем исходя из пройденного материала. Их список выдаётся учащимся как обязательные элемент практической работы.

Ключевые слова:

  • нумерованные списки
  • маркированные списки
  • многоуровневые списки
  • таблица
  • графические изображения

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами). Современные текстовые процессоры представляют пользователям широкие возможности визуализации информации в создаваемых документах.

4.4.1. Списки

Всевозможные перечни в документах оформляются с помощью списков. При этом все пункты перечня рассматриваются как абзацы, оформленные по единому образцу.

По способу оформления различают нумерованные и маркированные списки.

Элементы (пункты) нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры. Элементы списка могут быть пронумерованы и буквами - русскими или латинскими (рис. 4.14).

Рис. 4.14.
Примеры нумерованных списков

Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов. Особенно часто такие списки используют для описания последовательности действий. Нумерованные списки вы регулярно создаёте, заполняя в дневнике расписание уроков на каждый учебный день.

При создании новых, удалении или перемещении существующих элементов нумерованного списка в текстовом процессоре вся нумерация списка меняется автоматически.

Элементы маркированного списка обозначаются с помощью значков-маркеров. Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита, и даже небольшое графическое изображение (рис. 4.15). С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.

Рис. 4.15.
Примеры маркированных списков

Маркированный список используют в тех случаях, когда порядок следования элементов в нём не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 8 классе.

По структуре различают одноуровневые и многоуровневые списки.

Списки в рассмотренных выше примерах имеют одноуровневую структуру.

Список, элемент которого сам является списком, называется многоуровневым. Так, оглавление вашего учебника информатики является многоуровневым (трёхуровневым) списком.

Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования (рис. 4.16).

Рис. 4.16.
Инструменты создания списков

4.4.2. Таблицы

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов (граф) и строк. Вам хорошо известно табличное представление расписания уроков, в табличной форме представляются расписания движения автобусов, самолётов, поездов и многое другое.

Представленная в таблице информация наглядна, компактна и легкообозрима.

Правильно оформленная таблица имеет структуру, показанную на рис. 4.17.

Рис. 4.17.
Структура таблицы

Необходимо соблюдать следующие правила оформления таблиц:

  1. Заголовок таблицы должен давать представление о содержащейся в ней информации.
  2. Заголовки столбцов и строк должны быть краткими, не содержать лишних слов и, по возможности, сокращений.
  3. В таблице должны быть указаны единицы измерения. Если они общие для всей таблицы, то указываются в заголовке таблицы (либо в скобках, либо через запятую после названия). Если единицы измерения различаются, то они указываются в заголовке соответствующей строки или столбца.
  4. Желательно, чтобы все ячейки таблицы были заполнены. При необходимости в них заносят следующие условные обозначения:

      Данные неизвестны;

      х - данные невозможны;

      ↓ - данные должны быть взяты из вышележащей ячейки.

В ячейках таблиц могут быть размещены тексты, числа, изображения. Пример таблицы показан на рис. 4.18.

Рис. 4.18.
Пример таблицы

Создать таблицу можно с помощью соответствующего пункта меню или кнопки на панели инструментов, указав необходимое число столбцов и строк; в некоторых текстовых процессорах таблицу можно «нарисовать». Созданную таблицу можно редактировать, изменяя ширину столбцов и высоту строк, добавляя и удаляя столбцы и строки, объединяя и разбивая ячейки. Вводить информацию в ячейки можно так: с помощью клавиатуры; копировать и вставлять заранее подготовленные фрагменты. В текстовых процессорах есть возможность автоматически преобразовать имеющийся текст в таблицу.

Внешний вид таблицы можно оформить самостоятельно, подобрав тип, ширину и цвет границ ячеек, цвет фона ячеек, отформатировав содержимое ячеек. Кроме того, отформатировать таблицу можно автоматически.

4.4.3. Графические изображения

Современные текстовые процессоры позволяют включать в документы различные графические изображения, созданные пользователем в других программах или найденные им в сети Интернет. Готовые графические изображения можно редактировать, изменяя их размеры, основные цвета, яркость и контрастность, поворачивая, накладывая друг на друга и т. д.

Во многих текстовых процессорах имеется возможность непосредственного создания графических изображений из наборов автофигур (графических примитивов). Также есть возможность создания красочных надписей с использованием встроенных текстовых эффектов.

Визуализировать числовую информацию, содержащуюся в таблице, можно с помощью диаграмм, средства создания которых также включены в текстовые процессоры.

Наиболее мощные текстовые процессоры позволяют строить разные виды графических схем (рис. 4.19), обеспечивающих визуализацию текстовой информации.

Рис. 4.19. Виды графических схем в текстовом процессоре Microsoft Word

Самое главное

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).

Всевозможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный - когда порядок следования пунктов в нём не важен. По структуре различают одноуровневые и многоуровневые списки.

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов и строк. Представленная в таблице информация наглядна, компактна и легкообозрима.

В современных текстовых процессорах предусмотрены возможности включения, обработки и создания графических объектов.

Вопросы и задания

  1. С какой целью разработчики включают в текстовые документы списки, таблицы, графические изображения?
  2. Для чего используются списки? Приведите примеры.
  3. Сравните нумерованные и маркированные списки. Что у них общего? В чём различие?
  4. Какой список называется многоуровневым? Приведите пример такого списка?
  5. Какая информация может быть организована в табличной форме? Какие преимущества обеспечивает табличное представление информации?
  6. Каких правил следует придерживаться при оформлении таблиц?
  7. Какие графические объекты могут быть включены в текстовый документ?
  8. Перечислите основные возможности текстовых процессоров по работе с графическими объектами.