Počítače Okna Internet

Formáty textových souborů a programy pro práci s nimi: historie a naše dny. Přípona textového souboru: typy a hlavní aspekty určování příslušnosti k programu

Soubor pravidel, podle kterých se data ukládají do souboru, se nazývá formát souboru. odlišné typy soubory jako textové soubory, rastrová grafika atd. používají různé formáty. Obecně platí, že pro stejný typ souboru lze definovat několik různých formátů, i když často tomu samému rozumí typ a formát souboru. Formát souboru je identifikován příponou názvu souboru, která je přidána k názvu souboru, když je uložen v určitém formátu, jako je DOC, GIF atd.

Formáty souborů jsou zpravidla vytvářeny pro použití v dobře definovaném aplikačním programu. Například grafické objekty vytvořené ve známém balíčku vektorová grafika CorelDRAW se ukládají jako soubory CDR, zatímco obrázky generované jiným grafickým balíkem, CorelXara, se zapisují na disk jako soubory XAR. Některé formáty nejsou spojeny s konkrétními aplikacemi, to znamená, že jsou univerzální. Jeden z nejznámějších univerzální formáty je formát TXT (formát textové soubory DOS).

Často se používá ke kompresi počítačových souborů, aby se ušetřilo místo na médiu. Existuje mnoho způsobů, jak komprimovat soubory. Tyto metody závisí na původní formát soubory. Obecně platí, že čím vyšší je kompresní poměr, tím pomalejší jsou operace čtení a zápisu.

Pokud jde o kompresní algoritmy, existují jak bezeztrátové kompresní algoritmy, tak algoritmy, které mohou způsobit ztrátu dat.



Bezeztrátová komprese zajišťuje, že všechna data, která byla v souboru před kompresí, budou přítomna i po dekomprimaci souboru. Bezztrátové kompresní mechanismy se používají při ukládání textových nebo číselných dat, jako jsou tabulky nebo soubory dokumentů. Příklady bezeztrátových kompresních algoritmů jsou známé algoritmy ZIP, ARJ a další.

Pojďme dát Stručný popis hlavní používané formáty:

§ Americký standardní kód pro výměnu informací ASCII (TXT). Formát textového souboru vyvinutý American National Standards Institute. Podporováno všemi operační systémy a všechny programy. Je to textový soubor zakódovaný v DOSu, chybí funkce pro vložení obrázku, žádné formátování, funguje na všech strojích, lze vytvářet pouze malé soubory.

§ ANSI (TXT). Formát textového souboru v ANSI kódování(pro kódovou stránku Microsoft Windows)

§ MsWord pro DOS, Windows (.DOС). Formát dokumentu vyvinutý společností Microsoft Corporation je podporován programy MS-DOS a většinou textových procesorů. Zachovává původní formátování dokumentů i znakové styly. Kromě textových informací mohou soubory tohoto formátu obsahovat grafické obrázky s různými parametry. Podporuje 256 barev. Nepodporuje kompresi. Používá se především k výměně formátovaných textových dat mezi různými platformami a aplikacemi.

§ Hypertext Markup Language HTML (HTM, HTML). Značkovací jazyk pro hypertextové dokumenty. Všechny stránky na internetu jsou vytvořeny pomocí tohoto speciálního jazyka. HTML dokumenty jsou soubory ASCII, které lze prohlížet a upravovat v libovolném textový editor. Rozdíl oproti běžnému textovému souboru je v tom, že dokumenty HTML obsahují speciální příkazy tagů, které definují pravidlo formátování dokumentu. Pokud zvládnete jazyk HTML, můžete vytvářet stránky pro internet. Přidáním tagů (popisů) k běžnému textu nutíte diváka, aby tento text zobrazoval určitým způsobem a umísťoval na stránku obrázky. Pokud jste se naučili Javu a JavaScript, víte, jak rozšířit možnosti HTML vložením příkazů napsaných ve skriptovacím jazyce do značek.

§ Portable Document Format PDF (.PDF). Tento formát úložiště dokumentů, vyvinutý společností Adobe, tvrdí, že je otevřeným typografickým standardem pro web. Je považován za alternativu k HTML. Nevýhodou HTML je, že dokumenty převedené do HTML si většinou nezachovají svůj původní formát a HTML nabízí při prohlížení velmi omezený počet druhů písma. Naproti tomu uživatelé Acrobatu a sady nástrojů PDF pro vytváření, sdílení a prohlížení dokumentů v nativním formátu vědí, že čtenáři uvidí publikaci přesně tak, jak byla vytvořena. ve formátu PDF nepostradatelné, pokud potřebujete získat přesná kopie požadovaný dokument. Jako příklad úspěšného použití PDF pro dokumenty v ruštině uvedeme server Moscow News na internetu. Prezentováno na něm v v elektronické podobě materiály zcela opakují papírový originál, vytištěný typografickým způsobem.

§ Standard Generalized Markup Language (SGML). Vývoj HTML se překládá do standardního obecného značkovacího jazyka. Jedná se o soubor nástrojů pro vytváření strukturovaných dokumentů označených deskriptory (tagy). Ve srovnání s HTML poskytuje flexibilnější a všestrannější možnosti formátování na webu. SGML je však také rychlejší, proto se jako jednodušší nástroj používá PDF. Síla SGML spočívá v jeho multiplatformním strukturovaném přístupu k popisu obsahu dokumentů. SGML je vlastně metajazyk, tzn. je určen k popisu značkovacích jazyků používaných k vytváření dokumentů.

Každý uživatel PC se neustále potýká s různými formáty textových souborů, ale sotva přemýšlí o tom, jak bohatá je historie těchto formátů a programů, které daly člověku možnost číst knihy, pracovat s textem a vytvářet veškerou potřebnou dokumentaci přímo na počítač.

Historie textových souborů není o mnoho mladší než oni sami osobní počítače- již jejich mistrovská díla byla napsána v prvních analogech moderního "notebooku". Jaké jsou tedy formáty textových souborů a programy pro práci s nimi? Nejprve musíte pochopit, k čemu textové soubory slouží, jaké jsou mezi nimi rozdíly a co mají společného. Kombinuje absolutně všechny textové formáty, jejich hlavním úkolem je ukládat textové informace. Liší se ve schopnostech zpracování a přístupu k informacím uloženým v souborech z hlediska kompatibility s jinými programy.

Nejjednodušším textovým formátem je tradičně formát TXT. Je také nejskromnější z hlediska schopností a nejstaršího textového formátu. Díky své jednoduchosti (možnosti TXT jsou omezeny na psaní a dělení na odstavce) je tento formát často používán velkým množstvím aplikací a programů na nejrůznějších platformách.

S rozšířením osobních počítačů a nárůstem jejich prodeje vytváří Microsoft další populární formát nazvaný Rich Text Format (nebo jednoduše RTF). Jedná se o text, který je označen určitými „kontrolními slovy“, která umožňují nejen vytvářet, ale také ukládat složité formátovací prvky a vkládat do textu vzorce, tabulky, obrázky, záhlaví a poznámky pod čarou.

RTF je však ve schopnostech značně horší než formát DOC, také vytvořený společností Microsoft speciálně pro softwarový balíček tzv. Microsoft Office. DOC, vytvořený před více než patnácti lety, zahrnuje obrovské množství možností pro formátování a zpracování textu, vytváření, úpravy a umísťování obrázků, grafů, tabulek a dalších prvků. Je třeba poznamenat, že tyto funkce budou nejsprávněji fungovat pouze v MS Word. Je to dáno především tím, že Microsoft nedisponuje aktuálními specifikacemi pro formát DOC a neumožňuje svým konkurentům a nezávislým vývojářům využívat plné možnosti tohoto formátu. Právě tato skutečnost je jedním z hlavních důvodů, proč se v naší době vedle formátu DOC hojně používají i jiné formáty textových souborů.

Hlavním rozdílem mezi formátem DOC a textem a formátem TXT je jeho binárnost, díky které se stává nečitelným v tak jednoduchých, jako jsou Wordpad, Lexicon, Atlantis. V některých případech lze navíc pozorovat nekompatibilitu souborů DOC vytvořených v různých verzích MS Word.

Formáty textových souborů lze otevřít a upravit v obrovském množství programů. Kromě již zmíněného MS Wordu jsou nejběžnějšími StarOffice od Sun Microsystems, WordPerfect od Corel a balíček zdarma openoffice.org.

S rozšířením elektronických čtecích zařízení získávají na oblibě i další formáty textových souborů, například FB2 a LRF.

Aby bylo možné používat různé textové formáty na různých platformách bylo vytvořeno velké množství programů zvaných konvertory. Převaděče textových souborů umožňují uložit zdrojový text z jednoho formátu do druhého a použít jej později různá zařízení a platformy.

Převaděče slouží nejen k ukládání textu z jednoho formátu do druhého, ale také k vytváření souborů, které lze na rozdíl od jejich zdrojových kódů použít na zařízeních, která nejsou schopna „číst“ původní soubory. Například některé elektronické knihy, které nepodporují oblíbené formáty textových souborů, jsou schopny snadno rozpoznat formáty LRF nebo FB2 získané ze zdrojových souborů pomocí konvertorových programů.


Proč potřebujete text?

Dnes existují tři nejběžnější textové formáty – TXT, RTF a DOC. Jaký je jejich rozdíl a co je spojuje? Jedno mají společné: všechny si uchovávají textové informace. Rozdíl spočívá ve schopnostech formátování a zpracování textu, které poskytují, a také v tom, jak dostupné jsou informace o kompatibilitě programů, které ukládají.

Nejjednodušší textový formát

Nejstarší a nejskromnější formát z hlediska schopností. Vše, co můžete dělat s textem v tomto formátu, je provádět vlastní psaní a ukládat konce odstavců. Tato jednoduchost v určitých situacích nabývá na důležitosti univerzálnosti a transparentnosti: TXT je snadno čitelný v různých aplikacích a na různých platformách. Navíc mnoho programů, které ani nemají svůj bezprostřední úkol pracovat s textem, umí ukládat text ve formátu TXT.

TXT procesory

Z dob DOSu si mnoho lidí pamatuje textový procesor Lexicon, který byl schopen zpracovat formát TXT docela vysoká úroveň. Dnes je standardem hlavní nástroj pro práci s TXT Poznámkový blok Windows. Komu se zdá, že jeho funkce nestačí, vždy si v něm najde editor podle svého vkusu a potřeb Celosvětová Síť, včetně zdarma. Například pomocí freewarového programu Vega od Konstantina Sheremetyeva pravděpodobně neuvidíte zprávu, že otevíraný textový soubor je příliš velký; Vega verze 2.04 podle autora otevírá soubory do 2 Gb (!), přičemž samotný program zabere pouze 9,5 kb (srovnejte Poznámkový blok ve Windows XP „váží“ cca 65 kb); zatímco Vega je ještě pohodlnější než Poznámkový blok a nevyžaduje instalaci. A zde je další příklad možností zpracování " prostý text". Text, který čtete, byl napsán v procesoru UltraEdit od IDM Computer Solutions. Jeho silnou stránkou je speciální zobrazení a zpracování syntaxe programovacích jazyků, ale i s tím nejpřímějším textem dokáže zázraky. Znalci pohodlných rusifikovaných programů, ergonomických a co je nejdůležitější, „znalých“ ve specifikách kódování cyrilice, by se měli seznámit s programem Patriot.

Formátování a všestrannost

Rich Text Format – toto je zkratka, která stojí v názvu formátu vytvořeného společností Microsoft Corporation. RTF je text označený speciálními „řídícími slovy“, což vám umožňuje vytvářet a ukládat poměrně složité formátování, vkládat poznámky pod čarou, záhlaví a zápatí, obrázky, tabulky a vzorce, ačkoli RTF je ve zpracování těchto dodatečných objektů horší než DOC. Je také horší než DOC, pokud jde o objem souboru: použití „řídících slov“ pro formátování textu místo šablony stylů nevede ke kompaktnosti. RTF však vyhrává spor s DOC ohledně bezpečnosti, as jeho vnitřní organizace nezajišťuje ukládání makrokódu, a proto je nezranitelný vůči makrovirům.

RTF procesory

RTF se používá jako primární nebo podporovaný formát v mnoha, ne-li ve většině programů pro zpracování textu. Dobrou pomůckou může být například Hieroglyf Michaila Morozova. Tento program implementuje nejen kontrolu pravopisu ruského jazyka, ale také funkci automatické změny jazykového rozložení klávesnice. Textový procesor Atlantis od společnosti Rising Sun Solutions, dostupný jak v komerční, tak i v komerční verzi bezplatné verze, bude jistě vyhovovat mnoha uživatelům s promyšleností rozhraní, přítomností velkého množství klávesové zkratky, vyměnitelný panel nástrojů a další funkce. S RTF umí pracovat i již zmíněný editor Patriot.

"Největší" formát textu

Formát DOC zahrnuje nejširší možnosti zpracování a formátování textu, včetně vytváření poznámek pod čarou a komentářů, stejně jako možnost vytvářet, umísťovat a upravovat tabulky, grafy, obrázky a další prvky. Pravda, všechny tyto funkce jsou plně a nejsprávněji implementovány pouze v MS Word, k čemuž přispívá i pozice Microsoftu, která aktuální specifikace oblíbeného formátu nezveřejňuje. Navzdory tomu, že DOC „rozumějí“ i jiné programy, jejich výrobci nejsou vždy schopni zajistit jeho správné rozpoznání. Na rozdíl od TXT a RTF je DOC binární formát, díky čemuž je v jednoduchých textových editorech nečitelný a navíc nezajišťuje plnou kompatibilitu vlastních verzí.

procesory DOC

Hlavním a z výše uvedených důvodů „nepostradatelný“ textový procesor pro práci s DOC je MS Word, který nejúplněji implementuje všechny možnosti tohoto formátu. Vývoj třetích stran přidává Wordu hodně produktivity a funkčnosti – na internetu existuje velké množství všech druhů doplňků, maker a programů. Konkurenci pro Word poskytují například WordPerfect od Corelu, StarOffice od Sun Microsystems a bezplatný OpenOffice.org. Při práci ve Wordu a dalších programech byste si měli dávat pozor na problém s kompatibilitou formátů a ukládat dokument do DOC pouze v případě, že jste si jisti, že k nekompatibilitě nedojde.

Použitelnost formátů

Je nerozumné tvrdit, že jeden z uvažovaných formátů je horší než ostatní, aniž bychom vzali v úvahu specifika úkolů, pro které by měly být použity. Vzhledem k tomu, že si nebudeme dávat za úkol rozložení v textovém procesoru, je výběr téměř jednoznačný. Chcete-li připravit objemy textu od středních až po velmi velké a zajistit „úplné pochopení“ toho, co se píše jakýmkoli programem pro rozvržení, zdá se nejvhodnější použít nejjednodušší, nejkompaktnější a nejuniverzálnější způsob psaní a ukládání textu – formát TXT. Co se týče použití jiných textových formátů v layoutu, hodně záleží na implementaci jejich podpory v konkrétním layout programu.
OpenOffice.org je mezinárodní open source projekt zaměřený na vytvoření univerzálního kancelářský oblek, běžící na různých operačních platformách, mající otevřené API a souborový formát založený na XML. OpenOffice.org je v podstatě sada programů vyvinutých pod tento projekt. Obsahuje: textový procesor, tabulky, grafický editor, prezentační systém a systém pro přístup k datům. Z hlediska svých schopností je srovnatelný s podobnými komerčními programy a lze jej považovat za jejich alternativu. OpenOffice.org je v současné době vydáván pod dvěma licencemi: GPL a SISSL. Navzdory rozdílům v těchto licencích je OpenOffice.org pro koncového uživatele zdarma.

OpenOffice.org odvozuje svůj původ od kancelářského balíku StarOffice, který vyvinula německá společnost StarDivision v polovině 90. let. Na podzim roku 1999 Sun Corporation koupila StarDivision. V červnu 2000 byl vydán StarOffice 5.2 pod ochrannou známkou Sun pro MS Windows, Linux a Solaris. 13. října 2000 byl otevřen zdrojový kód pro StarOffice (s výjimkou kódu pro některé moduly vyvinuté třetími stranami) a tento den je oficiálně považován za narozeniny OpenOffice.org. Dnes je OpenOffice.org kódován jak dobrovolníky z celého světa, tak programátory ze Sun Corporation.

Aktuálně od jednoho zdrojový kód, vyvinutý komunitou OpenOffice.org, jsou vydány dva produkty: StarOffice, který přidává součásti pod proprietární licencí, a bezplatný OpenOffice.org. OpenOffice.org nahradil většinu proprietárních komponent nalezených ve StarOffice jejich bezplatnými protějšky.

(Podle cnews.ru.)