4aba » 01 фев 2012, 12:32
Нашел способ как выбрать частоупотребляемые слова
Требуется:
1. Сохраненная переписка (Я взял переписку вконтакте, 3 самые активные, больше мегабайта слов)
1а. Преобразователь utf-8 -> ANSI (понадобился для вконтакта) Я использовал Notepad++
2. Программа "Частотный словарь"
3. M$ Office или OpenOffice или иже подобные (я использовал M$Office 2007)
4. Смена завершения строки на линуксовую (мне после M$Office понадобилось)
Выполняем:
1.
Скачиваем переписку (вконтакте можно через разширение vkopt, появляется пункт сохранить историю)
1а.
Открываем скачаную историю в Notepad++ и #Encoding -> Convert to ANSI# сохраняем.
2.
- Скачиваем "Частотный словарь", ложим его в любую папку,
- Создаем в этой папке папку dict в которую ложим все текстовые файлы полученые после NotePad++,
- Создаем ярлык на stats.exe, правой кнопкой на ярлыке, свойства, в строке обьект дописываем "-win dict" (у меня строка получилась такой "C:\Documents and Settings\Администратор\Рабочий стол\Новая папка (11)\stats.exe" -win dict)
3.
- Открываем файл freq_dict в любом текстовом редакторе (например Notepad++) и удаляем первые строки "0 files processed, 0 bytes, 180107 words 24002 distinct word forms found Average word length: 4.42892" чтоб не мешали
- Открываем M$Office (я использовал его) #Меню -> Открыть -> внизу тип файлов "Текстовые файлы" выбираем файл freq_dict#
- Откроется "Мастер текстов(импорт)" нажимаем Далее, в графе "Символом-разделителем является:" ставим галочку на "пробел", нажимаем далее, готово
- Теперь в второй колонке у нас слова а в первой количество употреблений, можете подредактировать удаляя всю строку (Правой кнопкой на номер строки -> Удалить)
- Нужно отсортировать по убыванию, для этого ставим квадратик на А1, в разделе Главная пункт "Сортировка и Фильтр" (он справа, нарисована Ая и лейка) выбираем "Сортировка от максимального к минимальному", теперь слова отсортированы по количеству использования, выше было написано что запоминаются лишь 2573 слова, так что обрезаем словарь ниже 2573 строки (Вылелить все строки что ниже,выделяем строку 2574, Ctrl+Shift+End, кнопка del на клавиатуре) и удаляем первый столбец, он нам уже не нужен #Правой кнопкой на A -> Удалить#
- Сохраняем. #Меню -> Сохранить как -> Другие форматы -> внизу выбираем Текстовые файлы (с разделителями табуляции)# и пишем имя slovar , на вопрос отвечаем Да. Закрываем M$Office.
4.
- Открываем файл slovar в Notepad++
- #Edit -> EOL Conversion -> UNIX format
- #Encoding -> Convert to UTF-8 without BOM#
- Сохраняем.
Установка всего этого чуда в телефон (использую palm preplus webos2.1)
1. Подключаем телефон в режиме USB Drive
2. Создаем папку AddDict на телефоне (чтоб не захламлять)
3. Копируем в папку полученый выше slovar.txt , приложеный файл add_slovar.txt
4. Переподключаем в режиме Just Charge (как вариант правой кнопкой на Palm в мой компьютер и извлечь)
5. Открываем WebOSQuickInstall (я использую 4.3.1)
6. #Tools -> Linux Commandline#
7. в новом окне пишем cd /media/internal/AddDict
8. sh add_slovar.txt процес длительный
должно писаться чтото типа "{ "word": "╨╜╨╡", "returnValue": true }"
само слово в windows-консоли не отображается
5-альтернативный. Если установлен ssh или консоль на palm, то заходим на него, пишет теже cd /media/internal/AddDict и sh add_slovar.txt и должно отображаться добавляемое слово (в putty для этого выбрать кодировку utf8)
Можете себя поздравить, и меня поблагодарить заодно, у вас на Palm теперь есть словать из часто употребляемых именно вами слов.
P.S. Один минус, это если часто опечатывались в переписках то такиежа опечатки будут и на Palm)) можно сделать проверку орфографии в exel с автозаменой но я этим не заморачивался. Проверено, все работает сделал ошибку в лове, и не заметил как оно само исправилось.
- Вложения
-
- add_slovar.zip
- (287 байт) Скачиваний: 537
- За это сообщение автора 4aba поблагодарил:
- sk555 (03 янв 2013, 15:53)