Як отримати кращі голоси синтезу мовлення для цільової мови
Як отримати кращі голоси синтезу мовлення для цільової мови
Коли ви торкаєтеся значка динаміка на фразі в Polyglotton, ваш браузер використовує вбудований рушій синтезу мовлення вашого пристрою, щоб прочитати її вголос. На більшості пристроїв це добре працює для рідної мови — але звучить роботизовано або взагалі не працює для мови, яку ви намагаєтеся вивчити.
Цей посібник пояснює, чому так відбувається, і показує, як саме це виправити на кожній платформі.
Чому на вашому пристрої немає потрібного голосу
Ваша операційна система була налаштована на заводі для регіону, в якому її продавали. Встановлення всіх мовних голосів наперед додало б від 200 МБ до 2 ГБ на мову — а з приблизно 100 підтримуваними мовами на Windows, macOS та Android це швидко перетворюється на 20–200 ГБ аудіоданих, які більшість користувачів ніколи не використовуватиме.
Тому виробники постачають лише голоси для вашого регіону й дозволяють завантажувати решту на вимогу.
Хороші новини: це тихо змінюється. Нове покоління голосів, синтезованих штучним інтелектом — Neural TTS від Apple у macOS Sonoma і новіших версіях, нейронні голоси Microsoft у Windows 11 і голоси WaveNet від Google на Android — значно менші й звучать набагато краще, ніж старі конкатенативні моделі. Оскільки локальний ШІ стає стандартом (Apple Intelligence в iOS/macOS 26, Google Gemini Nano на Pixel, Samsung Galaxy AI), ваша операційна система дедалі частіше зможе генерувати будь-який голос на льоту, а не завантажувати записи заздалегідь. До того, коли кожна мова природньо звучатиме з коробки, лишилося, мабуть, рік-два. А поки що швидке ручне встановлення допоможе вирішити питання.
macOS (Ventura, Sonoma, Sequoia)
macOS містить найякісніші голоси Apple класу «Enhanced» і «Premium», але за замовчуванням завантажується лише мова вашої системи.
- Відкрийте Меню Apple → Системні налаштування
- Натисніть Спеціальні можливості на бічній панелі
- Натисніть Вимовлений вміст
- Поруч із Системний голос натисніть на спадне меню та виберіть Керувати голосами… (Sonoma/Sequoia) — або натисніть на значок ⓘ поруч з вибраним голосом (Ventura)
- У списку голосів знайдіть свою цільову мову (напр. угорська, нідерландська, французька)
- Розгорніть мову, щоб побачити доступні голоси — шукайте варіанти якості Enhanced або Premium, вони звучать помітно природніше
- Натисніть кнопку ⬇ завантажити поруч із потрібним голосом
- Дочекайтеся завершення завантаження, а потім перезапустіть браузер
Після перезапуску новий голос з’явиться на панелі налаштувань аудіо Polyglotton у вибірнику голосів для цієї мови.
Порада для macOS Sequoia: Ви також можете надиктувати Siri: «Додати голос для [мова]» — і відкриється саме те налаштування.
Windows 11
Windows 11 використовує нейронні голоси Microsoft (так звані Природні голоси), які звучать дуже правдоподібно — але знову-таки: за замовчуванням встановлюється лише мова вашого інтерфейсу.
Спосіб 1 — через налаштування мови (рекомендовано)
- Відкрийте Параметри → Час і мова → Мова і регіон
- Натисніть Додати мову та знайдіть цільову мову (напр. французька, німецька, угорська)
- Під час встановлення переконайтеся, що Синтез мовлення відмічено у списку додаткових функцій
- Натисніть Встановити й дочекайтеся завершення завантаження
- Перезапустіть браузер, щоб новий голос став доступним
Спосіб 2 — через налаштування мовлення
- Відкрийте Параметри → Час і мова → Мовлення
- У розділі Керувати голосами натисніть Додати голоси
- Виберіть цільову мову й натисніть Додати
- Після встановлення перезапустіть браузер
Примітка: Windows може спочатку встановити базовий голос. Для природної (нейронної) версії після встановлення мовного пакету перейдіть до Параметри → Спеціальні можливості → Оповідач → Додати природні голоси.
Android
Android підтримує два основні рушії TTS. Більшість стандартних Android-телефонів використовують Google Синтез мовлення; пристрої Samsung Galaxy також комплектуються рушієм Samsung TTS. В обох випадках кроки встановлення схожі.
Google Pixel і стандартний Android
- Відкрийте Налаштування → Спеціальні можливості → Синтез мовлення
- Торкніться ⚙ значка шестерні поруч із Google Синтез мовлення
- Торкніться Встановити голосові дані
- Знайдіть цільову мову у списку й торкніться значка ⬇ завантажити поруч
- Після завантаження поверніться назад і за потреби встановіть цю мову як пріоритетну
Samsung Galaxy
Телефони Samsung Galaxy мають власний шлях налаштування:
- Відкрийте Налаштування → Загальне управління → Синтез мовлення
(На деяких моделях: Налаштування → Спеціальні можливості → Синтез мовлення) - У Пріоритетний рушій виберіть Google Синтез мовлення для найширшого охоплення мов, або залиште рушій Samsung, якщо ваша мова є там
- Торкніться ⚙ значка шестерні поруч із рушієм
- Торкніться Встановити голосові дані
- Виберіть цільову мову й торкніться ⬇ завантажити
- Закрийте та знову відкрийте браузер (Chrome або Samsung Internet), щоб виявити новий голос
Samsung Internet vs Chrome: Обидва використовують системний рушій TTS, але Chrome на Android, як правило, краще сумісний з Web Speech API. Якщо голоси досі відсутні, спробуйте змінити браузер.
iOS та iPadOS
iOS використовує системні голоси Apple, якими керують так само, як і на macOS.
- Відкрийте Налаштування → Спеціальні можливості → Вимовлений вміст → Голоси
- Торкніться цільової мови у списку
- Торкніться ⬇ завантажити поруч із потрібним голосом (для найкращої якості виберіть Enhanced)
- Після встановлення перезавантажте Safari
Відтворення голосу в Polyglotton використовує Web Speech API, яке повністю підтримується в Safari на iOS 16+ і Chrome на Android.
Після встановлення: вибір голосу в Polyglotton
Після завантаження голосу відкрийте панель налаштувань аудіо в Polyglotton (кнопка динаміка в правому нижньому куті сторінки уроку) і виберіть новий голос у спадному меню Голос — він з’явиться автоматично, щойно браузер його виявить.
Ви також можете налаштувати Швидкість і Висоту, щоб підібрати темп, який відчувається природним. Повільніша швидкість чудово підходить для вловлювання деталей вимови; вища швидкість допомагає розвинути побіжність, коли ви вже освоїлися з фразами.
Що попереду
Наступна хвиля локального ШІ робить увесь цей ручний процес застарілим. Apple Intelligence (розгортається в iOS 26 і macOS Tahoe у 2025–2026 роках) містить нейронний шар синтезу, який може генерувати природне мовлення будь-якою підтримуваною мовою безпосередньо на вашому пристрої — без попередньо завантаженого голосового пакету. Microsoft рухається схожим шляхом із нейронними голосами на базі Copilot у Windows, а Google Gemini Nano на Android вже обробляє багатомовний синтез офлайн.
Протягом одного-двох років ваш пристрій зможе говорити будь-якою мовою так само природно, як і рідною — автоматично, без жодного налаштування. До того часу наведені вище кроки вже сьогодні приведуть вас майже до фінішу.